Machine Learning(EP.1)- ชุดข้อมูล (DataSet)
#เนื้อหาที่ระบุในบทความเป็นส่วนหนึ่งที่ใช้ประกอบการสอน Python & Machine Learning ในช่อง KongRuksiam Tutorial
Dataset (ชุดข้อมูล)
คือ การนำข้อมูลที่มีคุณสมบัติเหมือนกันมาจัดเป็นชุดให้ถูกต้องตามลักษณะโครงสร้างข้อมูล โดยชุดข้อมูลพื้นฐานที่ใช้กันอย่างแพร่หลายทางด้าน Machine Learning ได้แก่ชุดข้อมูลดอกไม้ (Iris Dataset) กับ ชุดข้อมูลลายมือตัวเลขอารบิก (MNSIT Dataset)
1.ชุดข้อมูลดอกไม้ (Iris Dataset) เป็นชุดข้อมูลพื้นฐานที่ใช้งานอย่างแพร่หลายในด้านสถิติและ Machine Learning โดยชุดข้อมูลดอกไม้ประกอบไปด้วยดอกไม้ 3 สายพันธุ์ได้แก่ Versicolor , Setosa , Virginica ดังภาพประกอบด้านล่าง
คุณสมบัติหรือ Feature ในชุดข้อมูลดอกไม้
คือการวัดความกว้างและความยาวของกลีบใบที่เรียกว่า Sepal และ Petal (มีหน่วยเป็นเซนติเมตร cm.)
ตัวอย่างการเก็บชุดข้อมูลดอกไม้
การโหลดและเรียกใช้งานชุดข้อมูลดอกไม้สามารถตะลุยใน LAB Python Machine Learning ในช่องยูทูปได้เลย
สรุป :
- Class Label / Target คือ ชื่อข้อมูลที่ต้องการทราบเป็นผลลัพธ์ (Output) เช่น ชื่อสายพันธุ์ดอกไม้ 3 ชนิด
- Attribute / Features คือ คุณสมบัติของดอกไม้แต่ละสายพันธุ์ (ความยาว ความสูงหน่วยเซนติเมตร)
2.ชุดข้อมูลลายมือตัวเลขอารบิก (MNIST Dataset) คือ ชุดข้อมูลลายมือตัวเลขอารบิกเลข 0–9 มีขนาดรูปภาพ 28 x 28 Pixels มีข้อมูลในชุดเรียนรู้จำนวน 60,000 รูปภาพและข้อมูลชุดทดสอบจำนวน 10,000 รูปภาพ ดังภาพประกอบด้านล่าง
สรุป :
- Class Label / Target คือ ชื่อข้อมูลที่ต้องการทราบเป็นผลลัพธ์ (Output) คือตัวเลข 0–9
- Attribute / Features คือ ภาพวาดลายมือตัวเลขอารบิกแต่ละตัว
การโหลดและเรียกใช้งานชุดข้อมูล MNIST สามารถตะลุยใน LAB Python Machine Learning ในช่องยูทูปได้เลย
บทความที่เกี่ยวข้อง
EP.1 — ชุดข้อมูล (DataSet)
EP.2 — รู้จักกับข้อมูลชุดเรียนรู้และข้อมูลชุดทดสอบ
EP.3 — Linear Regression
EP.4 — Binary Classifier
EP.5— K-nearest Neighbors
EP.6 — Naive Bayes
EP.7 — การวิเคราะห์องค์ประกอบหลัก (PCA)
EP.8 — การจัดกลุ่มด้วย K-Means(K-Means Clustering)
EP.9 — การจดจำใบหน้า (Face Recognition)
EP.10 — การจดจำตัวอักษร (Character Recognition)