Machine Learning(EP.1)- ชุดข้อมูล (DataSet)

KongRuksiam Studio
2 min readJan 11, 2020

--

#เนื้อหาที่ระบุในบทความเป็นส่วนหนึ่งที่ใช้ประกอบการสอน Python & Machine Learning ในช่อง KongRuksiam Tutorial

Dataset (ชุดข้อมูล)

คือ การนำข้อมูลที่มีคุณสมบัติเหมือนกันมาจัดเป็นชุดให้ถูกต้องตามลักษณะโครงสร้างข้อมูล โดยชุดข้อมูลพื้นฐานที่ใช้กันอย่างแพร่หลายทางด้าน Machine Learning ได้แก่ชุดข้อมูลดอกไม้ (Iris Dataset) กับ ชุดข้อมูลลายมือตัวเลขอารบิก (MNSIT Dataset)

1.ชุดข้อมูลดอกไม้ (Iris Dataset) เป็นชุดข้อมูลพื้นฐานที่ใช้งานอย่างแพร่หลายในด้านสถิติและ Machine Learning โดยชุดข้อมูลดอกไม้ประกอบไปด้วยดอกไม้ 3 สายพันธุ์ได้แก่ Versicolor , Setosa , Virginica ดังภาพประกอบด้านล่าง

คุณสมบัติหรือ Feature ในชุดข้อมูลดอกไม้
คือการวัดความกว้างและความยาวของกลีบใบที่เรียกว่า Sepal และ Petal (มีหน่วยเป็นเซนติเมตร cm.)

ตัวอย่างการเก็บชุดข้อมูลดอกไม้

การโหลดและเรียกใช้งานชุดข้อมูลดอกไม้สามารถตะลุยใน LAB Python Machine Learning ในช่องยูทูปได้เลย

สรุป :

  • Class Label / Target คือ ชื่อข้อมูลที่ต้องการทราบเป็นผลลัพธ์ (Output) เช่น ชื่อสายพันธุ์ดอกไม้ 3 ชนิด
  • Attribute / Features คือ คุณสมบัติของดอกไม้แต่ละสายพันธุ์ (ความยาว ความสูงหน่วยเซนติเมตร)

2.ชุดข้อมูลลายมือตัวเลขอารบิก (MNIST Dataset) คือ ชุดข้อมูลลายมือตัวเลขอารบิกเลข 0–9 มีขนาดรูปภาพ 28 x 28 Pixels มีข้อมูลในชุดเรียนรู้จำนวน 60,000 รูปภาพและข้อมูลชุดทดสอบจำนวน 10,000 รูปภาพ ดังภาพประกอบด้านล่าง

สรุป :

  • Class Label / Target คือ ชื่อข้อมูลที่ต้องการทราบเป็นผลลัพธ์ (Output) คือตัวเลข 0–9
  • Attribute / Features คือ ภาพวาดลายมือตัวเลขอารบิกแต่ละตัว

การโหลดและเรียกใช้งานชุดข้อมูล MNIST สามารถตะลุยใน LAB Python Machine Learning ในช่องยูทูปได้เลย

🌎 ติดตามข่าวสารเพิ่มเติมได้ที่
Facebook | YouTube | TikTok

--

--

KongRuksiam Studio
KongRuksiam Studio

Written by KongRuksiam Studio

เรียนรู้การเขียนโปรแกรมนอกห้องเรียน

No responses yet