Machine Learning (EP.2)- รู้จักกับข้อมูลชุดเรียนรู้และข้อมูลชุดทดสอบ
กระบวนการ Machine Learning จะแบ่งข้อมูลสำคัญๆออกเป็น 2 ส่วน คือ
ข้อมูลชุดเรียนรู้ (Training Set) ถูกนำไปเรียนรู้ด้วยวิธีการเรียนรู้เครื่องจักรเพื่อสร้างเป็นโมเดล (Model) จะประกอบไปด้วย label / class เพื่อบอกว่าข้อมูลชุดนี้คืออะไร เช่น ชุดข้อมูลตัวเลข 0–9 , ข้อมูลสายพันธ์สุนัข เป็นต้น
ข้อมูลชุดทดสอบ (Test Set) ใช้ทดสอบโมเดลที่สร้างขึ้น หากโมเดลที่ทดสอบมีประสิทธิภาพดีจึงจะนำไปใช้งานจริง
- *ในกรณีที่ไม่มีการแบ่งข้อมูลเป็น 2 ส่วนสามารถเขียนโปรแกรมเพื่อแบ่งข้อมูลได้โดยแบ่งข้อมูลเป็น 75% สำหรับเรียนรู้และอีก 25% สำหรับทดสอบ
- ดาวน์โหลด MNIST DataSet ตัวเต็มได้ที่ https://osf.io/jda6s/
หัวข้อที่เกี่ยวข้อง : สรุป Machine Learning ตอนที่ 1 — Data Set
Machine Learning คือ การใช้ ‘ข้อมูล’ สอนให้ระบบคอมพิวเตอร์ทำการเรียนรู้ได้ด้วยตนเองแบ่งออกเป็น
- การเรียนรู้แบบมีผู้สอน (Supervised Machine Learning Algorithms) ข้อมูลที่ใช้ในการฝึกนั้นเรียกว่า ข้อมูลชุดเรียนรู้ (Training Data / Training Set) นำมาแยกประเภทผลลัพธ์ด้วยการติดป้ายกำกับ (Labels/Class) เป็นผลเฉลย จากนั้นนำข้อมูลที่ติดป้ายแล้วไปใช้ในการฝึกของเครื่องที่ทำงานผ่านอัลกอริทึมสำหรับสร้างโมเดลที่ใช้ในการทำนายผลลัพธ์ โดยนำข้อมูลใหม่หรือข้อมูลชุดทดสอบ (Test Set) ไปใช้ทดสอบประสิทธิภาพของโมเดล
2.การเรียนรู้แบบไม่มีผู้สอน (Unsupervised Machine Learning Algorithms) เป็นการเรียนรู้ด้วยข้อมูลที่ไม่ถูกจัดประเภท หรือติดป้ายกำกับข้อมูล วิธีนี้เครื่องจะคาดเดาข้อมูลที่ได้รับและทำความเข้าใจถึงโครงสร้างที่ซ่อนอยู่ไม่สามารถหาผลลัพธ์ที่ถูกต้องได้ แต่จะใช้วิธี สำรวจข้อมูลและใช้การประมาณการว่าข้อมูลนั้นคืออะไร
บทความที่เกี่ยวข้อง
EP.1 — ชุดข้อมูล (DataSet)
EP.2 — รู้จักกับข้อมูลชุดเรียนรู้และข้อมูลชุดทดสอบ
EP.3 — Linear Regression
EP.4 — Binary Classifier
EP.5 — K-nearest Neighbors
EP.6 — Naive Bayes
EP.7 — การวิเคราะห์องค์ประกอบหลัก (PCA)
EP.8 — การจัดกลุ่มด้วย K-Means(K-Means Clustering)
EP.9 — การจดจำใบหน้า (Face Recognition)
EP.10 — การจดจำตัวอักษร (Character Recognition)