Machine Learning(EP.7)- การวิเคราะห์องค์ประกอบหลัก (PCA)
การวิเคราะห์องค์ประกอบหลัก (Principal Component Analysis : PCA)
เป็นวิธีที่ใช้วิเคราะห์ข้อมูลหลายตัวแปร เพื่อหาความสัมพันธ์ของตัวแปรเหล่านั้นส่งผลทำให้เกิดการลดขนาด Matrix ที่มีความซับซ้อนเล็กลงง่ายต่อการอธิบาย นำมาประยุกต์ลดขนาดของคุณลักษณะ (Features) ให้มีขนาดเล็กลง ซึ่งจะส่งผลทำให้การสร้างโมเดลนั้นใช้เวลาน้อยลง
ยกตัวอย่าง สมมุติว่ามีตัวแปรหรือคุณลักษณะประมาณ 50 ตัว แต่อาจจะไม่ได้ใช้งานตัวแปรเหล่านี้ทั้งหมด เราต้องอาศัยการเรียงลำดับความสำคัญของตัวแปร
เช่น ตัวแปรใดบ้างส่งผลกระทบก็นำมาใช้งาน ตัวแปรใดแทบไม่มีเกี่ยวข้องเลยก็ไม่ต้องทำมาใช้งานนั่นเอง หลักการง่ายๆนี้แหละเรียกว่า (Principal Component Analysis : PCA)หลักการนี้จะไม่ส่งผลกระทบต่อข้อมูลหลักของเรา เพียงแค่ปรับเปลี่ยนมุมมองข้อมูลใหม่ให้ข้อมูลมีความกระชับ มีขนาดเล็กลงง่ายต่อการนำไปใช้งาน
PCA จะทำการสร้างตัวแปรที่เรียกว่า component โดยแต่ละ component จะไม่มีความสัมพันธ์กันเลย component ตัวแรกจะมีค่า variance สูงที่สุด ซึ่งจะอธิบาย ข้อมูลได้มากที่สุด และตัวถัดๆ ไปก็จะมี variance ลดลงตามลำดับ จำนวน component ที่เหมาะสมที่ถูกเลือกมาใช้จะครอบคลุม variance ประมาณ 80–90%
Variance Explained คือความผันแปรของแต่ละองค์ประกอบ
บทความที่เกี่ยวข้อง
EP.1 — ชุดข้อมูล (DataSet)
EP.2 — รู้จักกับข้อมูลชุดเรียนรู้และข้อมูลชุดทดสอบ
EP.3 — Linear Regression
EP.4 — Binary Classifier
EP.5 — K-nearest Neighbors
EP.6 — Naive Bayes
EP.7 — การวิเคราะห์องค์ประกอบหลัก (PCA)
EP.8 — การจัดกลุ่มด้วย K-Means(K-Means Clustering)
EP.9 — การจดจำใบหน้า (Face Recognition)
EP.10 — การจดจำตัวอักษร (Character Recognition)