Last updated on August 8, 2018
Dataset คือชุดข้อมูลเรื่องใดเรื่องหนึ่งที่มีคุณสมบัติ (feature) เหมือนกัน โชคดีของเราที่สมัยนี้มี dataset ที่ถูก digitize ให้เราได้ใช้ได้ฟรี ตัวอย่าง classic dataset ที่ถูกใช้กันแพร่หลายสำหรับ ML ก็เช่น Iris dataset ซึ่งเป็นการรวมตัวอย่าง (sample) ข้อมูลของดอกไม้ 3 ชนิด ได้แก้ Setosa, Versicolor, Verginica จำนวน 150 sample ซึ่งแต่ละ sample จะมี feature อยู่ 4 อย่างด้วยกันคือ
- ความกว้างของใบเลี้ยง (petal width)
- ความสูงของใบเลี้ยง (petal height)
- ความกว้างของกลีบดอก (sepal width)
- ความสูงของกลีบดอก (sepal height)
จริงๆ ผมก็อยากเอารูปในหนังสือมาประกอบนะแต่เนื่องจากข้อมูลในหนังสือมีลิขสิทธิ์ ฉะนั้นเข้าไปดูใน Wikipedia ดีกว่า
Iris flower dataset – https://en.wikipedia.org/wiki/Iris_flower_data_set
จากหน้าวิกิเราจะเห็นรูปดอกไม้ที่คล้ายกันทั้ง 3 ชนิด ซึ่งสามารถจำแนกได้จากความกว้าง, ความสูงของใบเลี้ยงและกลีบดอก ตารางข้างล่างเป็นตัวอย่างข้อมูล ผมตัดมาเป็นตัวอย่างแค่หัวตารางไม่กี่แถว
เราเห็นอะไรจากตารางบ้าง?
- กรอบสีนำเงิน เป็นคุณสมบัติของดอกไม้แต่ละชนิดซึ่งก็คือ Features หรือ Attributes
- กรอบสีแดง เป็นชนิดที่เราใช้จำแนก (ตัวอย่างนี้ไม่ดีเท่าไหร่เพราะแสดงแค่ชนิดเดียวคือ Setosa เท่านั้น) ซึ่งเราจะเรียกส่วนของข้อมูลนี้ว่า Class label
- แถวของตารางคือ Samples หรือ Instances แต่ละแถวจะรวม features ทั้ง 4 และ class label
ข้อมูลจากตารางนี้เราสามารถนำไปเขียนเป็นสัญลักษณ์ทางคณิตศาสตร์ได้ สมมุติให้ เป็นสมาชิกของ matrix
จะได้
Thank you ka.
อธิบายดีมากค่ะ ขอบคุณนะคะ