Skip to content

Machine learning #3 | รู้จักศัพท์เฉพาะและคำจำกัดความของ Dataset กันก่อน

Dataset คือชุดข้อมูลเรื่องใดเรื่องหนึ่งที่มีคุณสมบัติ (feature) เหมือนกัน โชคดีของเราที่สมัยนี้มี dataset ที่ถูก digitize ให้เราได้ใช้ได้ฟรี ตัวอย่าง classic dataset ที่ถูกใช้กันแพร่หลายสำหรับ ML ก็เช่น Iris dataset ซึ่งเป็นการรวมตัวอย่าง (sample)  ข้อมูลของดอกไม้ 3 ชนิด ได้แก้ Setosa, Versicolor, Verginica จำนวน 150 sample ซึ่งแต่ละ sample จะมี feature อยู่ 4 อย่างด้วยกันคือ

  1. ความกว้างของใบเลี้ยง (petal width)
  2. ความสูงของใบเลี้ยง (petal height)
  3. ความกว้างของกลีบดอก (sepal width)
  4. ความสูงของกลีบดอก (sepal height)

จริงๆ ผมก็อยากเอารูปในหนังสือมาประกอบนะแต่เนื่องจากข้อมูลในหนังสือมีลิขสิทธิ์ ฉะนั้นเข้าไปดูใน Wikipedia ดีกว่า

Iris flower dataset – https://en.wikipedia.org/wiki/Iris_flower_data_set

จากหน้าวิกิเราจะเห็นรูปดอกไม้ที่คล้ายกันทั้ง 3 ชนิด ซึ่งสามารถจำแนกได้จากความกว้าง, ความสูงของใบเลี้ยงและกลีบดอก ตารางข้างล่างเป็นตัวอย่างข้อมูล ผมตัดมาเป็นตัวอย่างแค่หัวตารางไม่กี่แถว

Selection_103

เราเห็นอะไรจากตารางบ้าง?

  • กรอบสีนำเงิน เป็นคุณสมบัติของดอกไม้แต่ละชนิดซึ่งก็คือ Features หรือ Attributes
  • กรอบสีแดง เป็นชนิดที่เราใช้จำแนก (ตัวอย่างนี้ไม่ดีเท่าไหร่เพราะแสดงแค่ชนิดเดียวคือ Setosa เท่านั้น) ซึ่งเราจะเรียกส่วนของข้อมูลนี้ว่า Class label
  • แถวของตารางคือ Samples หรือ Instances แต่ละแถวจะรวม features ทั้ง 4 และ class label

ข้อมูลจากตารางนี้เราสามารถนำไปเขียนเป็นสัญลักษณ์ทางคณิตศาสตร์ได้ สมมุติให้ \mathbf{X} เป็นสมาชิกของ matrix \mathbb{R} จะได้ \mathbf{X} \in \mathbb{R}^{150 \times 4}

\begin{bmatrix}&x^{(1)}_{1} &x^{(1)}_{2} &x^{(1)}_{3} &x^{(1)}_{4}\\&x^{(2)}_{1} &x^{(2)}_{2} &x^{(2)}_{3} &x^{(2)}_{4}\\&.. &.. &..&.. \\&.. &.. &.. &.. \\&x^{(150)}_{1} &x^{(150)}_{2} &x^{(150)}_{3} &x^{(150)}_{4}\end{bmatrix}

 

Be First to Comment

Leave a Reply

Your email address will not be published.