โพสต์ที่แล้วเกี่ยวกับ Linear Regression เราพอจะรู้ concept คร่าวๆ แล้วสิ่งที่เราต้องสนใจคือ
- สมการ hypothesis
- การ represent ข้อมูลกับ cost function
- และเป้าหมายของเราคือการ minimize cost function
จากสมการ hypothesis ถ้าดูดีๆ เราจะเห็นว่า h นั้นมันก็คือสมการเส้นตรงนี่แหละ โดย คือจุดที่เส้นตรงผ่านและ
คือความชัน และความชันเป็นบวกก็หมายความว่าเส้นตรงชันขึ้น
ส่วนสมการ cost function ก็คือ Sum Square Error ดีๆ นี่เอง เป็นเหตุผลว่าทำไม cost function น้อยแล้วเราได้ model ที่ fit กับ trianing set ที่สุด
เพื่อให้เข้าใจ concept และง่ายต่อการคำนวณตัวอย่างนี้ผมจะกำหนดให้ ฉะนั้นสมการ h จะเหลือแค่
และให้
เป็น 1, 0.5 และ 0 จะได้กราฟข้างล่างนี้ตามลำดับ
สำหรับการคำนวณก็ไม่ยากครับเพราะเป็นการคำนวณ sum square ธรรมดา
เมื่อลองแทน ด้วยค่าต่างๆ และนำ cost function
มาพล็อตกราฟเทียบกับ
จะพบว่าเป็นกราฟโค้งหงายเป็นรูปถ้วย (blow shape) ซึ่งค่า J น้อยที่สุดคือ 0 สำหรับ training set นี้คือเมื่อ
(ลากผ่าน training set เป๊ะๆ ทุกจุด)
จากตัวอย่างเราจะได้ ซึ่งเป็นค่าที่ optimize ที่สุดในการสร้าง model แต่ในความเป็นจริงเราไม่สามารถรู้ว่าค่าที่ optimize ที่สุดคือเท่าไหร่ เลยต้องต้องอาศัยอัลกอริทึมหรือ math เข้ามาช่วย อัลกอริทึมสำหรับการ optimize นั้นมีอยู่หลายวิธี แต่ที่เราจะเรียนรู้ต่อไปเป็น iterative algorithm เรียกว่า “Gradient Descent” ซึ่งถ้าอธิบายตรงนี้น่าจะยาวอยู่
ไว้โพสต์หน้าดีกว่าเนอะ (อู้อีกละ)
[…] โพสต์ที่แล้ว เรารู้อัลกอริทึมของ Linear Regression ไปแล้วว่ามันทำงานยังไงแต่มีอีก task ที่เราต้องสนใจคือการ optimize ค่า Cost function ให้น้อยที่สุดเพื่อให้ได้ model ที่ fit กับ training set ที่สุด […]