Primer lesson: การจัดหมวดหมู่

การทำความเข้าใจการจำแนกประเภท: คู่มือฉบับสมบูรณ์

การจัดประเภทเป็นประเภทของการเรียนรู้ของเครื่องภายใต้การดูแล โดยมีเป้าหมายเพื่อทำนายป้ายกำกับคลาสหมวดหมู่ของการสังเกตใหม่โดยอิงจากการสังเกตในอดีต มันเกี่ยวข้องกับการจัดหมวดหมู่หรือจำแนกข้อมูลอินพุตออกเป็นสองคลาสขึ้นไป

1. พื้นฐานของการจำแนกประเภท

โดยแก่นแท้แล้ว การจำแนกประเภทมีจุดมุ่งหมายเพื่อระบุว่าการสังเกตใหม่อยู่ในหมวดหมู่หรือประเภทใด โดยอิงตามชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งเป็นที่รู้จักว่าเป็นสมาชิกของหมวดหมู่ ตัวอย่างเช่น การจัดประเภทอีเมลเป็น 'สแปม' หรือ 'ไม่ใช่สแปม' ถือเป็นงานจำแนกแบบไบนารี

2. ประเภทของปัญหาการจำแนกประเภท

ปัญหาการจำแนกประเภทส่วนใหญ่มีสองประเภท:

การจำแนกประเภทไบนารี: เกี่ยวข้องกับสองคลาสในการทำนาย ตัวอย่างเช่น การพิจารณาว่ารูปภาพนั้นเป็นของแมวหรือไม่ถือเป็นงานจำแนกแบบไบนารี
การจำแนกประเภทหลายคลาส: เกี่ยวข้องกับการทำนายมากกว่าสองคลาส ตัวอย่างเช่น การแบ่งชุดรูปภาพออกเป็นสามหมวดหมู่: แมว สุนัข หรือกระต่าย ถือเป็นงานจำแนกแบบหลายคลาส

3. อัลกอริทึมทั่วไปสำหรับการจำแนกประเภท

โดยทั่วไปมีการใช้อัลกอริธึมหลายอย่างสำหรับงานจำแนกประเภท ได้แก่:

ต้นไม้การตัดสินใจ: ใช้รูปแบบการตัดสินใจที่เหมือนต้นไม้และผลที่ตามมาที่เป็นไปได้
ป่าสุ่ม: กลุ่มต้นไม้ตัดสินใจ มักใช้เพื่อเพิ่มความแม่นยำ
รองรับ Vector Machines (SVM): ค้นหาไฮเปอร์เพลนที่แบ่งชุดข้อมูลออกเป็นคลาสได้ดีที่สุด
การถดถอยแบบลอจิสติก: แม้ว่าจะใช้ชื่อนี้ แต่ก็ใช้สำหรับการจำแนกประเภทไบนารี่ โดยทำนายความน่าจะเป็นที่การสังเกตจะเป็นส่วนหนึ่งของหนึ่งในสองชั้น
ไร้เดียงสาเบย์: ขึ้นอยู่กับการประยุกต์ใช้ทฤษฎีบทของเบย์กับสมมติฐาน "ไร้เดียงสา" ของความเป็นอิสระของคุณลักษณะ

4. การประเมินแบบจำลองการจำแนกประเภท

การประเมินแบบจำลองการจำแนกประเภทถือเป็นสิ่งสำคัญในการทำความเข้าใจประสิทธิภาพ ตัวชี้วัดทั่วไปได้แก่:

ความแม่นยำ: เศษส่วนของการคาดการณ์ที่แบบจำลองถูกต้อง คำนวณเป็น \(\textrm{ความแม่นยำ} = \frac{\textrm{จำนวนคำทำนายที่ถูกต้อง}}{\textrm{การคาดการณ์ทั้งหมด}}\)
ความแม่นยำ: เศษส่วนของอินสแตนซ์ที่เกี่ยวข้องระหว่างอินสแตนซ์ที่ดึงข้อมูล คำนวณเป็น \(\textrm{ความแม่นยำ} = \frac{\textrm{บวกจริง}}{\textrm{บวกจริง + บวกเท็จ}}\)
เรียกคืน: เศษส่วนของอินสแตนซ์ที่เกี่ยวข้องที่ถูกดึงข้อมูล คำนวณเป็น \(\textrm{จำ} = \frac{\textrm{บวกจริง}}{\textrm{บวกจริง + ลบเท็จ}}\)
คะแนน F1: ค่าเฉลี่ยถ่วงน้ำหนักของความแม่นยำและการเรียกคืน คำนวณเป็น \(\textrm{F1} = 2 \times \frac{\textrm{ความแม่นยำ} \times \textrm{จำ}}{\textrm{ความแม่นยำ + การเรียกคืน}}\) .

5. ตัวอย่างเชิงปฏิบัติ: การจัดประเภทอีเมล

ลองพิจารณาตัวอย่างง่ายๆ ของการจำแนกประเภทไบนารี โดยเรามุ่งหมายที่จะจัดประเภทอีเมลเป็น 'สแปม' หรือ 'ไม่ใช่สแปม' เราใช้ชุดข้อมูลที่มีอีเมลพร้อมป้ายกำกับ อัลกอริทึมง่ายๆ อาจเป็นการค้นหาคำหลักเฉพาะที่เกี่ยวข้องกับอีเมลขยะ หากอีเมลมีคำเช่น "ข้อเสนอ" "ฟรี" หรือ "ผู้ชนะ" อีเมลนั้นอาจถูกจัดว่าเป็นสแปม

6. ความท้าทายในการจำแนกประเภท

การจัดประเภทแม้จะทรงพลัง แต่ก็เผชิญกับความท้าทายหลายประการ เช่น:

คลาสที่ไม่สมดุล: เมื่อคลาสหนึ่งมีจำนวนมากกว่าคลาสอื่นอย่างมีนัยสำคัญ ซึ่งนำไปสู่แบบจำลองที่อาจมีอคติต่อคลาสส่วนใหญ่
การติดตั้งมากเกินไป: เมื่อแบบจำลองเรียนรู้รายละเอียดและสัญญาณรบกวนในข้อมูลการฝึกอบรมถึงขนาดที่ส่งผลเสียต่อประสิทธิภาพของแบบจำลองกับข้อมูลใหม่
Underfitting: เมื่อแบบจำลองไม่สามารถเรียนรู้ข้อมูลการฝึกอบรมหรือสรุปข้อมูลใหม่ได้อย่างมีประสิทธิภาพ
สัญญาณรบกวน: การมีอยู่ของข้อมูลที่ไม่เกี่ยวข้องหรือผิดพลาดอาจนำไปสู่การจำแนกประเภทที่ไม่ถูกต้อง

7. บทสรุป

การจัดประเภทเป็นองค์ประกอบสำคัญของการเรียนรู้ของเครื่อง ซึ่งมีประโยชน์ในการใช้งานที่หลากหลาย ตั้งแต่การกรองอีเมลไปจนถึงการวินิจฉัยทางการแพทย์ การทำความเข้าใจพื้นฐานของการจำแนกประเภท ความท้าทาย และวิธีการประเมินแบบจำลองสามารถเสริมศักยภาพให้กับโซลูชันที่ขับเคลื่อนด้วยข้อมูลได้หลากหลาย

การจัดหมวดหมู่