فهم التصنيف: دليل شامل
التصنيف هو نوع من التعلم الآلي الخاضع للإشراف حيث يكون الهدف هو التنبؤ بتصنيفات الفئات الفئوية للملاحظات الجديدة بناءً على الملاحظات السابقة. يتضمن ذلك تصنيف أو تصنيف بيانات الإدخال إلى فئتين أو أكثر.
1. أساسيات التصنيف
في الأساس، يهدف التصنيف إلى تحديد الفئة أو الصف الذي تنتمي إليه ملاحظة جديدة، استنادًا إلى مجموعة تدريبية من البيانات تحتوي على ملاحظات معروفة عضويتها في الفئة. على سبيل المثال، تصنيف رسائل البريد الإلكتروني إلى "بريد عشوائي" أو "ليس بريدًا عشوائيًا" هو مهمة تصنيف ثنائية.
2. أنواع مشاكل التصنيف
هناك نوعان رئيسيان من مشاكل التصنيف:
- التصنيف الثنائي: يتضمن فئتين للتنبؤ. على سبيل المثال، تحديد ما إذا كانت الصورة لقطة أم لا هي مهمة تصنيف ثنائي.
- التصنيف متعدد الفئات: يتضمن أكثر من فئتين للتنبؤ. على سبيل المثال، تصنيف مجموعة من الصور إلى ثلاث فئات: القطط، أو الكلاب، أو الأرانب، هي مهمة تصنيف متعدد الفئات.
3. الخوارزميات الشائعة للتصنيف
تُستخدم عادةً العديد من الخوارزميات لمهام التصنيف، بما في ذلك:
- أشجار القرار: تستخدم نموذجًا يشبه الشجرة للقرارات وعواقبها المحتملة.
- الغابات العشوائية: مجموعة من أشجار القرار، تُستخدم غالبًا لتحسين دقتها.
- آلات الدعم المتجهة (SVM): تجد المستوى الفائق الذي يقسم مجموعة البيانات إلى فئات بشكل أفضل.
- الانحدار اللوجستي: على الرغم من اسمه، فإنه يستخدم للتصنيف الثنائي، والتنبؤ باحتمالية أن تكون الملاحظة جزءًا من إحدى الفئتين.
- بايز الساذج: يعتمد على تطبيق نظرية بايز مع افتراض "الساذج" لاستقلال الميزة.
4. تقييم نماذج التصنيف
يعد تقييم نماذج التصنيف أمرًا بالغ الأهمية لفهم أدائها. تشمل المقاييس الشائعة ما يلي:
- الدقة: نسبة التنبؤات التي حصل عليها النموذج بشكل صحيح. يتم حسابها على النحو التالي \(\textrm{دقة} = \frac{\textrm{عدد التوقعات الصحيحة}}{\textrm{مجموع التوقعات}}\) .
- الدقة: نسبة الحالات ذات الصلة بين الحالات المسترجعة. يتم حسابها على النحو التالي \(\textrm{دقة} = \frac{\textrm{إيجابي حقيقي}}{\textrm{إيجابي صحيح + إيجابي كاذب}}\) .
- التذكير: نسبة الحالات ذات الصلة التي تم استرجاعها. يتم حسابها على النحو التالي \(\textrm{يتذكر} = \frac{\textrm{إيجابي حقيقي}}{\textrm{إيجابي صحيح + سلبي كاذب}}\) .
- نتيجة F1: متوسط مرجح للدقة والتذكر، محسوب على النحو التالي \(\textrm{ف1} = 2 \times \frac{\textrm{دقة} \times \textrm{يتذكر}}{\textrm{الدقة + التذكير}}\) .
5. مثال عملي: تصنيف البريد الإلكتروني
لنتأمل مثالاً مبسطًا للتصنيف الثنائي، حيث نهدف إلى تصنيف رسائل البريد الإلكتروني إلى "بريد عشوائي" أو "ليس بريدًا عشوائيًا". نستخدم مجموعة بيانات تحتوي على رسائل بريد إلكتروني مع تسمياتها. يمكن أن تكون الخوارزمية البسيطة هي البحث عن كلمات رئيسية محددة مرتبطة برسائل البريد الإلكتروني العشوائية. إذا كانت رسالة بريد إلكتروني تحتوي على كلمات مثل "عرض" أو "مجاني" أو "فائز"، فقد يتم تصنيفها على أنها بريد عشوائي.
6. التحديات في التصنيف
إن التصنيف، على الرغم من قوته، يواجه أيضًا العديد من التحديات، مثل:
- الفئات غير المتوازنة: عندما يتفوق عدد فئة واحدة بشكل كبير على الفئات الأخرى، مما يؤدي إلى نموذج قد يتحيز نحو فئة الأغلبية.
- الإفراط في التجهيز: عندما يتعلم النموذج التفاصيل والضوضاء في بيانات التدريب إلى الحد الذي يؤثر سلبًا على أداء النموذج على البيانات الجديدة.
- عدم التجهيز: عندما لا يتعلم النموذج بيانات التدريب ولا يعمم على البيانات الجديدة بشكل فعال.
- الضوضاء: إن وجود بيانات غير ذات صلة أو خاطئة يمكن أن يؤدي إلى تصنيف غير صحيح.
7. الخاتمة
يُعد التصنيف أحد المكونات الأساسية للتعلم الآلي، وهو مفيد في مجموعة واسعة من التطبيقات بدءًا من تصفية البريد الإلكتروني وحتى التشخيص الطبي. إن فهم أساسيات التصنيف والتحديات التي يواجهها وكيفية تقييم النماذج من شأنه تمكين مجموعة واسعة من الحلول القائمة على البيانات.