Təsnifatı Anlamaq: Hərtərəfli Bələdçi
Təsnifat nəzarət edilən maşın öyrənməsinin bir növüdür, burada məqsədi keçmiş müşahidələr əsasında yeni müşahidələrin kateqoriyalı sinif etiketlərini proqnozlaşdırmaqdır. Bu, daxil olan məlumatların iki və ya daha çox sinfə təsnifləşdirilməsini və ya təsnifləşdirilməsini əhatə edir.
1. Təsnifatın əsasları
Özündə təsnifat, kateqoriyaya aidiyyəti məlum olan müşahidələri ehtiva edən məlumatların təlim toplusuna əsaslanaraq, yeni müşahidənin hansı kateqoriyaya və ya sinfə aid olduğunu müəyyən etmək məqsədi daşıyır. Məsələn, e-poçtları "spam" və ya "spam deyil" kimi təsnif etmək ikili təsnifat işidir.
2. Təsnifat məsələlərinin növləri
Əsasən iki növ təsnifat problemi var:
- Binar Təsnifat: Proqnozlaşdırmaq üçün iki sinifi əhatə edir. Məsələn, şəklin pişiyə aid olub-olmadığını müəyyən etmək ikili təsnifat işidir.
- Multiclass Təsnifat: Proqnozlaşdırmaq üçün ikidən çox sinfi əhatə edir. Məsələn, təsvirlər toplusunu üç kateqoriyaya təsnif etmək: pişiklər, itlər və ya dovşanlar, çoxsinifli təsnifat işidir.
3. Təsnifat üçün ümumi alqoritmlər
Təsnifat tapşırıqları üçün bir neçə alqoritm adətən istifadə olunur, o cümlədən:
- Qərar Ağacları: Qərarların ağaca bənzər modelindən və onların mümkün nəticələrindən istifadə edir.
- Təsadüfi Meşələr: Təkmilləşdirilmiş dəqiqlik üçün tez-tez istifadə olunan Qərar Ağacları ansamblı.
- Dəstək Vektor Maşınları (SVM): Verilənlər dəstini siniflərə ən yaxşı bölən hiperplanı tapır.
- Logistik reqressiya: adına baxmayaraq, ikili təsnifat üçün istifadə olunur, müşahidənin iki sinifdən birinin bir hissəsi olması ehtimalını proqnozlaşdırır.
- Sadəlövh Bayes: Bayes teoreminin xüsusiyyət müstəqilliyinin "sadəlövh" fərziyyəsi ilə tətbiqinə əsaslanır.
4. Təsnifat modellərinin qiymətləndirilməsi
Təsnifat modellərinin qiymətləndirilməsi onların fəaliyyətini başa düşmək üçün çox vacibdir. Ümumi ölçülərə aşağıdakılar daxildir:
- Dəqiqlik: Modelin doğru əldə etdiyi proqnozların bir hissəsi. \(\textrm{Dəqiqlik} = \frac{\textrm{Düzgün proqnozların sayı}}{\textrm{Ümumi proqnozlar}}\) kimi hesablanır.
- Dəqiqlik: Əldə edilmiş nümunələr arasında müvafiq nümunələrin payı. \(\textrm{Dəqiqlik} = \frac{\textrm{Əsl Pozitiv}}{\textrm{Doğru Müsbət + Yanlış Müsbət}}\) kimi hesablanır.
- Xatırla: Əldə edilmiş müvafiq instansiyaların hissəsi. \(\textrm{Xatırla} = \frac{\textrm{Əsl Pozitiv}}{\textrm{Doğru müsbət + yalan mənfi}}\) kimi hesablanır.
- F1 Hesabı: \(\textrm{F1} = 2 \times \frac{\textrm{Dəqiqlik} \times \textrm{Xatırla}}{\textrm{Dəqiqlik + Geri çağırma}}\) kimi hesablanmış Dəqiqlik və Geri Çağırmanın çəkili ortası \(\textrm{F1} = 2 \times \frac{\textrm{Dəqiqlik} \times \textrm{Xatırla}}{\textrm{Dəqiqlik + Geri çağırma}}\) .
5. Praktiki Nümunə: E-poçt Təsnifatı
Gəlin ikili təsnifatın sadələşdirilmiş nümunəsini nəzərdən keçirək, burada məqsədimiz e-poçtları “spam” və ya “spam deyil” kimi təsnif etməkdir. Biz etiketləri olan e-poçtları ehtiva edən verilənlər bazasından istifadə edirik. Sadə bir alqoritm spam e-poçtları ilə əlaqəli xüsusi açar sözləri axtarmaq ola bilər. E-poçtda "təklif", "pulsuz" və ya "qalib" kimi sözlər varsa, o, spam kimi təsnif edilə bilər.
6. Təsnifatda çətinliklər
Təsnifat güclü olsa da, eyni zamanda bir sıra problemlərlə üzləşir, məsələn:
- Balanssız Siniflər: Bir sinif digər sinifləri nəzərəçarpacaq dərəcədə üstələdikdə, əksəriyyət sinfinə meylli ola biləcək bir model yaranır.
- Həddindən artıq uyğunlaşma: Model təlim məlumatlarında təfərrüatı və səs-küyü öyrəndikdə, bu, modelin yeni məlumatlar üzərində işinə mənfi təsir göstərir.
- Yetərsiz uyğunluq: Model nə təlim məlumatlarını öyrənir, nə də yeni məlumatları effektiv şəkildə ümumiləşdirir.
- Səs-küy: Uyğun olmayan və ya səhv məlumatların olması səhv təsnifata səbəb ola bilər.
7. Nəticə
Təsnifat e-poçt filtrindən tutmuş tibbi diaqnostikaya qədər geniş tətbiqlərdə faydalı olan maşın öyrənməsinin vacib komponentidir. Təsnifatın əsaslarını, onun çətinliklərini və modelləri necə qiymətləndirməyi başa düşmək geniş çeşidli məlumatlara əsaslanan həlləri gücləndirə bilər.