Primer lesson: pag-uuri

Pag-unawa sa Klasipikasyon: Isang Komprehensibong Gabay

Ang pag-uuri ay isang uri ng pinangangasiwaang machine learning kung saan ang layunin ay hulaan ang mga kategoryang label ng klase ng mga bagong obserbasyon batay sa mga nakaraang obserbasyon. Kabilang dito ang pagkakategorya o pag-uuri ng data ng input sa dalawa o higit pang mga klase.

1. Mga Pangunahing Kaalaman sa Pag-uuri

Sa kaibuturan nito, ang pag-uuri ay naglalayong tukuyin kung saang kategorya o klase kabilang ang isang bagong obserbasyon, batay sa isang set ng pagsasanay ng data na naglalaman ng mga obserbasyon na kilala ang pagiging miyembro ng kategorya. Halimbawa, ang pag-uuri ng mga email sa 'spam' o 'hindi spam' ay isang binary classification na gawain.

2. Mga Uri ng Problema sa Klasipikasyon

Mayroong pangunahing dalawang uri ng mga problema sa pag-uuri:

Binary Classification: Nagsasangkot ng dalawang klase upang mahulaan. Halimbawa, ang pagtukoy kung ang isang imahe ay isang pusa o hindi ay isang binary classification na gawain.
Multiclass Classification: Nagsasangkot ng higit sa dalawang klase upang mahulaan. Halimbawa, ang pag-uuri ng isang hanay ng mga larawan sa tatlong kategorya: mga pusa, aso, o kuneho, ay isang gawain sa pag-uuri ng maraming klase.

3. Mga Karaniwang Algorithm para sa Pag-uuri

Maraming mga algorithm ang karaniwang ginagamit para sa mga gawain sa pag-uuri, kabilang ang:

Mga Puno ng Desisyon: Gumagamit ng tulad-punong modelo ng mga desisyon at ang mga posibleng kahihinatnan nito.
Random Forests: Isang grupo ng Decision Tree, kadalasang ginagamit para sa kanilang pinahusay na katumpakan.
Support Vector Machines (SVM): Hinahanap ang hyperplane na pinakamahusay na naghahati sa isang dataset sa mga klase.
Logistic Regression: Sa kabila ng pangalan nito, ginagamit ito para sa binary classification, na hinuhulaan ang posibilidad na ang isang obserbasyon ay bahagi ng isa sa dalawang klase.
Naive Bayes: Batay sa paglalapat ng theorem ni Bayes na may "naïve" na pagpapalagay ng feature independence.

4. Pagsusuri ng mga Modelo ng Pag-uuri

Ang pagsusuri ng mga modelo ng pag-uuri ay mahalaga upang maunawaan ang kanilang pagganap. Kasama sa mga karaniwang sukatan ang:

Katumpakan: Ang bahagi ng mga hula na nakuha ng modelo ay tama. Kinakalkula bilang \(\textrm{Katumpakan} = \frac{\textrm{Bilang ng mga tamang hula}}{\textrm{Kabuuang mga hula}}\) .
Katumpakan: Ang bahagi ng mga nauugnay na pagkakataon sa mga nakuhang pagkakataon. Kinakalkula bilang \(\textrm{Katumpakan} = \frac{\textrm{Totoong Positibo}}{\textrm{True Positive + False Positive}}\) .
Tandaan: Ang bahagi ng mga nauugnay na pagkakataon na nakuha. Kinakalkula bilang \(\textrm{Alalahanin} = \frac{\textrm{Totoong Positibo}}{\textrm{True Positive + False Negative}}\) .
F1 Score: Isang weighted average ng Precision at Recall, na kinakalkula bilang \(\textrm{F1} = 2 \times \frac{\textrm{Katumpakan} \times \textrm{Alalahanin}}{\textrm{Precision + Recall}}\) .

5. Praktikal na Halimbawa: Pag-uuri ng Email

Isaalang-alang natin ang isang pinasimpleng halimbawa ng binary classification, kung saan nilalayon naming uriin ang mga email sa 'spam' o 'hindi spam'. Gumagamit kami ng dataset na naglalaman ng mga email na may mga label ng mga ito. Ang isang simpleng algorithm ay maaaring maghanap ng mga partikular na keyword na nauugnay sa mga email na spam. Kung ang isang email ay naglalaman ng mga salita tulad ng "alok", "libre", o "nagwagi", maaari itong maiuri bilang spam.

6. Mga Hamon sa Pag-uuri

Ang pag-uuri, bagama't malakas, ay nahaharap din sa ilang hamon, gaya ng:

Mga Imbalanced na Klase: Kapag ang isang klase ay higit na nahihigit sa iba pang mga klase, na humahantong sa isang modelo na maaaring bias sa karamihan ng klase.
Overfitting: Kapag natutunan ng isang modelo ang detalye at ingay sa data ng pagsasanay hanggang sa negatibong epekto nito sa pagganap ng modelo sa bagong data.
Underfitting: Kapag ang isang modelo ay hindi natututo ng data ng pagsasanay o nagsa-generalize sa bagong data nang epektibo.
Ingay: Ang pagkakaroon ng hindi nauugnay o maling data ay maaaring humantong sa maling pag-uuri.

7. Konklusyon

Ang pag-uuri ay isang kritikal na bahagi ng machine learning, kapaki-pakinabang sa malawak na hanay ng mga application mula sa pag-filter ng email hanggang sa medikal na diagnosis. Ang pag-unawa sa mga batayan ng pag-uuri, mga hamon nito, at kung paano suriin ang mga modelo ay maaaring magbigay ng kapangyarihan sa isang malawak na iba't ibang mga solusyon na hinihimok ng data.

pag-uuri