Primer lesson: ангилал

Ангилалыг ойлгох нь: Цогц гарын авлага

Ангилал нь хяналттай машин сургалтын нэг төрөл бөгөөд зорилго нь өнгөрсөн ажиглалт дээр үндэслэн шинэ ажиглалтын ангиллын шошгыг урьдчилан таамаглах явдал юм. Энэ нь оролтын өгөгдлийг хоёр буюу түүнээс дээш ангилалд ангилах, ангилах явдал юм.

1. Ангиллын үндэс

Ангилал нь үндсэндээ ангиллын гишүүнчлэл нь мэдэгдэж байгаа ажиглалтыг агуулсан сургалтын мэдээллийн багцад тулгуурлан шинэ ажиглалт ямар ангилал, ангилалд хамаарахыг тодорхойлох зорилготой. Жишээлбэл, имэйлийг "спам" эсвэл "спам биш" гэж ангилах нь хоёртын ангиллын ажил юм.

2. Ангиллын асуудлын төрлүүд

Үндсэндээ хоёр төрлийн ангиллын асуудал байдаг:

Хоёртын ангилал: Урьдчилан таамаглах хоёр ангиллыг багтаана. Жишээлбэл, муурны зураг мөн эсэхийг тодорхойлох нь хоёртын ангиллын даалгавар юм.
Олон ангиллын ангилал: Урьдчилан таамаглахад хоёроос дээш ангиллыг хамарна. Жишээлбэл, муур, нохой, туулай гэсэн гурван төрөлд ангилах нь олон ангиллын ангиллын ажил юм.

3. Ангилах нийтлэг алгоритмууд

Ангилах ажилд хэд хэдэн алгоритмыг ихэвчлэн ашигладаг, үүнд:

Шийдвэрийн мод: Шийдвэрүүд болон тэдгээрийн болзошгүй үр дагавруудын мод шиг загварыг ашигладаг.
Санамсаргүй ой: Нарийвчлалыг сайжруулах үүднээс ихэвчлэн ашигладаг Шийдвэрийн моднуудын нэгдэл.
Вектор машинуудыг дэмжих (SVM): Өгөгдлийн багцыг ангиудад хамгийн сайн хуваах гипер хавтгайг олдог.
Логистик регресс: Нэрийг нь үл харгалзан энэ нь хоёртын ангилалд ашиглагддаг бөгөөд ажиглалт нь хоёр ангийн аль нэгэнд багтах магадлалыг урьдчилан таамаглахад ашигладаг.
Гэнэн Бэйс: Байесийн теоремыг шинж чанараас хараат бус байдлын "гэнэн" таамаглалаар ашиглахад үндэслэсэн.

4. Ангиллын загваруудыг үнэлэх

Ангиллын загваруудын үнэлгээ нь тэдгээрийн гүйцэтгэлийг ойлгоход маш чухал юм. Нийтлэг хэмжүүрүүд нь:

Нарийвчлал: Загвар зөв хийсэн таамаглалын хэсэг. \(\textrm{Нарийвчлал} = \frac{\textrm{Зөв таамаглалын тоо}}{\textrm{Нийт таамаглал}}\) гэж тооцсон.
Нарийвчлал: Татаж авсан тохиолдлуудын доторх холбогдох тохиолдлын хэсэг. \(\textrm{Нарийвчлал} = \frac{\textrm{Үнэн эерэг}}{\textrm{Үнэн эерэг + худал эерэг}}\) гэж тооцсон.
Эргэн сануулах: Татаж авсан холбогдох тохиолдлын хэсэг. \(\textrm{Санах} = \frac{\textrm{Үнэн эерэг}}{\textrm{Үнэн эерэг + худал сөрөг}}\) гэж тооцсон.
F1 Оноо: \(\textrm{F1} = 2 \times \frac{\textrm{Нарийвчлал} \times \textrm{Санах}}{\textrm{Нарийвчлал + Санах}}\) гэж тооцсон Нарийвчлал ба Эргэн дуудах жигнэсэн дундаж \(\textrm{F1} = 2 \times \frac{\textrm{Нарийвчлал} \times \textrm{Санах}}{\textrm{Нарийвчлал + Санах}}\) .

5. Практик жишээ: Имэйлийн ангилал

Имэйлийг "спам" эсвэл "спам биш" гэж ангилах зорилготой хоёртын ангиллын хялбаршуулсан жишээг авч үзье. Бид шошготой имэйлүүдийг агуулсан датасет ашигладаг. Энгийн алгоритм нь спам имэйлтэй холбоотой тодорхой түлхүүр үгсийг хайх явдал байж болно. Хэрэв имэйлд "санал", "үнэгүй" эсвэл "ялагч" гэх мэт үгс орсон бол спам гэж ангилагдана.

6. Ангилалд тулгарч буй бэрхшээлүүд

Ангилал нь хүчирхэг хэдий ч хэд хэдэн сорилттой тулгардаг, тухайлбал:

Тэнцвэргүй ангиуд: Нэг анги нь бусад ангиудаас хамаагүй илүү байгаа нь олонхийн анги руу хазайх загварт хүргэдэг.
Хэт тааруулах: Загвар нь сургалтын өгөгдлийн дэлгэрэнгүй мэдээлэл, чимээ шуугианыг сурч мэдсэн тохиолдолд шинэ өгөгдөл дээрх загварын гүйцэтгэлд сөргөөр нөлөөлнө.
Дутуу тохирох: Загвар нь сургалтын өгөгдлийг сурдаггүй, шинэ өгөгдлийг үр дүнтэй нэгтгэдэггүй.
Дуу чимээ: Үл хамаарах эсвэл алдаатай өгөгдөл байгаа нь буруу ангилалд хүргэдэг.

7. Дүгнэлт

Ангилал нь цахим шуудангийн шүүлтүүрээс авахуулаад эмнэлгийн оношлогоо хүртэлх өргөн хүрээний хэрэглээнд хэрэг болох машин сургалтын чухал бүрэлдэхүүн хэсэг юм. Ангиллын үндэс, түүнд тулгарч буй бэрхшээл, загварыг хэрхэн үнэлэх талаар ойлгох нь өгөгдөлд суурилсан олон төрлийн шийдлүүдийг хүчирхэгжүүлж чадна.

ангилал