အမျိုးအစားခွဲခြားနားလည်ခြင်း- ပြည့်စုံသောလမ်းညွှန်
အမျိုးအစားခွဲခြားခြင်းသည် ယခင်လေ့လာတွေ့ရှိချက်များကို အခြေခံ၍ စူးစမ်းမှုအသစ်များ၏ အမျိုးအစားခွဲခြားထားသော အတန်းတံဆိပ်များကို ခန့်မှန်းရန်ဖြစ်ပြီး ရည်ရွယ်ချက်မှာ ကြီးကြပ်ထားသော စက်သင်ယူမှုအမျိုးအစားတစ်ခုဖြစ်သည်။ ၎င်းတွင် input data ကို အမျိုးအစားခွဲခြင်း သို့မဟုတ် အမျိုးအစားခွဲခြင်း ပါဝင်သည်။
1. အမျိုးအစားခွဲခြားခြင်း၏အခြေခံများ
၎င်း၏အဓိကအားဖြင့်၊ အမျိုးအစားခွဲခြားခြင်းသည် အမျိုးအစားအဖွဲ့ဝင်ဖြစ်ခြင်းကို သိရှိထားသည့် စူးစမ်းလေ့လာမှုများပါရှိသော လေ့ကျင့်ရေးအစုတစ်ခုအပေါ် အခြေခံ၍ မည်သည့်အမျိုးအစား သို့မဟုတ် အတန်းကို ခွဲခြားသတ်မှတ်ရန် ရည်ရွယ်သည်။ ဥပမာအားဖြင့်၊ အီးမေးလ်များကို 'စပမ်း' သို့မဟုတ် 'စပမ်းမဟုတ်' ဟူ၍ အမျိုးအစားခွဲခြားခြင်းသည် ဒွိအမျိုးအစားခွဲခြားခြင်းအလုပ်ဖြစ်သည်။
2. အမျိုးအစားခွဲခြားခြင်းပြဿနာများ
အဓိကအားဖြင့် အမျိုးအစားခွဲခြားခြင်းပြဿနာ နှစ်မျိုးရှိသည်။
- Binary အမျိုးအစားခွဲခြားခြင်း- ခန့်မှန်းရန် အတန်းနှစ်ခုပါဝင်ပါသည်။ ဥပမာအားဖြင့်၊ ရုပ်ပုံတစ်ပုံသည် ကြောင်တစ်ကောင်ဟုတ်မဟုတ် ဆုံးဖြတ်ခြင်းသည် ဒွိအမျိုးအစားခွဲခြားခြင်းအလုပ်ဖြစ်သည်။
- Multiclass အမျိုးအစားခွဲခြားခြင်း- ခန့်မှန်းရန် အတန်းနှစ်ခုထက်ပိုပါသည်။ ဥပမာအားဖြင့်၊ ရုပ်ပုံတစ်ပုံကို အမျိုးအစားသုံးမျိုးခွဲခြားသတ်မှတ်ခြင်း- ကြောင်များ၊ ခွေးများ၊ သို့မဟုတ် ယုန်များကို အမျိုးအစားခွဲခွဲခြားခြင်းမှာ များစွာသောအလုပ်ဖြစ်သည်။
3. အမျိုးအစားခွဲခြင်းအတွက် အသုံးများသော Algorithms
အယ်လဂိုရီသမ်များစွာကို အမျိုးအစားခွဲခြင်းလုပ်ငန်းများအတွက် အသုံးများပါသည်၊
- ဆုံးဖြတ်ချက်သစ်ပင်များ- ဆုံးဖြတ်ချက်များ သစ်ပင်နှင့်တူသော စံနမူနာကို အသုံးပြုပြီး ၎င်းတို့၏ ဖြစ်နိုင်သော အကျိုးဆက်များ။
- ကျပန်းသစ်တောများ- ၎င်းတို့၏ တိုးတက်တိကျမှုအတွက် အသုံးပြုလေ့ရှိသော ဆုံးဖြတ်ချက်သစ်ပင်များ၏ အစုအဝေးတစ်ခု။
- ပံ့ပိုးမှု Vector Machines (SVM)- ဒေတာအတွဲတစ်ခုကို အတန်းများအဖြစ် အကောင်းဆုံးခွဲဝေပေးသည့် ဟိုက်ပါလေယာဉ်ကို ရှာပါ။
- Logistic Regression- ၎င်း၏အမည်ရှိသော်လည်း၊ ၎င်းကို binary အမျိုးအစားခွဲခြမ်းစိတ်ဖြာခြင်းအတွက် ဖြစ်နိုင်ခြေကို ခန့်မှန်းကာ အတန်းနှစ်ခုအနက်မှ တစ်စိတ်တစ်ပိုင်းဖြစ်နိုင်ခြေကို ခန့်မှန်းသည်။
- Naive Bayes - အင်္ဂါရပ်လွတ်လပ်မှု၏ "နုံအသော" ယူဆချက်နှင့်အတူ Bayes ၏သီအိုရီကိုအသုံးပြုမှုအပေါ်အခြေခံသည်။
4. အမျိုးအစားခွဲခြားမှုပုံစံများကို အကဲဖြတ်ခြင်း။
အမျိုးအစားခွဲခြားမှုပုံစံများကို အကဲဖြတ်ခြင်းသည် ၎င်းတို့၏စွမ်းဆောင်ရည်ကို နားလည်ရန် အရေးကြီးပါသည်။ အသုံးများသော မက်ထရစ်များ ပါဝင်သည်။
- တိကျမှု- မော်ဒယ်၏ ခန့်မှန်းချက်အပိုင်းအစများ မှန်ကန်ခဲ့သည်။ \(\textrm{တိကျမှု} = \frac{\textrm{မှန်ကန်သော ခန့်မှန်းချက်အရေအတွက်}}{\textrm{စုစုပေါင်းခန့်မှန်းချက်}}\) အဖြစ် တွက်ချက်သည်။
- တိကျမှု- ပြန်လည်ရယူထားသော ဖြစ်ရပ်များကြား သက်ဆိုင်ရာ သာဓကများ၏ အပိုင်း။ \(\textrm{တိကျမှု} = \frac{\textrm{စစ်မှန်သောအပြုသဘော}}{\textrm{True Positive + False Positive}}\) အဖြစ် တွက်ချက်သည်။
- ပြန်လည်သိမ်းဆည်းခြင်း- ပြန်လည်ရယူခဲ့သည့် သက်ဆိုင်ရာ ဖြစ်ရပ်များ၏ အပိုင်းအစ။ \(\textrm{သတိရပါ။} = \frac{\textrm{စစ်မှန်သောအပြုသဘော}}{\textrm{အပြုသဘော + မှား အဆိုး}}\) အဖြစ် တွက်ချက်ထားသည်။
- F1 ရမှတ်- \(\textrm{F1} = 2 \times \frac{\textrm{တိကျမှု} \times \textrm{သတိရပါ။}}{\textrm{တိကျမှု + ပြန်ခေါ်ပါ။}}\) အဖြစ် တွက်ချက်ထားသော ပျမ်းမျှ အလေးချိန်နှင့် ပြန်လည်ခေါ်ယူခြင်း \(\textrm{F1} = 2 \times \frac{\textrm{တိကျမှု} \times \textrm{သတိရပါ။}}{\textrm{တိကျမှု + ပြန်ခေါ်ပါ။}}\)
5. လက်တွေ့ဥပမာ- အီးမေးလ် အမျိုးအစားခွဲခြားခြင်း။
အီးမေးလ်များကို 'စပမ်း' သို့မဟုတ် 'စပမ်းမဟုတ်' ဟူ၍ အမျိုးအစားခွဲခြားရန် ရည်ရွယ်သည့် ရိုးရှင်းသော ဒွိအမျိုးအစားခွဲခြားခြင်း၏ ရိုးရှင်းသော ဥပမာကို သုံးသပ်ကြည့်ကြပါစို့။ ကျွန်ုပ်တို့သည် ၎င်းတို့၏ အညွှန်းများပါရှိသော ဒေတာအစုံကို အသုံးပြုပါသည်။ ရိုးရှင်းသော အယ်လဂိုရီသမ်တစ်ခုသည် spam အီးမေးလ်များနှင့်ဆက်စပ်သော သီးခြားသော့ချက်စာလုံးများကို ရှာဖွေရန် ဖြစ်နိုင်သည်။ အီးမေးလ်တွင် "ကမ်းလှမ်းချက်"၊ "အခမဲ့" သို့မဟုတ် "အနိုင်ရသူ" ကဲ့သို့သော စကားလုံးများပါ၀င်ပါက ၎င်းကို စပမ်းအဖြစ် ခွဲခြားသတ်မှတ်နိုင်သည်။
6. အမျိုးအစားခွဲခြားခြင်းတွင်စိန်ခေါ်မှုများ
အမျိုးအစား ခွဲခြားမှု အားကောင်းသော်လည်း၊ ကဲ့သို့သော စိန်ခေါ်မှုများစွာကိုလည်း ရင်ဆိုင်နေရသည်-
- မမျှတသော အတန်းများ- အတန်းတစ်ခုသည် အခြားအတန်းများကို သိသိသာသာ ကျော်လွန်သောအခါ အများစုသည် လူတန်းစားအပေါ် ဘက်လိုက်နိုင်သော စံနမူနာတစ်ခုသို့ ဦးတည်သွားသောအခါ။
- Overfitting- မော်ဒယ်တစ်ဦးသည် လေ့ကျင့်ရေးဒေတာရှိ အသေးစိတ်နှင့် ဆူညံသံကို ဒေတာအသစ်တွင် မော်ဒယ်၏စွမ်းဆောင်ရည်ကို အပျက်သဘောဆောင်သည့်အတိုင်းအတာအထိ လေ့လာသောအခါတွင်၊
- မသင့်လျော်ခြင်း- မော်ဒယ်တစ်ဦးသည် လေ့ကျင့်ရေးဒေတာကို မလေ့လာဘဲ ဒေတာအသစ်များကို ထိထိရောက်ရောက် ယေဘုယျဖော်ပြသည့်အခါ။
- ဆူညံသံ- မသက်ဆိုင်သော သို့မဟုတ် မှားယွင်းသော ဒေတာများ ရှိနေခြင်းသည် မှားယွင်းသော အမျိုးအစားခွဲခြားမှုကို ဦးတည်သွားစေနိုင်သည်။
7. နိဂုံး
အမျိုးအစားခွဲခြားခြင်းသည် အီးမေးလ်စစ်ထုတ်ခြင်းမှ ဆေးဘက်ဆိုင်ရာ ရောဂါရှာဖွေခြင်းအထိ အပလီကေးရှင်းများစွာတွင် အသုံးဝင်သော စက်သင်ယူမှု၏ အရေးကြီးသော အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ အမျိုးအစားခွဲခြားခြင်း၏ အခြေခံအချက်များ၊ ၎င်း၏စိန်ခေါ်မှုများနှင့် မော်ဒယ်များကို အကဲဖြတ်နည်းကို နားလည်ခြင်းသည် ဒေတာမောင်းနှင်သည့် ဖြေရှင်းချက်များစွာကို အားကောင်းစေနိုင်သည်။