分類を理解する: 総合ガイド
分類は教師あり機械学習の一種で、過去の観察に基づいて新しい観察のカテゴリクラスラベルを予測することを目的とします。入力データを 2 つ以上のクラスに分類または分類します。
1. 分類の基礎
本質的に、分類の目的は、カテゴリのメンバーシップがわかっている観測値を含むデータのトレーニング セットに基づいて、新しい観測値がどのカテゴリまたはクラスに属するかを識別することです。たとえば、電子メールを「スパム」または「スパムではない」に分類することは、バイナリ分類タスクです。
2. 分類問題の種類
分類問題には主に 2 つの種類があります。
- バイナリ分類:予測するクラスが 2 つあります。たとえば、画像が猫のものかどうかを判断するのは、バイナリ分類タスクです。
- マルチクラス分類:予測には 2 つ以上のクラスが含まれます。たとえば、一連の画像を猫、犬、ウサギの 3 つのカテゴリに分類することは、マルチクラス分類タスクです。
3. 分類のための一般的なアルゴリズム
分類タスクでは、次のようないくつかのアルゴリズムが一般的に使用されます。
- 決定木:決定とその起こりうる結果のツリーのようなモデルを使用します。
- ランダム フォレスト:決定木の集合体。精度の向上のためによく使用されます。
- サポート ベクター マシン (SVM):データセットをクラスに最も適切に分割する超平面を見つけます。
- ロジスティック回帰:名前に反して、バイナリ分類に使用され、観測結果が 2 つのクラスのいずれかに属する確率を予測します。
- ナイーブ ベイズ:特徴の独立性という「ナイーブな」仮定に基づいてベイズの定理を適用します。
4. 分類モデルの評価
分類モデルの評価は、そのパフォーマンスを理解する上で非常に重要です。一般的な指標には次のようなものがあります。
- 精度:モデルが正しかった予測の割合。 \(\textrm{正確さ} = \frac{\textrm{正しい予測の数}}{\textrm{総予測}}\)として計算されます。
- 精度:取得されたインスタンスのうち関連するインスタンスの割合。 \(\textrm{精度} = \frac{\textrm{真陽性}}{\textrm{真陽性 + 偽陽性}}\) 。
- 再現率:取得された関連インスタンスの割合。 \(\textrm{想起} = \frac{\textrm{真陽性}}{\textrm{真陽性 + 偽陰性}}\)として計算されます。
- F1 スコア:適合率と再現率の加重平均\(\textrm{F1} = 2 \times \frac{\textrm{精度} \times \textrm{想起}}{\textrm{精度 + 再現率}}\) 。
5. 実例: 電子メールの分類
電子メールを「スパム」または「スパムではない」に分類することを目的とした、バイナリ分類の簡単な例を考えてみましょう。ラベル付きの電子メールを含むデータセットを使用します。単純なアルゴリズムとしては、スパム電子メールに関連付けられた特定のキーワードを探すことが考えられます。電子メールに「オファー」、「無料」、「当選者」などの単語が含まれている場合、スパムとして分類される可能性があります。
6. 分類における課題
分類は強力ですが、次のようないくつかの課題にも直面しています。
- 不均衡なクラス:あるクラスの数が他のクラスを大幅に上回る場合、モデルは多数派クラスに偏る可能性があります。
- オーバーフィッティング:モデルがトレーニング データ内の詳細とノイズを学習し、新しいデータに対するモデルのパフォーマンスに悪影響を与える場合。
- アンダーフィッティング:モデルがトレーニング データを学習せず、新しいデータに効果的に一般化できない場合。
- ノイズ:無関係なデータや誤ったデータが存在すると、分類が不正確になる可能性があります。
7. 結論
分類は機械学習の重要な要素であり、電子メールのフィルタリングから医療診断まで、幅広い用途で役立ちます。分類の基礎、その課題、モデルの評価方法を理解することで、さまざまなデータ駆動型ソリューションを強化できます。