ジニ不純度ってなに？指標の意味と計算方法をわかりやすく解説！

2024年4月27日

当ページのリンクには広告が含まれています。

ジニ不純度は、特に機械学習の分野で使われる指標で、データセットの中のカテゴリーがどれだけ混在しているかを数値で表す方法です。

この指標を理解することで、より効果的なデータ分割や決定木の作成が可能になります。

ここでは、ジニ不純度の基本的な概念から、その計算方法までを詳しく説明します。

タップできる目次

ジニ不純度とは

ジニ不純度は、データセットのクラスがどれだけ均等に混在しているかを示す数値であり、機械学習の分野で広く使われています。

この数値は0から1の間で変動し、0は完全に純粋（一つのクラスのみ）であることを示し、1はクラスが完全に均等に混在している状態を表します。

ジニ不純度の概念は、元々経済学で使用されていたジニ係数から派生しました。具体的な発展過程は以下の通りです。

ジニ係数の利用：ジニ係数は、経済的不平等を測るために使用されていました。この係数が示すのは、所得分配の平等さや不平等さです。
概念の転用：この経済学での用途から、データの不純度を測る指標としてのポテンシャルが見出されました。特に、データのグループ間での分散や混在度を測るのに適していると考えられました。
機械学習での応用：データサイエンスが発展するにつれ、ジニ不純度はデータセットの分割における最適なポイントを見つけるために用いられるようになりました。特に決定木のアルゴリズムで効果的です。

ジニ不純度は主に以下の場面で利用されます。

決定木の構築：
- データセットをサブセットに分割する際、各分割がどれだけ情報を含んでいるかを評価する基準として使用します。
- クラスの混合度が最小となるような分割点を探します。
ランダムフォレスト：
- 複数の決定木を組み合わせたアンサンブル学習においても、各決定木の生成にジニ不純度が利用されます。
- 各木がデータをどのように分割処理するかの基準として機能します。
クラス分類の精度向上：
- ジニ不純度を用いることで、より効果的なクラス分類が可能となり、結果として分類モデルの精度が向上します。

ジニ不純度を計算するためには、各クラスの出現確率を用いて計算を行います。

この計算により、データセットのどの部分が最も純粋か（つまり、一つのクラスが支配的であるか）を評価できます。

ジニ不純度の計算は以下のステップで行われます。

この計算によって得られる値が、そのデータセットのジニ不純度になります。値は0から1の間で、0に近いほど純粋な状態を、1に近いほど不純な状態を示します。

例えば、あるデータセットにA、B、Cの3つのクラスが含まれているとします。それぞれのクラスの出現確率が0.2、0.5、0.3だとした場合のジニ不純度は次のように計算できます。

この例では、ジニ不純度は0.62となり、比較的高い不純度を示しています。これは、クラスがある程度均等に混在していることを意味します。

ジニ不純度はデータセットのクラスの混合度を測定する重要な指標であり、特に決定木の構築において重要な役割を果たします。

この指標を適切に理解し、利用することで、より効果的な機械学習モデルを構築するための洞察を得ることができます。

よかったらシェアしてね！