Google Play badge

中央値


中央値を理解する

中央値は、データセットを昇順または降順に並べたときに、データセットの中央の値を表す平均の一種です。すべての値の合計を必要とする平均値とは異なり、中央値はデータセットを 2 つの等しい半分に分割します。数学と統計の文脈では、中央値を理解することはデータ分析に不可欠であり、データセットをその中心傾向によって要約するのに役立ちます。

数学における中央値の定義

数学では、中央値の概念は単純です。データセット内の観測値が奇数の場合、中央値は真ん中の数字です。ただし、観測値が偶数の場合、中央値は 2 つの真ん中の数字の平均です。中央値を求める数学的表現は、データセット内の観測値が奇数か偶数かによって異なります。

観測数が奇数の場合:データセットに昇順で並べられた\(n\)の値があり、 \(n\)が奇数の場合、中央値\(M\)は位置\(\frac{n+1}{2}\)にある値になります。

観測数が偶数の場合: \(n\)が偶数の場合、中央値\(M\)は、位置\(\frac{n}{2}\)\(\frac{n}{2} + 1\)の値の平均です。

統計における中央値の応用

統計学では、中央値は中心傾向の尺度として広く使用されています。特に、データが偏っていたり、外れ値が含まれていて平均値を歪めたりする場合に使用されます。中央値はデータセットの中心をより正確に表すため、実際のデータ分析タスクでは非常に貴重です。

中央値の主な特徴の 1 つは、外れ値 (他の観測値と大きく異なる極端な値) に対する堅牢性です。中央値は中央値のみに関係するため、外れ値の影響を受けません。この特性により、中央値は、いくつかの極端な値によって平均が歪んで誤った情報をもたらす可能性がある不動産、金融、経済などの分野で特に役立ちます。

中央値の計算: 例

例 1: 2、3、4、5、6 という数字の集合を考えます。数字が 5 つあり奇数なので、中央値は単に真ん中の数字、この場合は 4 になります。

例 2:データセットが 1、2、3、4、5、6 で観測数が偶数の場合、中央値は 3 番目と 4 番目の数値の平均になります: \(\frac{3 + 4}{2} = 3.5\)

中央値を理解するための実験的アプローチ

データセットの操作:外れ値が中央値に与える影響を理解するために、データセット 100、200、300、400、500 について考えてみましょう。中央値は 300 です。データセットに 10,000 と 20,000 などの 2 つの極端な値を追加して、100、200、300、400、500、10,000、20,000 とすると、中央値は 300 と 400 の平均である 350 にのみシフトし、外れ値に対する中央値の堅牢性が示されます。

中央値と平均値:中央値と平均値の違いを理解するには、小規模コミュニティの世帯収入のデータセット (30,000、35,000、40,000、45,000、および 1,000,000 の外れ値 1 つ) を検討します。外れ値があるために平均収入は大幅に高くなり、コミュニティのほとんどの正確な生活水準よりも高いことを示唆します。ただし、中央値収入は外れ値の影響を受けず、コミュニティの収入の中央傾向を正確に表します。

結論

中央値は、データセットの分布と中心傾向を理解するためのシンプルでありながら堅牢な方法を提供します。すべての値の合計ではなく中央値に焦点を当てることで、中央値は偶数と奇数の両方のサイズのデータ​​セットの中心点を正確に反映します。外れ値の影響を受けないため、数学や統計のさまざまな分野で好まれる指標となり、データ分析と解釈における中央値の重要性が強調されています。

Download Primer to continue