6. 記述統計:平均、分散、標準偏差
Table of Contents
これまでの線形代数や微分積分は、主に機械学習モデルの「内部構造」や「学習プロセス」を理解するためのものでした。ここからは、分析の対象である「データ」そのものの性質を理解するための統計学 (statistics) の世界に入ります。
その第一歩が、手元にあるデータの特徴を要約し、記述するための記述統計 (descriptive statistics) です。
記述統計とは?
記述統計とは、収集したデータセットの基本的な特徴を、要約統計量やグラフを用いて記述する手法群です。これは、データ分析の初期段階で行われる探索的データ分析 (Exploratory Data Analysis, EDA) の中核をなします。
記述統計は、データセット全体の「典型的な値は何か?」「どの程度ばらついているか?」といった問いに答えることで、データに対する直感的な理解を深めることを目的とします。
これは、サンプルから母集団の性質を推測する推測統計 (inferential statistics) とは区別されます。
データの中心を捉える:代表値
データセットの「中心」や「典型的な値」を示す指標を代表値 (measures of central tendency) と呼びます。
平均 (Mean)
最も広く使われる代表値が算術平均 (arithmetic mean) です。データセット に含まれる全ての数値を合計し、データの個数 で割ることで計算されます。母集団の平均は で表されることが多いです。
平均は、データの「重心」と解釈できますが、極端な外れ値(outlier)が存在すると、その値に大きく引きずられるという性質を持ちます。
中央値と最頻値
- 中央値 (Median): データを大きさの順に並べたときに、ちょうど中央に位置する値。外れ値の影響を受けにくい(頑健である)という利点があります。
- 最頻値 (Mode): データの中で最も頻繁に出現する値。カテゴリカルデータに対してよく用いられます。
データのばらつきを測る:散布度
データがどの程度散らばっているかを示す指標を散布度 (measures of dispersion) と呼びます。代表値だけでは、データの分布の様子を捉えることはできません。
分散 (Variance)
分散は、各データ点が平均からどれだけ離れているかの「散らばり具合」を表す代表的な指標です。具体的には、各データ点の平均からの差(偏差)の二乗の平均値として計算されます。母集団の分散は (シグマ二乗)で表されます。
偏差を二乗する理由は、
- 差の正負をなくし、すべての偏差を正の値として扱える。
- 平均から大きく離れた値をより重視する(ペナルティを大きくする)。 ためです。
標準偏差 (Standard Deviation)
分散は単位が元のデータの二乗(例:データがcmなら分散はcm²)になってしまい、直感的な解釈が難しい場合があります。そこで、分散の正の平方根をとったものが標準偏差 (standard deviation) であり、 で表されます。
標準偏差は、元のデータと同じ単位を持つため、「データはおおよそ平均 を中心に、 の範囲に散らばっている」といった直感的な解釈が可能になります。
まとめ
- 記述統計は、データセットの基本的な特徴を要約する手法です。
- データの中心は平均などの代表値で測ります。
- データのばらつきは分散や標準偏差などの散布度で測ります。
- 平均と標準偏差のセットは、データ分布の概観を把握するための最も基本的で強力な要約統計量です。
データ分析を行う際は、まずこれらの記述統計量を算出してデータ全体の特性を理解することが、次のステップ(可視化やモデル構築)へ進むための重要な基盤となります。