2 min read

7. 確率分布と正規分布

Table of Contents

記述統計によってデータの特徴を要約する方法を学びましたが、統計学のもう一つの大きな目的は、データの背後にある「不確実性」や「ランダム性」を数学的にモデル化することです。そのための基本的な道具が確率分布 (probability distribution) です。

この記事では、確率分布の概念を導入し、統計学において最も重要な正規分布 (normal distribution) について詳述します。


確率変数と確率分布

確率変数 (random variable) とは、試行の結果によって値が定まる変数のことです。例えば、「サイコロを1回振ったときに出る目」などが該当します。

確率分布は、この確率変数XXが特定の値をとる確率を記述するものです。これにより、結果の不確実性を数学的に扱うことができます。

確率変数が連続的な値(身長や温度など)をとる場合、その分布は確率密度関数 (Probability Density Function, PDF) f(x)f(x) によって記述されます。PDFは、その値の「出やすさ」を表す曲線であり、以下の性質を持ちます。

  • 曲線の下の全面積は1に等しい: f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1
  • XXが区間[a,b][a, b]に入る確率は、曲線の下の面積 abf(x)dx\int_{a}^{b} f(x) dx で与えられる。

正規分布(ガウス分布)

正規分布 (Normal Distribution)、またはガウス分布 (Gaussian Distribution) は、数多くの統計的手法において中心的な役割を果たす、最も重要な連続確率分布です。

その確率密度関数は、以下の式で与えられ、左右対称の「釣鐘型」の曲線を描きます。

f(xμ,σ2)=12πσ2exp((xμ)22σ2)f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( - \frac{(x-\mu)^2}{2\sigma^2} \right)

この分布は、2つのパラメータによって完全に特徴づけられます。

  • 平均 μ\mu: 分布の中心の位置を決定します。
  • 標準偏差 σ\sigma (または分散 σ2\sigma^2): 分布の広がり具合(釣鐘の幅)を決定します。σ\sigmaが小さいほど、分布は平均値の周りに集中した鋭い形になります。

なぜ正規分布は重要なのか?

正規分布がこれほどまでに広く使われる理由は、中心極限定理 (Central Limit Theorem, CLT) という強力な定理にあります。

中心極限定理(概要): 母集団がどのような分布であっても、そこから無作為抽出したサンプルの大きさが十分に大きいとき、そのサンプル平均の分布は正規分布に近似する

この定理は、「世の中の多くの事象は、多数の独立な要因の和として現れる」という考え方と結びつきます。例えば、人の身長は遺伝や環境など無数の要因の積み重ねの結果です。中心極限定理によれば、このような事象は正規分布に従う傾向があります。測定誤差や社会現象など、多くのデータが正規分布またはそれに近い分布を示すのはこのためです。

この性質により、正規分布は多くの統計的検定や機械学習モデル(例:線形回帰の誤差項の仮定)において、理論的な基盤として利用されています。


標準正規分布と標準化

特に、平均が μ=0\mu=0、標準偏差が σ=1\sigma=1 である正規分布を標準正規分布 (standard normal distribution) と呼びます。

任意の正規分布に従う確率変数 XX は、以下の標準化 (standardization) と呼ばれる変換によって、標準正規分布に従う確率変数 ZZ に変換できます。

Z=XμσZ = \frac{X-\mu}{\sigma}

この変換により、平均や標準偏差が異なるあらゆる正規分布を、単一の標準正規分布の問題として扱うことが可能になります。これにより、確率計算や統計的検定が大幅に簡略化されます。


まとめ

  • 確率分布は、確率変数の振る舞いを数学的に記述するモデルです。
  • 正規分布は、平均 μ\mu と標準偏差 σ\sigma で特徴づけられる、釣鐘型の最も重要な連続確率分布です。
  • 中心極限定理により、多くの自然現象や社会現象が正規分布に近似するため、統計学やデータサイエンスにおいて広く応用されます。
  • 標準化によって、任意の正規分布を標準正規分布に変換し、統一的に扱うことができます。