Hello there, ('ω')ノ
前回は「中心傾向(平均・中央値・最頻値)」をテーマに、データの“中心”を見る方法を解説しました。 ですが、中心だけではデータの“ばらつき”まではわかりません。
たとえばこんな疑問、ありませんか?
- 同じ平均でも「バラバラ」なデータと「きっちり揃った」データがある?
- 外れ値の影響を受けやすいデータなのか?
- ばらつきの大きさを比較したい!
このような視点でデータを評価するために使うのが、「散布(ばらつき)の指標」です。 今回はその中でも代表的な3つ:
- 分散(Variance)
- 標準偏差(Standard Deviation)
- 四分位範囲(Interquartile Range, IQR)
について、初心者にもわかりやすくご紹介します。
✅ 散布の測定とは?
データの「広がり具合」を数値で表すことで、どれくらいデータが平均からズレているかを把握できます。
① 分散(Variance)
🔍 どんな指標?
- 各データが平均からどれだけ離れているかを、2乗して平均したもの。
🧮 計算の流れ(簡略化)
- 各値と平均の差を出す
- それを2乗する(マイナスを打ち消すため)
- すべてを足して、件数で割る(または件数 - 1)
✔ 特徴
- 単位が元データの2乗になる(例:円²、点²など)
- 大きなズレに敏感(外れ値の影響を受けやすい)
② 標準偏差(Standard Deviation)
🔍 どんな指標?
- 分散の平方根(ルート)を取ったもの。
- 「ばらつきの平均的な距離」を元の単位で表す。
✔ 特徴
- 単位が元と同じなので、直感的にわかりやすい
- 平均 ± 標準偏差 で「だいたいこの範囲に収まる」イメージがつかめる
📘 Excel関数
=STDEV.P(範囲)
(母集団)=STDEV.S(範囲)
(標本)
🔧 実例で比べてみよう
データA | 10, 10, 10, 10, 10 → 標準偏差:0(ばらつきなし) |
---|---|
データB | 5, 10, 15 → 標準偏差:約4.08(ばらつきあり) |
③ 四分位範囲(Interquartile Range, IQR)
🔍 どんな指標?
- データを4等分したときの真ん中50%の範囲
- Q1(25%点)と Q3(75%点)の差で求める:
IQR = Q3 - Q1
✔ 特徴
- 外れ値に強い!
- データが偏っていても使いやすい
- 箱ひげ図でよく使われる
🛠 Excelでの使い方
指標 | 関数例 |
---|---|
分散(母集団) | =VAR.P(範囲) |
分散(標本) | =VAR.S(範囲) |
標準偏差 | =STDEV.P(範囲) or =STDEV.S(範囲) |
四分位範囲(手動) | =QUARTILE(範囲,3) - QUARTILE(範囲,1) |
🧠 どの散布指標をいつ使う?
指標 | 向いているシーン | 注意点 |
---|---|---|
分散 | 数学的な処理で必要なとき | 単位が変わる(平方) |
標準偏差 | 平均を中心にどれだけ広がっているか知りたいとき | 外れ値の影響を受ける |
四分位範囲 | 外れ値を含むデータのばらつき | 中央値と相性が良い |
✨ 実務での使い方例
シーン | 指標 | 目的 |
---|---|---|
月ごとの売上の安定性 | 標準偏差 | 安定しているか比較 |
顧客年齢の広がり | IQR | 特定層に偏っていないか確認 |
品質検査のバラつき管理 | 分散 | ばらつきの大きさを数式化して管理 |
✅ まとめ:中心だけじゃない、“広がり”を見よう!
視点 | 指標 | 内容 |
---|---|---|
中心 | 平均・中央値・最頻値 | 値の代表的な場所を示す |
散布 | 分散・標準偏差・IQR | 広がりやバラつきを示す |
▶ 平均だけに頼らず、「どのくらいズレがあるか」も確認することで、 より正確で実用的な分析が可能になります!
Best regards, (^^ゞ