Shikata Ga Nai

Private? There is no such things.

データ分析で見る信頼区間の求め方

Hello there, ('ω')ノ

「製薬業界のデータサイエンティストが、小さな地方コミュニティで期限切れの薬を保有している世帯数について調査を行いました。信頼水準は 99% です。得られたデータをもとに、Excel で信頼区間を求めた結果は以下のとおりです:

  • Alpha = 0.01
  • 標準偏差 (Standard deviation) = 29.691
  • サンプルサイズ (Size) = 125
  • 計算結果 (Formula result) = 6.841

平均 (mean) が 54.168 の場合、信頼区間 (Confidence Intervals) はどうなりますか?」


  1. 信頼区間(Confidence Interval, CI)とは?

    • 「母集団の真の平均が、ある範囲の中にある確率が何%か」を示す指標です。
    • 今回の例では、99% の信頼水準なので、「真の平均がこの範囲に入っている確率が 99% ある」と考えられます。
  2. 計算のやり方

    • 平均(54.168)に対して、「±(Formula result = 6.841)」を行うだけです。
    • 下限 = 54.168 - 6.841 = 47.327
    • 上限 = 54.168 + 6.841 = 61.009
  3. なぜ引いたり足したりするのか

    • 標本データから推定した平均は、母集団の真の平均とは誤差があります。
    • この誤差を「標準偏差」「サンプルサイズ」「信頼水準」などを元に計算し、どれだけ上下に幅を持たせれば指定の信頼水準を満たすかを示したものが「Formula result(ここでは 6.841)」です。
  4. 結論

    • 99% の信頼区間は「47.327 ~ 61.009」となるので、「この範囲のどこかに本当の平均があるだろう」と 99% の確率で言えます。

Best regards, (^^ゞ