Hello there, ('ω')ノ
データ分析を始めると、「変数の種類(タイプ)」という言葉に出会うようになります。 これは、そのデータがどういう性質を持っていて、どんな分析が向いているのかを判断するための基本です。
特に、離散(Discrete)・連続(Continuous)・カテゴリ(Categorical) という分類は、グラフの選び方や統計手法の使い方に直結します。
✅ 「変数」とは?
まず、変数とは「分析に使う項目(列)」のことです。 たとえば、年齢・性別・購入回数・評価点数などがそれにあたります。
その変数がどのタイプに属するかによって、次のような判断に関わってきます:
- どんなグラフが使えるか?
- 平均や中央値を計算してよいか?
- 数値同士の相関を見られるか?
🔹 ① 離散変数(Discrete Variable)
🎯 数を数えられる、切りのいい数
離散変数は、「0個、1個、2個、3個…」と数えられる数のことです。 連続的な変化はせず、「ポンポンッ」と区切りのある値しか取りません。
例:
- 購入回数(0回、1回、2回…)
- 子どもの人数(1人、2人…)
- 故障回数
- イベント参加数
✅ 特徴
- 小数点は使わない
- 数が少なければ棒グラフが向いている
- 平均値や合計値の算出が可能
🔸 ② 連続変数(Continuous Variable)
📏 測定できる数値、無限の値を取る
連続変数は、間に無限の値が存在する数値データです。 たとえば、身長が165cmであれば、その間にも164.9cm、164.91cm…というように無限に細かい値が存在します。
例:
- 身長・体重
- 価格(¥12,345.67)
- 温度(22.3℃)
- 時間(3時間25分)
✅ 特徴
- 小数点を含むことができる
- ヒストグラムや折れ線グラフが向いている
- 統計分析(相関・回帰など)に適している
🔸 ③ カテゴリ変数(Categorical Variable)
🧾 グループや分類を表すデータ
カテゴリ変数は、数値ではなく分類を意味するデータです。 計算する対象ではなく、「どのグループに属しているか」を示すラベルのようなものです。
例:
- 性別(男性・女性)
- 都道府県(東京・大阪・福岡…)
- 商品カテゴリ(食品・雑貨・家具)
- 満足度(「高い」「普通」「低い」)
✅ 特徴
- 数値計算はできない(平均、合計など)
- 円グラフや棒グラフで可視化
- グループごとの比較分析に使われる
🧠 カテゴリ変数の種類
カテゴリ変数には、さらに次の2タイプがあります:
種類 | 説明 | 例 |
---|---|---|
名義尺度(Nominal) | 順番に意味はない | 血液型、部署名、国名 |
順序尺度(Ordinal) | 順番に意味があるが間隔は不明 | 「高・中・低」、アンケートの5段階評価など |
🧪 実務での見分け方と使い分け
項目 | データ型 | 適した分析 |
---|---|---|
年齢(整数) | 連続変数 | 平均、中央値、回帰 |
性別 | カテゴリ変数(名義) | クロス集計、割合比較 |
購入回数 | 離散変数 | 合計、ヒストグラム |
満足度(5段階) | カテゴリ変数(順序) | グループ比較、中央値 |
🔁 まとめ:変数のタイプで“分析の道具”が変わる
変数タイプ | 特徴 | 向いている分析や可視化 |
---|---|---|
離散変数 | 数が数えられる、小数点なし | 棒グラフ、頻度、平均 |
連続変数 | 測定値、小数点あり | ヒストグラム、回帰分析 |
カテゴリ変数 | 分類、名前やグループ | 円グラフ、クロス集計 |
▶ 「この変数はどのタイプ?」と意識することで、 分析の質もスピードもぐっと向上します。
Best regards, (^^ゞ