統計で扱うデータは典型的に,次の表のような形式で表現されます。この表には賃貸住宅の家賃と,部屋数や築年数,質といった情報がまとめられています。こうしたデータについて,列方向の項目を変数(variable)と呼びます。
ID | 家賃 | 部屋数 | 築年数 | エレベータ | 質 |
---|---|---|---|---|---|
0 | 110,000 | 5 | 2 | 有 | 秀 |
1 | 46,000 | 2 | 25 | 無 | 可 |
2 | 64,000 | 3 | 16 | 有 | 良 |
3 | 56,000 | 2 | 15 | 無 | 良 |
… | … | … | … | … | … |
99 | 96,000 | 5 | 8 | 有 | 優 |
100 | 42,000 | 2 | 30 | 無 | 可 |
変数は,質的変数(qualitative variable)と量的変数(quantitative variable)に大別されます。質的変数はカテゴリーで表現される変数で,表1の「エレベータ」「質」がこれにあたります。量的変数は数量で表現される変数であり,表1の「家賃」「部屋数」「築年数」が対応します。
統計学では,性質に応じて変数を4つの尺度に分けて考えます。「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4つです。
- 名義尺度(質的変数)
- 同じ値か否かを判定する,区別のための尺度
- 例:性別,職業,住所,色,IDなど
- 統計量1:度数,最頻値
- 順序尺度(質的変数)
- 値の大小関係には意味があるが,値の間隔には意味がない尺度
- 例:ランク(松竹梅),評価(秀優良可不可)など
- 統計量:度数,最頻値,中央値,四分位数
- 間隔尺度(量的変数)
- 値の大小関係と,値の間隔に意味がある尺度。0の値は相対的な意味しか持たない。
- 例:気温(摂氏),偏差値,西暦など
- 統計量:度数,最頻値,中央値,四分位数,平均,標準偏差
- 比例尺度(量的変数)
- 値の大小関係と,値の間隔,値の比に意味がある尺度。0の値が絶対的な意味(原点)を持つ。
- 例:時間,年齢,長さ,重さなど
- 統計量:度数,最頻値,中央値,四分位数,平均,標準偏差,変動係数,幾何平均
量的変数はさらに別の分類として,離散変数(discrete variable)と連続変数(continuous variable)に分けられます。離散変数は,検挙数や人数,枚数など,飛び飛びの値をとる変数を意味します。連続変数は,身長や体重,温度など,連続量で値をとる変数を指します。
コメント