コンテンツにスキップ

単元 1:データと前処理がなぜ必要か

  • 「汚いデータ」の典型例を 3 つ以上挙げられる
  • 前処理を怠ると分析結果がどう歪むかを、具体例で説明できる
  • データ分析の全体フロー(取得 → 前処理 → 分析 → 可視化 → 解釈)を説明できる
  • 本コースで身につけるスキルが全体フローのどこに位置するかを把握する

現実のデータは「汚い」のが普通

Section titled “現実のデータは「汚い」のが普通”

公開データや業務データを開いてみると、そのままでは分析できないことがほとんどです。代表的な「汚れ」のパターン:

  • 欠損値 — セルが空欄、または NaN / - / 「なし」など別の表現になっている
  • 重複行 — 同じ人・同じイベントが 2 回以上記録されている
  • 表記揺れ — 「東京」「東京都」「TOKYO」「とうきょう」が混在
  • 型違い — 数値であるべき列が文字列として読み込まれる(「1,000」のようにカンマが入っている等)
  • 外れ値・異常値 — センサ故障で -9999、年齢が 200 など現実にあり得ない値
問題影響
欠損値を無視平均が実際より高く(低く)出る
重複行を残す件数が水増しされ、集計の信頼性が落ちる
表記揺れグループ別集計で「東京」と「東京都」が別物として扱われる
型違い数値計算ができない、ソートが文字列順になる
外れ値平均・標準偏差が極端に引っ張られる

たとえば「日本の平均世帯収入」を計算するとき、-9999 という未回答コードを欠損値に変換せず混ぜたまま mean() を取れば、結果はマイナスに沈むことすらあります。

データ取得 → 前処理 → 分析 → 可視化 → 解釈
└─ 50〜80% の時間 ─┘

実務でも研究でも、前処理に分析時間の半分以上が使われるのが普通です。「分析の華やかな部分」は最後の数歩で、その前にデータを整えるという地味な仕事が続きます。

  • 入門編:データの取得・整形・基本可視化までを一通り
  • 実践編:統計処理・機械学習の入口・解釈とストーリーテリング

本単元はその出発点として、「なぜ前処理が必要か」「データに対してどう疑ってかかればよいか」を体に入れる回です。

この単元ではコードは扱いません。次の単元から実際に Python と Google Colab を触っていきます。

  1. 身の回りで触ったことのあるデータ(家計簿、スポーツ記録、ゲームのスコアログ、SNS の投稿数推移、何でも可)を 1 つ思い浮かべ、「汚れ」の例を 3 つ挙げなさい
  2. 挙げた汚れがそれぞれ「集計や可視化にどう悪さをするか」を 1 行ずつで書きなさい
  • 政府統計ポータル(e-Stat 等)から CSV を 1 つだけ開いて眺め、上で挙げた「汚れ」のうちどれが含まれているか観察する
  • データの「汚れ」が原因で誤った結論に至った報道・論文の事例をニュースや書籍から 1 つ探す