Social Data Science Courseware

1. データと前処理がなぜ必要か

学習目標

「汚いデータ」の典型例を 3 つ以上挙げられる
前処理を怠ると分析結果がどう歪むかを、具体例で説明できる
データ分析の全体フロー（取得 → 前処理 → 分析 → 可視化 → 解釈）を説明できる
本コースで身につけるスキルが全体フローのどこに位置するかを把握する

本文

現実のデータは「汚い」のが普通

公開データや業務データを開いてみると、そのままでは分析できないことがほとんどです。代表的な「汚れ」のパターン：

欠損値 — セルが空欄、または NaN / - / 「なし」など別の表現になっている
重複行 — 同じ人・同じイベントが 2 回以上記録されている
表記揺れ — 「東京」「東京都」「TOKYO」「とうきょう」が混在
型違い — 数値であるべき列が文字列として読み込まれる（「1,000」のようにカンマが入っている等）
外れ値・異常値 — センサ故障で -9999、年齢が 200 など現実にあり得ない値

前処理を怠るとどうなるか

問題	影響
欠損値を無視	平均が実際より高く（低く）出る
重複行を残す	件数が水増しされ、集計の信頼性が落ちる
表記揺れ	グループ別集計で「東京」と「東京都」が別物として扱われる
型違い	数値計算ができない、ソートが文字列順になる
外れ値	平均・標準偏差が極端に引っ張られる

たとえば「日本の平均世帯収入」を計算するとき、-9999 という未回答コードを欠損値に変換せず混ぜたまま mean() を取れば、結果はマイナスに沈むことすらあります。

データ分析の全体フロー

データ取得 → 前処理 → 分析 → 可視化 → 解釈
       └─ 50〜80% の時間 ─┘

実務でも研究でも、前処理に分析時間の半分以上が使われるのが普通です。「分析の華やかな部分」は最後の数歩で、その前にデータを整えるという地味な仕事が続きます。

本コースで身につけること

入門講座：データの取得・整形・基本可視化までを一通り
実践講座：統計処理・機械学習の入口・解釈とストーリーテリング

本単元はその出発点として、「なぜ前処理が必要か」「データに対してどう疑ってかかればよいか」を体に入れる回です。

サンプルコード

この単元ではコードは扱いません。次の単元から実際に Python と Google Colab を触っていきます。

演習

身の回りで触ったことのあるデータ（家計簿、スポーツ記録、ゲームのスコアログ、SNS の投稿数推移、何でも可）を 1 つ思い浮かべ、「汚れ」の例を 3 つ挙げなさい
挙げた汚れがそれぞれ「集計や可視化にどう悪さをするか」を 1 行ずつで書きなさい

発展課題（オプション）

政府統計ポータル（e-Stat 等）から CSV を 1 つだけ開いて眺め、上で挙げた「汚れ」のうちどれが含まれているか観察する
データの「汚れ」が原因で誤った結論に至った報道・論文の事例をニュースや書籍から 1 つ探す