単元 1:データと前処理がなぜ必要か
- 「汚いデータ」の典型例を 3 つ以上挙げられる
- 前処理を怠ると分析結果がどう歪むかを、具体例で説明できる
- データ分析の全体フロー(取得 → 前処理 → 分析 → 可視化 → 解釈)を説明できる
- 本コースで身につけるスキルが全体フローのどこに位置するかを把握する
現実のデータは「汚い」のが普通
Section titled “現実のデータは「汚い」のが普通”公開データや業務データを開いてみると、そのままでは分析できないことがほとんどです。代表的な「汚れ」のパターン:
- 欠損値 — セルが空欄、または
NaN/-/ 「なし」など別の表現になっている - 重複行 — 同じ人・同じイベントが 2 回以上記録されている
- 表記揺れ — 「東京」「東京都」「TOKYO」「とうきょう」が混在
- 型違い — 数値であるべき列が文字列として読み込まれる(「1,000」のようにカンマが入っている等)
- 外れ値・異常値 — センサ故障で
-9999、年齢が200など現実にあり得ない値
前処理を怠るとどうなるか
Section titled “前処理を怠るとどうなるか”| 問題 | 影響 |
|---|---|
| 欠損値を無視 | 平均が実際より高く(低く)出る |
| 重複行を残す | 件数が水増しされ、集計の信頼性が落ちる |
| 表記揺れ | グループ別集計で「東京」と「東京都」が別物として扱われる |
| 型違い | 数値計算ができない、ソートが文字列順になる |
| 外れ値 | 平均・標準偏差が極端に引っ張られる |
たとえば「日本の平均世帯収入」を計算するとき、-9999 という未回答コードを欠損値に変換せず混ぜたまま mean() を取れば、結果はマイナスに沈むことすらあります。
データ分析の全体フロー
Section titled “データ分析の全体フロー”データ取得 → 前処理 → 分析 → 可視化 → 解釈 └─ 50〜80% の時間 ─┘実務でも研究でも、前処理に分析時間の半分以上が使われるのが普通です。「分析の華やかな部分」は最後の数歩で、その前にデータを整えるという地味な仕事が続きます。
本コースで身につけること
Section titled “本コースで身につけること”- 入門編:データの取得・整形・基本可視化までを一通り
- 実践編:統計処理・機械学習の入口・解釈とストーリーテリング
本単元はその出発点として、「なぜ前処理が必要か」「データに対してどう疑ってかかればよいか」を体に入れる回です。
コード/スケッチ
Section titled “コード/スケッチ”この単元ではコードは扱いません。次の単元から実際に Python と Google Colab を触っていきます。
- 身の回りで触ったことのあるデータ(家計簿、スポーツ記録、ゲームのスコアログ、SNS の投稿数推移、何でも可)を 1 つ思い浮かべ、「汚れ」の例を 3 つ挙げなさい
- 挙げた汚れがそれぞれ「集計や可視化にどう悪さをするか」を 1 行ずつで書きなさい
発展課題(オプション)
Section titled “発展課題(オプション)”- 政府統計ポータル(e-Stat 等)から CSV を 1 つだけ開いて眺め、上で挙げた「汚れ」のうちどれが含まれているか観察する
- データの「汚れ」が原因で誤った結論に至った報道・論文の事例をニュースや書籍から 1 つ探す