DS 入門編
データサイエンスコースの入門編。高校「情報1」相当の難易度で、Python と Google Colab を初めて触る学習者を対象に、データの取得・前処理・基本的な可視化までを通す。
- Google Colab を立ち上げ、Pandas でデータを読み書き・編集できる
- 公開データを取得して DataFrame として扱える
- 欠損値・重複・型変換などの基本的なデータクリーニングができる
- 集計とクロス集計で要約統計を出せる
- matplotlib / seaborn で代表的なグラフを描ける
単元一覧(10 単元)
Section titled “単元一覧(10 単元)”| # | 単元タイトル | 学習目標 |
|---|---|---|
| 1 | データと前処理がなぜ必要か | 「汚いデータ」の典型を理解し、可視化前の前処理の意義を説明できる |
| 2 | Google Colab を立ち上げる | アカウント作成・ノートブック作成・セル実行ができる |
| 3 | データを手に入れる(最小限) | 公開データポータル(e-Stat / 気象庁 / Kaggle 等)から CSV を入手し Colab に取り込める |
| 4 | Pandas と DataFrame 入門 | Series と DataFrame の違いを理解し、列・行アクセスができる |
| 5 | CSV を読む・書く | read_csv / to_csv で日本語 CSV を扱える |
| 6 | データを編集・加工する | 列追加・条件抽出・apply の基本操作ができる |
| 7 | 欠損値とデータ型 | NaN の検出と補完、astype での型変換ができる |
| 8 | 重複・並べ替え | drop_duplicates / sort_values を使える |
| 9 | 集計とクロス集計 | groupby / pivot_table で要約統計を出せる |
| 10 | Python で可視化する | matplotlib / seaborn で棒・折線・散布図を描ける |
教材リソース
Section titled “教材リソース”各単元のページに、使用するデータ・Notebook のダウンロードリンクを掲載しています。Google Colab で開いて実行する形を想定しています。
- スクレイピング・API 認証は本コースの範囲外。単元 3 は公開データポータルからのダウンロード型に絞る
プロトタイプ済みの単元
Section titled “プロトタイプ済みの単元”- 1. データと前処理がなぜ必要か
- 2. Google Colab を立ち上げる
- 3. データを手に入れる(最小限)
- 4. Pandas と DataFrame 入門
- 5. CSV を読む・書く
- 6. データを編集・加工する
- 7. 欠損値とデータ型
- 8. 重複・並べ替え
- 9. 集計とクロス集計
- 10. Python で可視化する
入門編 10 単元すべてのプロトタイプが揃いました。
次のステップ
Section titled “次のステップ”入門編を修了したら → DS 実践編