DS 実践編
データサイエンスコースの実践編。高校「情報2」相当の難易度で、入門編で習得した基礎を統計処理・機械学習・ストーリーテリングへ拡張する。
- 複数ソースのデータを取得・結合して 1 本のデータセットを組める
- PCA・クラスタリング・ネットワーク分析の入口を扱える
- 統計指標を解釈し、データから「言えること/言えないこと」を区別できる
- 取得→前処理→分析→可視化→レポートまでを総合プロジェクトとして通せる
DS 入門編を修了していること、または同等の知識(Pandas での基本操作、CSV 読み書き、欠損値処理)があること。
単元一覧(8 単元)
Section titled “単元一覧(8 単元)”| # | 単元タイトル | 学習目標 |
|---|---|---|
| 1 | 実データの取得と結合 | 公開データを複数取得し merge で結合できる |
| 2 | 探索的データ分析 (EDA) の型 | 集計→可視化のループで仮説を立てられる |
| 3 | 次元削減:PCA | 高次元データを 2D に投影し解釈できる |
| 4 | クラスタリング | k-means で集団を分け、評価指標を読める |
| 5 | ネットワークデータ分析 | NetworkX で中心性・次数分布を計算できる |
| 6 | 統計的にデータを読む | 平均・分散・相関の落とし穴を理解し、検定の入口に立つ |
| 7 | 解釈とストーリーテリング | 結果から「言えること/言えないこと」を分けられる |
| 8 | 総合ミニプロジェクト | 取得→前処理→分析→可視化→レポートを 1 本通す |
教材リソース
Section titled “教材リソース”各単元のページに、使用するデータ・Notebook のダウンロードリンクを掲載しています。Google Colab で開いて実行する形を想定しています。
プロトタイプ済みの単元
Section titled “プロトタイプ済みの単元”その他の単元は順次プロトタイプを追加していく。