コンテンツにスキップ

DS 実践編

データサイエンスコースの実践編。高校「情報2」相当の難易度で、入門編で習得した基礎を統計処理・機械学習・ストーリーテリングへ拡張する。

  • 複数ソースのデータを取得・結合して 1 本のデータセットを組める
  • PCA・クラスタリング・ネットワーク分析の入口を扱える
  • 統計指標を解釈し、データから「言えること/言えないこと」を区別できる
  • 取得→前処理→分析→可視化→レポートまでを総合プロジェクトとして通せる

DS 入門編を修了していること、または同等の知識(Pandas での基本操作、CSV 読み書き、欠損値処理)があること。

#単元タイトル学習目標
1実データの取得と結合公開データを複数取得し merge で結合できる
2探索的データ分析 (EDA) の型集計→可視化のループで仮説を立てられる
3次元削減:PCA高次元データを 2D に投影し解釈できる
4クラスタリングk-means で集団を分け、評価指標を読める
5ネットワークデータ分析NetworkX で中心性・次数分布を計算できる
6統計的にデータを読む平均・分散・相関の落とし穴を理解し、検定の入口に立つ
7解釈とストーリーテリング結果から「言えること/言えないこと」を分けられる
8総合ミニプロジェクト取得→前処理→分析→可視化→レポートを 1 本通す

各単元のページに、使用するデータ・Notebook のダウンロードリンクを掲載しています。Google Colab で開いて実行する形を想定しています。

その他の単元は順次プロトタイプを追加していく。