コンテンツにスキップ

DS 入門編

データサイエンスコースの入門編。高校「情報1」相当の難易度で、Python と Google Colab を初めて触る学習者を対象に、データの取得・前処理・基本的な可視化までを通す。

  • Google Colab を立ち上げ、Pandas でデータを読み書き・編集できる
  • 公開データを取得して DataFrame として扱える
  • 欠損値・重複・型変換などの基本的なデータクリーニングができる
  • 集計とクロス集計で要約統計を出せる
  • matplotlib / seaborn で代表的なグラフを描ける
#単元タイトル学習目標
1データと前処理がなぜ必要か「汚いデータ」の典型を理解し、可視化前の前処理の意義を説明できる
2Google Colab を立ち上げるアカウント作成・ノートブック作成・セル実行ができる
3データを手に入れる(最小限)公開データポータル(e-Stat / 気象庁 / Kaggle 等)から CSV を入手し Colab に取り込める
4Pandas と DataFrame 入門Series と DataFrame の違いを理解し、列・行アクセスができる
5CSV を読む・書くread_csv / to_csv で日本語 CSV を扱える
6データを編集・加工する列追加・条件抽出・apply の基本操作ができる
7欠損値とデータ型NaN の検出と補完、astype での型変換ができる
8重複・並べ替えdrop_duplicates / sort_values を使える
9集計とクロス集計groupby / pivot_table で要約統計を出せる
10Python で可視化するmatplotlib / seaborn で棒・折線・散布図を描ける

各単元のページに、使用するデータ・Notebook のダウンロードリンクを掲載しています。Google Colab で開いて実行する形を想定しています。

  • スクレイピング・API 認証は本コースの範囲外。単元 3 は公開データポータルからのダウンロード型に絞る

入門編 10 単元すべてのプロトタイプが揃いました。

入門編を修了したら → DS 実践編