単元 3:データを手に入れる(最小限)
- 主要な公開データポータル(e-Stat、気象庁、Kaggle 等)の特徴を説明できる
- CSV ファイルを 1 つダウンロードし、ローカルに保存できる
- ダウンロードした CSV を Google Drive 経由で Colab から読み込める
- 「取得 → 保存 → 読み込み」の一連の流れを 1 サイクル通せる
公開データポータル
Section titled “公開データポータル”無料で誰でも使えるデータの入り口がいくつもあります。代表的なところ:
| ポータル | 特徴 | URL |
|---|---|---|
| e-Stat | 日本の政府統計(人口・経済・労働ほか)。CSV/Excel 形式で配布 | https://www.e-stat.go.jp/ |
| 気象庁オープンデータ | 気象観測・予報データ | https://www.data.jma.go.jp/ |
| Kaggle Datasets | 機械学習用データセットが豊富、海外コンペティション由来も多い | https://www.kaggle.com/datasets |
| 地方自治体オープンデータ | 自治体ごとの統計・施策データ。サイト構成はバラバラ | (各自治体サイト) |
| 世界銀行データ | 世界各国の経済・社会指標 | https://data.worldbank.org/ |
CSV をダウンロードする手順
Section titled “CSV をダウンロードする手順”- データポータルにアクセスし、興味のあるデータを探す
- ページ内の「ダウンロード」「CSV」リンクを探す(呼び方は様々)
- CSV 形式を選んでローカルに保存
ファイル名は半角英数字に揃えておくとあとで扱いやすくなります(日本語ファイル名でも使えるが、トラブル原因になりがち)。
Colab で読み込む 2 つの方法
Section titled “Colab で読み込む 2 つの方法”方法 A:Google Drive 経由(推奨)
Section titled “方法 A:Google Drive 経由(推奨)”- ダウンロードした CSV を Google Drive にアップロード(例:
MyDrive/datasets/<ファイル名>.csv) - Colab でマウント
from google.colab import drivedrive.mount('/content/drive')
import pandas as pddf = pd.read_csv('/content/drive/MyDrive/datasets/<ファイル名>.csv')df.head()ランタイムが切れてもファイルは Drive に残るので、再利用しやすい。
方法 B:Colab に直接アップロード
Section titled “方法 B:Colab に直接アップロード”from google.colab import filesuploaded = files.upload() # 実行するとファイル選択ダイアログが出る簡単だが、ランタイムが切れるとファイルが消えるため、その都度アップロードし直すことになります。
文字コードのつまずきに備える
Section titled “文字コードのつまずきに備える”ダウンロードした CSV が日本語を含む場合、文字コードは UTF-8 か cp932(Shift_JIS) のどちらかであることが多い。次の単元の延長で扱うので、ここでは「文字化けしたら encoding を変えて試す」ことだけ覚えておきましょう。
df = pd.read_csv("path.csv", encoding="cp932") # UTF-8 で読めないときに試す本コースで扱うのは 「Web 上にあらかじめ用意された CSV をダウンロードする」 までです。次のものは扱いません:
- Web スクレイピング(HTML をプログラムで取得して整形する手法)
- API の認証付き呼び出し(OAuth ほか)
- データベース直接接続
実データを継続的に取得したい場合は、後続コースや別資料を参照してください。
コード/スケッチ
Section titled “コード/スケッチ”# Google Drive をマウントし、ダウンロード済み CSV を読む典型例from google.colab import drivedrive.mount('/content/drive')
import pandas as pddf = pd.read_csv('/content/drive/MyDrive/datasets/sample.csv')print(df.shape) # (行数, 列数)df.head()- e-Stat または気象庁オープンデータから、興味のある CSV を 1 つだけ ダウンロードする
- Google Drive にフォルダ
datasets/を作り、ダウンロードした CSV をアップロードする - Colab で Drive をマウントし、
pd.read_csv()で読み込む df.shapeとdf.head()で全体像を確認する- 読み込めなかった場合、エラーメッセージを読んで原因(パス違い/文字コード違い)を特定する
発展課題(オプション)
Section titled “発展課題(オプション)”- 自分の興味分野(スポーツ/音楽/ゲーム/自治体/気象 ほか)のデータを Kaggle で 1 つ探し、同じ流れで Colab に読み込む
- 同じデータを「方法 A(Drive 経由)」と「方法 B(直接アップロード)」の両方で読み込み、使い心地を比べる