背景
- pythonで機械学習や簡単なデータを操作をする時にscikit-learn(以下 sk-learn)のdatasetsはよく使用する。
- Iris(植物のアヤメ)のデータセットが一番有名な気がするが他にもsk-learnのデータセットがある。
- ちょっとしたデータを使いたい時の備忘録として、データを紹介する。
目標
- scikit-learnのToy datasetsを紹介する
sk-learnのデータ構成
- sk-learnのdatasetsは大分類として4種類ある。
項目 | 説明 |
---|---|
Toy datasets | sk-learnに内包されている簡単なデータセット |
Real world datasets | DLが必要な容量が大きいデータセット |
Generated datasets | 人工的に生成されたデータセット |
Loading other datasets | その他のデータセット |
sk-learnのToy datasets
- sk-learnに内包されている、Toy datasetsについて軽く紹介する。
項目 | 説明 |
---|---|
Boston house prices dataset | ボストンの住宅価格データセット |
Iris plants dataset | 植物のアヤメのデータセット |
Diabetes dataset | 糖尿病のデータセット |
Optical recognition of handwritten digits dataset | 手書き数字のデータセット |
Linnerrud dataset | 運動と生理学的データセット |
Wine recognition dataset | ワインの品質データセット |
Breast cancer wisconsin (diagnostic) dataset | 乳がんデータセット |
補足
- 今後、他のデータセットについても紹介を追加したい。
- 各データセットを簡単に可視化分析した記事を書きたい
参考資料
7. Dataset loading utilities
The sklearn.datasets package embeds some small toy datasets as introduced in the Getting Started section. This package also features helpers to fetch larger dat...
scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me
scikit-learnには分類(classification)や回帰(regression)などの機械学習の問題に使えるデータセットが同梱されている。アルゴリズムを試してみたりするのに便利。画像などのサイズの大きいデータをダウンロードするための関数も用意されている。7. Dataset loading utiliti...
Qiita記事
【Python】scikit-learnのToy datasetsの紹介 - Qiita
背景pythonで機械学習や簡単なデータを操作をする時にscikit-learn(以下 sk-learn)のdatasetsはよく使用する。Iris(植物のアヤメ)のデータセットが一番有名な気が…