【Python】scikit-learnのToy datasetsの紹介

背景

  • pythonで機械学習や簡単なデータを操作をする時にscikit-learn(以下 sk-learn)のdatasetsはよく使用する。
  • Iris(植物のアヤメ)のデータセットが一番有名な気がするが他にもsk-learnのデータセットがある。
  • ちょっとしたデータを使いたい時の備忘録として、データを紹介する。

目標

  • scikit-learnのToy datasetsを紹介する

sk-learnのデータ構成

  • sk-learnのdatasetsは大分類として4種類ある。
項目 説明
Toy datasets sk-learnに内包されている簡単なデータセット
Real world datasets DLが必要な容量が大きいデータセット
Generated datasets 人工的に生成されたデータセット
Loading other datasets その他のデータセット

sk-learnのToy datasets

  • sk-learnに内包されている、Toy datasetsについて軽く紹介する。
項目 説明
Boston house prices dataset ボストンの住宅価格データセット
Iris plants dataset 植物のアヤメのデータセット
Diabetes dataset 糖尿病のデータセット
Optical recognition of handwritten digits dataset 手書き数字のデータセット
Linnerrud dataset 運動と生理学的データセット
Wine recognition dataset ワインの品質データセット
Breast cancer wisconsin (diagnostic) dataset 乳がんデータセット

補足

  • 今後、他のデータセットについても紹介を追加したい。
  • 各データセットを簡単に可視化分析した記事を書きたい

参考資料

7. Dataset loading utilities
The sklearn.datasets package embeds some small toy datasets as introduced in the Getting Started section. This package also features helpers to fetch larger dat...
scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me
scikit-learnには分類(classification)や回帰(regression)などの機械学習の問題に使えるデータセットが同梱されている。アルゴリズムを試してみたりするのに便利。画像などのサイズの大きいデータをダウンロードするための関数も用意されている。7. Dataset loading utiliti...

Qiita記事

【Python】scikit-learnのToy datasetsの紹介 - Qiita
背景pythonで機械学習や簡単なデータを操作をする時にscikit-learn(以下 sk-learn)のdatasetsはよく使用する。Iris(植物のアヤメ)のデータセットが一番有名な気が…