背景
- pythonで機械学習や簡単なデータを操作をする時にscikit-learn(以下 sk-learn)のdatasetsはよく使用する。
- Iris(植物のアヤメ)のデータセットが一番有名な気がするが他にもsk-learnのデータセットがある。
- ちょっとしたデータを使いたい時の備忘録として、データを紹介する。
目標
- scikit-learnのToy datasetsを紹介する
sk-learnのデータ構成
- sk-learnのdatasetsは大分類として4種類ある。
項目 | 説明 |
---|---|
Toy datasets | sk-learnに内包されている簡単なデータセット |
Real world datasets | DLが必要な容量が大きいデータセット |
Generated datasets | 人工的に生成されたデータセット |
Loading other datasets | その他のデータセット |
sk-learnのToy datasets
- sk-learnに内包されている、Toy datasetsについて軽く紹介する。
項目 | 説明 |
---|---|
Boston house prices dataset | ボストンの住宅価格データセット |
Iris plants dataset | 植物のアヤメのデータセット |
Diabetes dataset | 糖尿病のデータセット |
Optical recognition of handwritten digits dataset | 手書き数字のデータセット |
Linnerrud dataset | 運動と生理学的データセット |
Wine recognition dataset | ワインの品質データセット |
Breast cancer wisconsin (diagnostic) dataset | 乳がんデータセット |
補足
- 今後、他のデータセットについても紹介を追加したい。
- 各データセットを簡単に可視化分析した記事を書きたい
参考資料
![](https://takuma-tech.com/wp-content/uploads/cocoon-resources/blog-card-cache/b4b7bbff8c9fbf61035a1b0f918d5ae9.png)
7. Dataset loading utilities
The sklearn.datasets package embeds some small toy datasets as introduced in the Getting Started section. This package also features helpers to fetch larger dat...
![](https://takuma-tech.com/wp-content/uploads/cocoon-resources/blog-card-cache/e64d81a7df33889c5b9bd017f0a4facf.png)
scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me
scikit-learnには分類(classification)や回帰(regression)などの機械学習の問題に使えるデータセットが同梱されている。アルゴリズムを試してみたりするのに便利。画像などのサイズの大きいデータをダウンロードするための関数も用意されている。7. Dataset loading utiliti...
Qiita記事
![](https://qiita-user-contents.imgix.net/https%3A%2F%2Fcdn.qiita.com%2Fassets%2Fpublic%2Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png?ixlib=rb-4.0.0&w=1200&mark64=aHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgwJTkwUHl0aG9uJUUzJTgwJTkxc2Npa2l0LWxlYXJuJUUzJTgxJUFFVG95JTIwZGF0YXNldHMlRTMlODElQUUlRTclQjQlQjklRTQlQkIlOEImdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWZkMTViOWU0OWY1YjQ0MTdjODQ0MWJkZjRhNDkyZWFl&mark-x=142&mark-y=112&blend64=aHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwdGFrdW1hLTEyMzQmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWZhODg3ZDUyYTk5ZmU2ODc3OTllNDljODRkYjk3NzVm&blend-x=142&blend-y=491&blend-mode=normal&s=33d285f6fedc62d09cb597c31dead6c5)
【Python】scikit-learnのToy datasetsの紹介 - Qiita
背景pythonで機械学習や簡単なデータを操作をする時にscikit-learn(以下 sk-learn)のdatasetsはよく使用する。Iris(植物のアヤメ)のデータセットが一番有名な気が…