TIM Labs

Chainer:MNISTの手書き数字は使えそう

| コメント(0) | トラックバック(0)
sklearnの8x8ドットの手書き文字を使うのをChainer:iris以外のデータでDeep Learning で紹介したが、ここで最初の48文字の画像を示す。
digitsdisp48.png これは、以下の数字を示しているのだが、相当無理があろう。
[[0 1 2 3 4 5 6 7]
 [8 9 0 1 2 3 4 5]
 [6 7 8 9 0 1 2 3]
 [4 5 6 7 8 9 0 9]
 [5 5 6 5 0 9 8 9]
 [8 4 1 7 7 3 5 1]]

ということで、もっと良い数字画像データセットを使うことにする。

よく使われるものに、THE MNIST DATABASE of handwritten digits がある。
The MNIST database (Mixed National Institute of Standards and Technology database) は、28x28の手書き数字のデータ・セットで、トレーニング用が6万文字、テスト用が1万文字ある大規模なものである。
全部使うとシステムが重くなったりするので、一部だけを利用することも多い。

とりあえず、トレーニングセットの最初の48文字を上と同じ形式で示す。
mnistdisp48.png
[[5 0 4 1 9 2 1 3]
 [1 4 3 5 3 6 1 7]
 [2 8 6 9 4 0 9 1]
 [1 2 4 3 2 7 3 8]
 [6 9 0 5 6 0 7 6]
 [1 8 7 9 3 9 8 5]]
全然画像の細かさが違うのが分かるだろう。

さて、これをどうやって読み込み、並べて表示したプログラムについては、次回に説明しよう。

トラックバック(0)

トラックバックURL: http://labs.timedia.co.jp/mt/mt-tb.cgi/578

コメントする

このブログ記事について

このページは、fujiが2017年3月17日 00:00に書いたブログ記事です。

ひとつ前のブログ記事は「GPU:NVIDIAのGEFORCEがやってきた」です。

次のブログ記事は「データ解析のための統計モデリング入門 GLMの尤度比検定と検定の非対称性 読書メモ1」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。