TIM Labs

2018年3月アーカイブ

ゼロ9784873118369.jpgから作るDeep Learning?
自然言語処理編

斎藤 康毅 著

A5版、448ページ
2018/6/25 発売
3600円(本体)
オライリー・ジャパン
ISBN-13: 978-487311-836-9


本書、発売が6月25日ということで、まだ発売されていないのだが、紹介しようと思う。
オライリーのホームページのオラの村に、以下が用意されているのだ。

『ゼロから作るDeep Learning ?』公開レビューのお知らせ

公開レビューということで、まだ執筆、修正中なのだが、できるだけ多くの人に読んで様々な指摘をしてもらい、修正に反映させようということである。

言い方は色々あって、公開レビュー、プレビュー、Early Release、 Early Edition などがあるだろうか。

オライリー本社の方からは、例えば "Tensor Flow for Deep Learning" の Early Release がある。

正式発売前に、まだ未完成でも読んでみたいという人はいる。
そういう人は、一般に能力も高く、情報は人より一足先に入手する。
そういう人々からの指摘を取り入れると、本がより良くなる。from_zero_deep_learning (283x400).jpg


さて、『ゼロから作るDeep Learning ? ―自然言語処理編 』であるが、コンピュータ出版業界で空前のベストセラーになった『ゼロから作るDeep Learning―Pythonで学ぶディープラーニングの理論と実装』の続編で、今度は自然言語編である。
大いに期待できるのではと思う。

なお、公開レビュー版なので、あれこれ書評は書かず、お知らせだけで終わりとする。

◇  ◇  ◇
日本では少ないと思うのだが、海外では執筆中から公開されていたり、発売されてもそのまま公開が続くことは多々ある。それも、非常に有名で、よく売れている本でそうなっていることがある。

日本の大学も、このくらいやってくれたらと思うが....

AI2025.jpg
人工知能と社会
 
2025年の未来予想

監修  AIX(人工知能先端研究センター)

著者  栗原 聡、長井 隆行、小泉 憲裕、内海 彰、坂本 真樹、久野 美和子

発行  平成30年2月15日

サイズ  A5, 235頁  

ISBN  978-4274221811

価格  1,800円(本体)  


最近、とにかく人工知能の本の出版が多い。人工知能とは.jpg
そして、表紙がマンガ、アニメ的になっている場合が多々ある。
こうなったのは、人工知能学会の学会誌の表紙の影響が大きいのではないかと思う。

しかし、表紙が軽い感じだから中身も軽いかというと、そうとは限らない。
どちらかといと、ギャップがあることが多い。
そのきっかけになったのが、人工知能学会から出した『人工知能とは』ではないかと思う。
この本、縦書きの本だったのだが、めちゃくちゃ内容はハードだった。

そして、今回のこの本だが、やはり縦書きである。
イラストがちょこちょこ出てくるのだが、書いている内容は軽くはない。
つまり結構重い内容なのだ。

電気通信大学にはAIを研究している研究者が多数いて、学内にAIX(人工知能先端研究センター)を立ち上げた。
そのメンバーの中の6名で書かれたのが本書である。

テーマは、2025年の人工知能の社会実装の予想を、研究者の立場から書いたものである。
2025年というと、あと7年先。
7年というと、一般社会の常識からいえば、それほど社会は変化しないだろうと考えるだろう。
しかし、人工知能に関して7年は相当な変化があると考えられる。

去年くらいから、人工知能を使ったさまざまなシステムが氾濫している。
実際、十分な良質なデータが用意できれば、なかなか良い結果が得られる、得られることがあるのはわかってきた。
そういうことで、試作して様子を見る段階から、実運用に次第にシフトしているのも事実だ。

しかし、人工知能を用いたシステムの場合、テストが難しい。
それも、人工知能ゆえの本質的な難しさがある。
今回は、それについて、まだぼんやりしている私見を書いてみた。あくまで私見である。

人工知能においては、データを、学習用とテスト用に分けて、学習が進むと、テストデータによる評価も上昇し、結果が満足できるようになったところで、この人工知能は十分に賢くなった、使えると判断することが多い。
しかし、それだけで、人工知能システムが正常に動く、さらには実運用に使う、つまり社会の中で使ってよいのだろうかという問題がある。

学習データに入っていることは、まあ正しい結果が出るだろう。
テストデータについては、用意されたデータが入力された場合には、まあまあOKということに過ぎない。

人工知能は、しっかり検討して作られたモデルに従って動いているわけではない。
それどころか、モデル、処理の仕組みを考えるのを放棄して、人工知能にその仕事を押し付けているようなところがある。
大量のデータから、ある種のモデルをコンピュータ内に作るわけだが、同じデータを入れても同じモデルができる訳ではない。というより、同じデータを利用しても毎回違う結果になる。
これは、確率、統計にしたがって、テキトウに学習するので、そうなってしまう。
それでも、何らかのモデルがコンピュータ内に構築されているのだから、それを調べればといっても、できあがったモデルはブラックボックスである。

今の人工知能では、学習データにあった内容については非常に良い結果、専門家よりはるかに優れた結果を出すことがよくある。
しかし、データに用意されていなかったようなデータが来た場合、結果はどうなるか分かったものではない。

どうしても現状で使いたいが、安全性も保証したいと思うと、人工知能の結果を別の方法で安全チェックしないといけない。
ダメなら、安全チェックを通過するまで再計算するという手はある。
でも、これが使えるのは、リアルタイム性を要求しない場合に限られる。
運が悪いと、永久に再計算をし続けることもありうる。

今の人工知能は、ディープラーニングに限らず、進化計算などでも、基本は確率統計の罠から抜け出せない。

安全性は、どのくらいにすれば良いのだろうか?
社会は、コンピュータには100%の正解を求めるのが常だ。
人間は間違えるもの、コンピュータは間違えないもの、という考えが強い。

しかし、人工知能は脳、遺伝など生物を手本にしているのに、コンピュータは間違えないというのは無理難題である。
人工知能も人間程度、有能な人間程度には間違いを犯すこともあるのは必然なのではないだろうか。

人工知能の納品検査について考えてみよう。
人工知能を利用したシステムを発注して開発が終わり、納品検査をするとき、どうすれば良いのだろうか?
確率統計にしたがって動くシステムで1000回テストしても、1001回めには異常が発生する可能性がある。
さらに、統計確率的に動く世界なので、プログラムにバグが入っていても、統計的に誤魔化されてしまう可能性も高い。
いずれにしても、今までの納品検査の考えをそのまま当てはめるのは困難であるのだが、人工知能を利用したシステムを発注する側に、それだけの考えが無いことが多く、実際色々問題になっているようだ。

....と書いただけでは説得力に欠けると思われるので、このような分野の論文を1つ紹介しておく。

機械学習工学に向けて、丸山宏著、日本ソフトウェア科学会第34回大会(2017年度)講演論文集

日本ソフトウェア科学会

丸山宏氏は、あのChainerで有名な株式会社Preferred Networksの最高戦略責任者(Chief Strategy Officer)である。

この問題は、たぶん今年さまざまな形で取り上げられ、研究会なども立ち上がるのではないかと思われているようだ。
ChainerContentsGenAI.jpg
Chainerで作る
コンテンツ自動生成AI
プログラミング入門


著者  坂本俊之

発行  2017年12月22日

サイズ  A5, 264頁  

ISBN  978-4863542341

価格  3,420円(本体)  


またまたChainerの本を紹介する。
Chainerに限らないのだが、ディープラーニングの本というと、画像の分類、判定の紹介が圧倒的に多い気がする。
それも、ほとんど同じデータを使っていることが多い。

本書は、そういう本ではなく、ディープラーニングの入門書ではあるのだが、AIを使って何か自動生成するプログラムの紹介が中心である。
画像の場合、自然言語(日本語)の場合、それらの組み合わせを紹介している。

これだけやろうとすると、単にPythonとChainerをインストールするだけでは不足である。
計算量が増えるので、GPUを使えるように、CUDAのインストールも必要である。
その他にも、いろいろインストールするのだが、省略する。
この分野ではソフトウェアのバージョンアップが頻繁に行われており、デバイスドライバからさまざまなツール類まで、バージョンを合わせておかないとインストールできても実行時にバージョン不整合のエラーが出ることがある。

実際、以前Chainerをインストールしたままの状態で実行しようとしたらダメで、バージョンアップが必要になった。
それで、エラーに対応する部分だけをインストールしたら、今度はバージョン不整合が出てしまったのだ。
結局、Chainer, CUDA, デバイスドライバ関係を全部消して入れなおした。
全体で2GBを超えていたが、今の時代、この程度は軽々とインストールできてしまう。

このアーカイブについて

このページには、2018年3月に書かれたブログ記事が新しい順に公開されています。

前のアーカイブは2018年2月です。

次のアーカイブは2018年4月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。