TIM Labs
前回、『もうひとつの脳』を紹介した。
脳はニューロンで出来ているという話をよく聞くと思うが、実際の脳のうち、ニューロンの割合は少ない。
重さ、容積で言っても2割に満たない。
より正確に言うと、大脳のニューロンの割合は19%程度らしいが、小脳はニューロンが80%にもなるらしい。
神経細胞はとても大きな細胞なので、細胞数で比較すると、大脳ではニューロンは2%くらいになり、とても数が少ない。

ニューラルネットワークは、人間の脳を構成している神経細胞・ニューロンのネットワークを模して作られている

というようなことがよく言われているのだが、小脳はともかく、大脳には全然当てはまらない。
大脳を手本とするなら、より多くある細胞のシミュレーションをしないと、脳を手本にしたとは言えない。

全脳シミュレーションという言葉がある。脳の全神経細胞数と同レベルのニューラルネットワーク(ニューロン、シナプス)を作って、どんな働きをするかを研究しているらしい。
しかし、全脳というと、脳の働き全てをシミュレーションすることに思えるが、大脳についていえば、ごく一部であるニューロンについてだけのシミュレーションを行っているに過ぎない。
より正確には、全脳規模神経回路シミュレーションと言うらしい。あくまでも、神経回路のシミュレーションである。

脳は、ニューロンよりもその間に詰め込まれていると考えられていたグリアの方が割合が多く、どうやらグリアが色々な働きをしていることが21世紀になって次々とわかり出した。
ならば、グリアの働きも含めた脳のシミュレーションが必要ではないだろうか。

といっても、どうすれば良いかは分からないのだが、今のニューラルネットワークによる人工知能は、いろいろ今までにない性能を発揮し、さまざまなことに役立ちそうであるが、グリアが果たしている機能が抜け落ちているはずなので、今後問題も色々出てくると予想される。

第3世代のAIはニューラルネットを中心にまだまだ進みそうだが、第4世代のAIはグリアも含めた本当の意味の全脳シミュレーションに基づいたAIとなるのであろうか。
21世紀半ばにはそういう時代が来るかもしれないと思う。
TheOtherBrain.jpg

もうひとつの脳
ブルーバックス B-2054

著者  R・ダグラス・フィールズ( R. Douglas Fields, Ph.D.)
監訳  小西史朗   
翻訳  小松佳代子
発行日  2018年4月20日
サイズ  新書, 538頁  
ISBN  978-4-06-502054-8
価格  1,500円(本体) 
発行所 講談社 

The Other Brain
The Scientific and Medical Breakthroughs That Will Heal Our Brains and Revolutionize Our Health
By R. Douglas Fields
発売日: 2011/1/11
ISBN-13: 978-0743291422
出版社: Simon & Schuster; 1版 (2011/1/11)

今回は、数学・コンピュータ系とはちょっと違う脳科学系の本を紹介しようと思う。
といっても、専門書ではなく、BLUE BACKSであり、ポピュラーサイエンスの本である。

今非常に(異常に)騒がれている人工知能は、多くの場合ニューラルネット、ディープラーニングの場合が多い。
人工知能は、もっともっと多様なのだが、フィーバーとは得てしてそんなものである。

その技術の根拠(参考)になっているのが、脳であり、ニューロン(神経細胞)である。
ニューロンは大脳皮質だけだと150億、大脳全体で850億、小脳はさらに多くて1000億くらいあるという。
結局、大脳皮質は、ニューロンの総数の約1割に過ぎないようだ。
なので、大脳皮質だけをシミュレーションしても、一部のシミュレーションしかしていないと思うべきだろうか。

シナプスの総数の説明はなかなか見つからないが、ひとつのニューロンが数千のシナプスを持っているようなので、シナプスの総数は数百兆というとんでもない数になる。

さて、ここまでは、古い話だ。古いというのは、20世紀の脳科学といっても良いだろうか。

この本のタイトルの「もうひとつの脳」の研究が21世紀になって急激に研究が進んで、さまざまなことが分かってきた。
脳は、ニューロンだけで出来ている訳ではない。
血管も張り巡らされているが、それ以外にグリア細胞(Glial cell)がある。
このネーミングは、Glueから来ているらしく、神経細胞を支えている詰物、接着剤、固定剤で、たいした働きはしていないと長らく考えられていた。

しかし、脳の神経細胞の割合は、重さで1割、細胞数だとたった2%程度らしい。
つまり、神経細胞は、脳のごく一部でしかないということだ。
残りの大部分はグリア細胞である。
といっても、その他の細胞をまとめてグリアと呼んでいたのだが、何種類かあり、いろいろ働きが違うことが分かってきた。
ここでは、グリアの詳細の説明は省く。

そして、頭が良いとかは、脳の病気の原因とかは、どうやらグリアに由来することが多いらしい。

アインシュタインの脳が保管され、天才の研究に使われ続けてきたのだが、頭が良い理由とまことしやかに言われていたことと、アインシュタインの脳は一致しないことが多かった。
脳は小さめで、神経細胞にはめだった特徴はなかったようだ。
しかし、グリア細胞は圧倒的に違っていた。

AIについて勉強するなら、同時に脳科学や遺伝についても、ある程度知っておくことが望ましいだろう。
そして、この分野は今世紀になって、急激に発達した。
20世紀までの知識が大幅に修正されたというか、革命が起きたくらい違うのである。
それらは、医学、看護学、薬学など医療分野では当然の知識として今では教えられている。
脳、脳科学について古い考えに基づいて話していると、「あ、この人、若い時に得た知識しかなくて、新しいことを何も知らない」と思われてしまうので注意しよう。
大人になると、神経細胞は死ぬだけというのは典型的なミスであり、老人でも神経細胞が生まれることもあり、これを利用した治療方法などが盛んに研究されている。

本書は、グリア細胞に関してかなり網羅的に、今後の影響なども含めていろいろ説明されている。

脳の主役はニューロンであるとい考え方は古いのだ。
主客転倒し、脳の主役はグリア細胞で、もうひとつの脳こそ主役かも。



risansuugakunosusume.jpg

離散数学のすすめ

編著者  伊藤大雄・宇野裕之

発行  2010年5月15

サイズ  A5, 325頁  

ISBN  978-4-7687-0412-7

価格  2,700円(本体) 

発行所 現代数学社 


プログラミングを本格的にやろうと思う場合、理工系の一般常識である線型代数学、微積分学を勉強し、さらに最近は統計学も習得するのが一般的であろうか。
さらにアルゴリズムなどを勉強すると、離散数学という言葉を知るはずである。
離散数学というと、線型代数学や微積分学などのような非常にかっちりした大きな体系とは違い、さまざまなことがごちゃごちゃと出てくる感じである。

離散数学というと、どうしても野崎昭弘先生を思い出してしまうのだが、ここではあえて避けて、この本を紹介する。

本書は、「理系への数学」(現代数学社)にリレー連載されたものを元に、加筆したもののようである。
執筆メンバーは20名を超え、そのうち何名かはパズル系の研究会で顔を合わせる大学の先生方である。

こういう作りなので、22章あるのだが各章は独立しているため好きな所から読めて、かつ1つの章が10から20ページ前後とちょっと時間があれば読み切れる感じになっている。

離散数学は、見かけは簡単そうに見える問題が、実は未解決問題というのがよくある怖い世界である。

離散数学を知っておくことは、非常に高速なプログラムを作ったり、とても面倒と思われることをエレガントに解決するには絶対に勉強しておくべき分野である。
しかし、離散数学の本は、それほど多くはない。
世の中にプログラミングの本が溢れているが、それに比べて、離散数学の本はあまりにも少ない気がする。
これでは、エレガントなアルゴリズムを考えられる人が十分には育たない。

取り上げている話題を少々挙げておこう。

ケーキ分割問題、ハノイの塔、安定結婚問題、、、

ハノイの塔はよく知られていて、n枚の場合は、 2^n - 1 回が最小移動回数で、再帰でそれが最小であることも含めて証明できる。
ここまでは、多くの本に書かれていることで、いまさら説明の必要はあるまい。

よく知られているのは、棒が3本の場合であるが、k本(k≧3)の場合の最小手数と動かし方の説明があった。
また、棒が3本でも、横に3本が並んでいて、隣の棒にしか円盤を移動できないと制限をつけるとどうなるだろうか?
このような一般化ハノイの塔の説明があるのだ。

これは、他の問題でもそうだが、できるだけ一般化したときどうなるかの説明がある。

そのあたりを書き出すと終わらなくなるので、詳しくは本書を参照のこと。

Python_text_mining.jpg
Pythonによる
 
テキストマイニング入門


著者  山内 長承

発行  2017/11

サイズ  A5, 256頁  

ISBN  978-4-274-22141-5

価格  2,500円(本体)  


AI,AIととても騒がしくなり、AIの新刊書が次々と出ているが、その殆どがディープラーニングが対象で、とりわけ画像処理系の本が多い。

しかし、人間のビジネス活動、社会活動、学術活動などを考えると、画像処理関連だけではなく、人間を人間たらしめている言葉、テキストを扱わないわけにはいかない。

自然言語処理、テキストマイニングなどのタイトルの本も、多くはないが、それなりに増えている。

それで、Pythonでテキスト処理の説明をしている本として、本書を入手し、読んでみた。

内容は、

第1章 テキストマイニングの概要
第2章 テキストデータの構造
第3章 Python の概要と実験の準備
第4章 出現頻度の統計の実際
第5章 テキストマイニングの様々な処理例

となっているのだが、第3章までは、Pythonの基本的な説明が中心である。
そして、第4章が統計である。
そして、最後の第5章だけがテキストマイニングになっているのだ。

それでも、統計のために、形態素解析ソフトMeCabを使った例があった。

ということで、テキストマイニング自体の説明は、全体の1/3程度、70ページ位しかないのだった。

第5章の最後に一応Word2Vecの節が設けられており、簡単な説明がされていた。
つまり、やっと話が始まったと思ったら、本が終わってしまったのだ。

巷にはPythonの本が溢れているのだから、Pythonの基本や統計の基本的なことまで載せる必要はないと思う。
それに、ちょこちょこっと載せるだけになるので、とても中途半端なものになってしまう。

ということで、Pythonに慣れていて、統計の基礎も知っていれば、本書は一気に読み飛ばしてしまえる。
まあ、入門書だからそれで良いのかもしれないが、同じページ数で、テキストマイニングについてもっと丁寧な本にして欲しいところだ。

まず、以下の文字を見てみよう。

dakutenhandakuten-1.png通常はありえない場合がいっぱいである。
これを見ると、どうやらあらゆる文字に濁点( ゛ )と半濁点( ゜ )を付けることができるようだ。

どうやったらこんな文字(?)を表示できるかを説明する前に、なぜこういうことを調べることになったかの経緯を説明しよう。

ちょっと自然言語処理の練習をするのに、サンプルデータがいろいろあった方が良いので、このところ流行のWebスクレイピングでサンプル集めをした。
そして、集めた文章を、PythonのGUIであるTkinterのTextウィジェットに表示してみたら、こんな状況になってしまった。

dakutenhandakuten-2.pngブラウザ上やエディタ上では(a)のように見えていたのが、TkinterのTextウィジェット上では(b)の表示になってしまった。
半濁点が1つの文字として、1文字分の文字幅を確保して表示されてしまった。

つまり、「パ」が1文字ではなく、「ハ」+「濁点文字」の2文字になっていたからだ。
それでも、多くのブラウザやエディタでは、直前の文字に重ねて濁点・半濁点を表示していたのだが、一部の文字表示ソフトでは、何も考えず、別の文字として表示処理をしているということだ。

これは、Mac系でよく見られる現象であり、こういう状態のWebページに出会ってしまったのである。

上の (b)を(a)に変換する問題に取り組む前に、Pythonでの文字の扱いをちょっと練習しておこう。

今回は突然だが、文字コードの話をする。
というのは、ちょっとPythonでAI日本語処理らしきことをやっていたら、引っかかってしまったからである。
図に、3つの土を、そのUTF-8のコードと共に示す。

tsuchi-utf8.png引っかかった文字は土の異体字の一つの下図の右端の字である。
今では多くのソフトがUTF-8を標準として採用し、たとえ英語圏で開発されたソフトでも日本語処理に困らないことが多い。
しかし、それは、3バイトの漢字までで、4バイトになってしまう「土の異体字 」は扱えないことに出くわすことが多い。

最近、世のブームに引きずられてという訳ではないのだが、AI、言語処理系の何かをするとき、Pythonはツールが揃っているので使うことが多い。
Python自体は、4バイトの漢字も扱えるのだが、Pythonに非常にたくさんあるパッケージの中には扱えないものもある。

Pythonで文字処理をしていたのだが、GUIを用意しないと不便だなと思い、PythonのGUIツールキットのTkinterを使って簡単なGUIを作りつつあるところだ。
それで、用意してあるテキストファイルを処理しようとしたら、「土屋(異体字)」さんの情報を処理しようとしたところで止まってしまった。

実際には、長いテキストをTextウィジェットに貼り付けるメソッドを呼び出しただけなのだが、エラーが出てしまった。
直接Textウィジェットに、「????」を挿入したらとりあえず文字は表示されたのだが、その後テキストを編集してみたら、消去やカーソル移動が発狂してしまった。

要するに、UTF-8の4バイトコードに対応できていない。
地名、人名などを扱う、つまり事務処理、文字情報の整理などをしようとすると、UTF-8の4バイト文字に必ず遭遇してしまう。

UTF-8は、4バイトどころか、6バイト文字までサポートしているので、完全サポートというなら、そこまでちゃんとやらないとダメなのだが、ASCII文字だけで暮らしているエンジニアが多国語対応すると、こういうことになっているので、気をつける必要がある。

このあたり、東アジアの漢字圏のエンジニアが対処しないときちんとしたものにならないようだ。
昔は、データベースの対応もボロボロだったが、今は良くなっているのかな。






自然言語処理をやろうとすると、日本語の場合全ての文字がベタッとくっついているため意味のある最小単位の形態素(単語)に区切ってから処理する必要がある。
そのために、最初に日本語文字列の形態素解析を行う。
ChaSen, KAKASI, MeCab などがあるが、今はMeCabを使うことが多いのではと思う。
とりあえずフリーで使え、よく利用されているMeCabを紹介しようと思う。

インストールついては、環境によって違うので、MeCab公式サイトを参考にして欲しい。

ということで、さっそく使ってみよう。
実行例はUbuntu上である。
$ mecab 
吾輩は人工知能である。
吾輩	名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
人工	名詞,一般,*,*,*,*,人工,ジンコウ,ジンコー
知能	名詞,一般,*,*,*,*,知能,チノウ,チノー
で	助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある	助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。	記号,句点,*,*,*,*,。,。,。
EOS

mecab[Return]とすると、入力を受け付けるので、何かを入れて[Return]すると、形態素解析した結果が示され、また次の解析対象文字列の入力待ちになる。
入力した文字列には下線をつけた。
ゼロ9784873118369.jpgから作るDeep Learning?
自然言語処理編

斎藤 康毅 著

A5版、448ページ
2018/6/25 発売
3600円(本体)
オライリー・ジャパン
ISBN-13: 978-487311-836-9


本書、発売が6月25日ということで、まだ発売されていないのだが、紹介しようと思う。
オライリーのホームページのオラの村に、以下が用意されているのだ。

『ゼロから作るDeep Learning ?』公開レビューのお知らせ

公開レビューということで、まだ執筆、修正中なのだが、できるだけ多くの人に読んで様々な指摘をしてもらい、修正に反映させようということである。

言い方は色々あって、公開レビュー、プレビュー、Early Release、 Early Edition などがあるだろうか。

オライリー本社の方からは、例えば "Tensor Flow for Deep Learning" の Early Release がある。

正式発売前に、まだ未完成でも読んでみたいという人はいる。
そういう人は、一般に能力も高く、情報は人より一足先に入手する。
そういう人々からの指摘を取り入れると、本がより良くなる。from_zero_deep_learning (283x400).jpg


さて、『ゼロから作るDeep Learning ? ―自然言語処理編 』であるが、コンピュータ出版業界で空前のベストセラーになった『ゼロから作るDeep Learning―Pythonで学ぶディープラーニングの理論と実装』の続編で、今度は自然言語編である。
大いに期待できるのではと思う。

なお、公開レビュー版なので、あれこれ書評は書かず、お知らせだけで終わりとする。

◇  ◇  ◇
日本では少ないと思うのだが、海外では執筆中から公開されていたり、発売されてもそのまま公開が続くことは多々ある。それも、非常に有名で、よく売れている本でそうなっていることがある。

日本の大学も、このくらいやってくれたらと思うが....

AI2025.jpg
人工知能と社会
 
2025年の未来予想

監修  AIX(人工知能先端研究センター)

著者  栗原 聡、長井 隆行、小泉 憲裕、内海 彰、坂本 真樹、久野 美和子

発行  平成30年2月15日

サイズ  A5, 235頁  

ISBN  978-4274221811

価格  1,800円(本体)  


最近、とにかく人工知能の本の出版が多い。人工知能とは.jpg
そして、表紙がマンガ、アニメ的になっている場合が多々ある。
こうなったのは、人工知能学会の学会誌の表紙の影響が大きいのではないかと思う。

しかし、表紙が軽い感じだから中身も軽いかというと、そうとは限らない。
どちらかといと、ギャップがあることが多い。
そのきっかけになったのが、人工知能学会から出した『人工知能とは』ではないかと思う。
この本、縦書きの本だったのだが、めちゃくちゃ内容はハードだった。

そして、今回のこの本だが、やはり縦書きである。
イラストがちょこちょこ出てくるのだが、書いている内容は軽くはない。
つまり結構重い内容なのだ。

電気通信大学にはAIを研究している研究者が多数いて、学内にAIX(人工知能先端研究センター)を立ち上げた。
そのメンバーの中の6名で書かれたのが本書である。

テーマは、2025年の人工知能の社会実装の予想を、研究者の立場から書いたものである。
2025年というと、あと7年先。
7年というと、一般社会の常識からいえば、それほど社会は変化しないだろうと考えるだろう。
しかし、人工知能に関して7年は相当な変化があると考えられる。

去年くらいから、人工知能を使ったさまざまなシステムが氾濫している。
実際、十分な良質なデータが用意できれば、なかなか良い結果が得られる、得られることがあるのはわかってきた。
そういうことで、試作して様子を見る段階から、実運用に次第にシフトしているのも事実だ。

しかし、人工知能を用いたシステムの場合、テストが難しい。
それも、人工知能ゆえの本質的な難しさがある。
今回は、それについて、まだぼんやりしている私見を書いてみた。あくまで私見である。

人工知能においては、データを、学習用とテスト用に分けて、学習が進むと、テストデータによる評価も上昇し、結果が満足できるようになったところで、この人工知能は十分に賢くなった、使えると判断することが多い。
しかし、それだけで、人工知能システムが正常に動く、さらには実運用に使う、つまり社会の中で使ってよいのだろうかという問題がある。

学習データに入っていることは、まあ正しい結果が出るだろう。
テストデータについては、用意されたデータが入力された場合には、まあまあOKということに過ぎない。

人工知能は、しっかり検討して作られたモデルに従って動いているわけではない。
それどころか、モデル、処理の仕組みを考えるのを放棄して、人工知能にその仕事を押し付けているようなところがある。
大量のデータから、ある種のモデルをコンピュータ内に作るわけだが、同じデータを入れても同じモデルができる訳ではない。というより、同じデータを利用しても毎回違う結果になる。
これは、確率、統計にしたがって、テキトウに学習するので、そうなってしまう。
それでも、何らかのモデルがコンピュータ内に構築されているのだから、それを調べればといっても、できあがったモデルはブラックボックスである。

今の人工知能では、学習データにあった内容については非常に良い結果、専門家よりはるかに優れた結果を出すことがよくある。
しかし、データに用意されていなかったようなデータが来た場合、結果はどうなるか分かったものではない。

どうしても現状で使いたいが、安全性も保証したいと思うと、人工知能の結果を別の方法で安全チェックしないといけない。
ダメなら、安全チェックを通過するまで再計算するという手はある。
でも、これが使えるのは、リアルタイム性を要求しない場合に限られる。
運が悪いと、永久に再計算をし続けることもありうる。

今の人工知能は、ディープラーニングに限らず、進化計算などでも、基本は確率統計の罠から抜け出せない。

安全性は、どのくらいにすれば良いのだろうか?
社会は、コンピュータには100%の正解を求めるのが常だ。
人間は間違えるもの、コンピュータは間違えないもの、という考えが強い。

しかし、人工知能は脳、遺伝など生物を手本にしているのに、コンピュータは間違えないというのは無理難題である。
人工知能も人間程度、有能な人間程度には間違いを犯すこともあるのは必然なのではないだろうか。

人工知能の納品検査について考えてみよう。
人工知能を利用したシステムを発注して開発が終わり、納品検査をするとき、どうすれば良いのだろうか?
確率統計にしたがって動くシステムで1000回テストしても、1001回めには異常が発生する可能性がある。
さらに、統計確率的に動く世界なので、プログラムにバグが入っていても、統計的に誤魔化されてしまう可能性も高い。
いずれにしても、今までの納品検査の考えをそのまま当てはめるのは困難であるのだが、人工知能を利用したシステムを発注する側に、それだけの考えが無いことが多く、実際色々問題になっているようだ。

....と書いただけでは説得力に欠けると思われるので、このような分野の論文を1つ紹介しておく。

機械学習工学に向けて、丸山宏著、日本ソフトウェア科学会第34回大会(2017年度)講演論文集

日本ソフトウェア科学会

丸山宏氏は、あのChainerで有名な株式会社Preferred Networksの最高戦略責任者(Chief Strategy Officer)である。

この問題は、たぶん今年さまざまな形で取り上げられ、研究会なども立ち上がるのではないかと思われているようだ。

最近のコメント