TIM Labs

2018年6月アーカイブ

前回、『DNAの98%は謎』で、DNAで遺伝に関係している、つまりタンパク質の生成に関係しているデータは、たった2%程度で、残りの98%は、謎であるという本を紹介した。

AIには、ディープラーニング以外に、進化、遺伝の仕組みを模した方法が存在する。
生物の進化をモデルにした、かなり広範囲なものを進化計算とよび、さまざまな最適化に使われている。
その中でも一番良く知られているのが、遺伝をモデルにした遺伝的アルゴリズムである。
つまり、染色体の交叉や突然変異を利用しているのだが、一般に行われているモデル化は、最適化したいデータを染色体のように長い糸状(配列)に並べ、データの交叉や突然変異を行い、出来たものを淘汰させるのを何世代も繰り返すことで、最適化を進め、満足できるようなデータを求めようとするものである。

つまり、配列の全データが有効データなのである。
ということは、実際のDNAをちゃんとモデル化していないと言えるはずなのだ。

長い長い染色体(配列)の一部に有効なデータを置き、染色体と同様な交叉や突然変異をしていない。

人間ではDNAの98%が謎なのだが、高等な生物ほど謎の部分が大きいということだから、現状の遺伝的アルゴリズムは下等生物を真似ているに過ぎないと考えられる。
DNAの98%の謎の部分の意味、意義、効用は今世紀になってから研究が本格化し、まだまだ研究途上のようだ。
だからこそ、この謎の部分を反映した進化計算ができれば、もっと高度なことができるようになるかも知れない。

さて、下等生物であるはずのウイルスがとても賢い(?)ので、対策が難しいことを知っているだろうか。
あるウイルスに対する薬を作っても、ウイルスの遺伝情報が変化するので、新しい薬を作ってもダメになる。
つまり、ウイルスはとても賢いと言えるのではないだろうか。
ウイルスは、DNAまたはRNAを持っており、遺伝の仕組みが異なるために、薬に対抗する能力が高いと言われている。
そのため、ウイルス進化論なる専門用語もあるようだ。

ならば、ウイルス進化論をモデルにしたアルゴリズムは無いかと調べたら、ウイルス進化型遺伝的アルゴリズムというのがあり、論文もかなり存在するようである。
通常の遺伝的アルゴリズムでは進化が停滞してしまうような場合でも、ウイルスの寄生能力をモデル化することで、もっと有効なアルゴリズムにしようというものらしい。
今までの遺伝的アルゴリズムのための染色体以外に、ウイルスを用意し、ウイルスを染色体に感染させることで、進化を促進(?)するらしい。

98%の謎部分をモデルにした遺伝的アルゴリズムはまだないらしいが、ウイルス版は存在する。
といっても、出版されている遺伝的アルゴリズムの本で、ウイルス進化型を説明している本は無いらしいので、ぜひ論文を読もう。
DNA98Mystery.jpg

DNAの98%は謎
生命の鍵を握る「非コードDNA」とは何か
ブルーバックス B-2034

著者  小林武彦
発行日  2017年10月20日
サイズ   新書, 208頁  
ISBN  978-4-06-502034-0
価格   920円(本体) 
発行所  講談社 

前2回に渡って、脳とニューラルネットについて書いた。

前回は脳だったが、今回は遺伝、DNAについて紹介しよう。

1990年に人間のゲノムを全部解読しようというヒトゲノム計画(Human Genome Project)が世界中の協力で始まった。
最初はなかなか解読ペースが上昇しなかったが、ゲノム解読情報を商用化しようとする動きも現れ、その後、解読技術の向上もあり急激に解読ペースが上昇し、2003年に解読作業が終わった。

ゲノムの情報が解読できたことで、治療や新薬の開発に非常に役立つと言われている。
人ゲノムだけでなく、さまざまな生き物のDNAが解読されつつあり、地球上の生命の進化の全体像が徐々に明確になりつつあるようだ。

さて、本書のタイトルによると、DNAの98%は謎とある。
DNAの情報からタンパク質が作られて、その種類は5万種とも10万種とも言われている。
それで、長い長いDNAのどのくらいがタンパク質の生成に関わっているかを調べたら、2%だったと。

遺伝子はDNAの2%の部分に存在し、DNAの残りの98%はタンパク質を作らないことが分かった。
遺伝のことだけ考えれば、2%の部分だけ存在すれば大丈夫なはずだが、そうなっていなかった。
これは、AGTC4種の塩基列の並び情報はほとんどが利用されていないということ。
DNAはゴミだらけであり、無駄だらけであると思われていた。

それが、ゴミと言われているタンパク質の生成に関わらない部分も何か働きがあるのではと研究が進んだ。
それが「ゲノムを支える非コードDNA領域の機能」プロジェクトであり、本書の著者がプロジェクトの代表者で、プロジェクトの成果をわかりやすく説明したのが本書である。

98%は無駄に作られているように見えるが、無駄がほとんどであることで、DNAが放射能から受ける影響を軽減したりすることが分かり、また、高等生物になるほど非コード領域が増えていることが分かった。
どうやら、とても重要な働きをしているらしいのだ。

DNAの非コード領域の働きについての説明は省略するので、本書を読むか、他の書物、ネット情報などを参考に学習されたい。

脳のグリアといい、DNAの非コード領域といい、無用の長物と思われていたものが、とても大切だったことが分かってきたのだ。
よくよく調べると、無駄と思われていたものが非常に大切だった、主要部分だったということはしばしばある。

....ということはAIにも影響するかもという話は次回に書くことにする。


このアーカイブについて

このページには、2018年6月に書かれたブログ記事が新しい順に公開されています。

前のアーカイブは2018年5月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。