桑原政則の「合縁奇縁」: 進化する人工知能大量デジタル情報が支え。喜連川優。日経

日経2015/08/14
進化する人工知能大量デジタル情報が支え
医療などで活用進む喜連川優国立情報学研究所所長

　米ＩＢＭのコンピューター「ワトソン」が米国クイズ番組で人間との対戦で勝利して以降、人工知能に対する期待感が急速に大きくなった。

画像の拡大

画像の拡大
　ではなぜ、そうしたことが可能になったのか。近年、デジタルなテキスト情報が大量にインターネット上で得られるようになったことが最大のポイントである。今世紀に入りネット百科事典のウィキペディアなどにより、サイバー空間上に知識が整理された。この量は急激に伸び、ワトソンの対戦時にはかなりの知識が利用可能になった。ＩＢＭは100周年事業のワトソンを計画するに当たり、この伸びを予測してプロジェクトを推進していたともいえる。

　もちろん、高度な言語処理や、コンピューターが自ら学習して判断力を磨く「機械学習」技術の開発も重要な役割を果たしたが、勝利を導いたのは圧倒的なテキスト情報量の増大である。いわゆるビッグデータのパワーが人工知能の領域にも影響し始めた。

　その後、ワトソンは医療や金融での利用が開拓されている（図参照）。クイズ番組はＷｈａｔ型質問が中心で簡単だが、実生活の利用ではＷｈｙ型やＨｏｗ型の複雑な質問に答えなくてはならない。例えば、がん治療の分野では、肺がん、乳がん、前立腺がんなどに関する質問に答えられるよう一歩ずつ進んでいる。

　米メモリアル・スローン・ケタリングがんセンターでの実証には１年かかり、医療知識の注入に数千時間を要したとされる。最新の専門知識は学術誌などに記載されるもので、ウィキペディアのようには整理されていない。このため、期待される応答ができるようになるまで時間をかけて「人手による」膨大な知識の注入が必須となる。コンピューターが自ら様々な書物からテキスト情報を読み、勝手に勉強して知識を増やし賢くなっていくわけではない。

　このように人工知能はまだヨチヨチ歩きの段階である。それでも、医師が日々生み出される莫大な学術文献を完全に読み込むことは物理的に困難な中で、それなりの手間をかければ、医師が役立つと感じる情報を提示し支援できるレベルに到達したといえる。

　テキスト処理には優れた辞書が不可欠となる。1980年代初頭、日本は当時の通産省が第５世代コンピューターというプロジェクトを立ち上げ、10年にわたり論理を基礎とする「考えるコンピューター」の実現に挑んだ。専門家の観点からは多くの成果を上げたが、非専門家が期待するほどの賢いコンピューターをつくることは困難であった。

　このプロジェクトに触発され、米国でも人工知能ブームが起きた。当時、米国では「ＣＹＣ」と名付けた常識事典をつくろうとする壮大な計画が立ち上がった。約30年を経てようやくＣＹＣは1500万エントリーから成る巨大なものとなり、病院や小売りなどで利用が進んでいると聞く。このＣＹＣもすべて「手作り」であり、先のワトソンと相通じるところがある。

　日本の言語処理研究も頑張っている。ワトソンも日本チームの貢献が大きい。情報通信研究機構（ＮＩＣＴ）による質問応答システム「ＷＩＳＤＯＭＸ」は多様な視座を与えてくれるレベルに来ている。

　言語処理と同様、人間は自然に行うもののコンピューターが苦手とする処理の一つに視覚、すなわち画像処理がある。最近「ディープラーニング」と呼ばれるニューラルネット（人の脳をまねた回路技術）を用いた手法が注目を集めている。この技術自体は以前からあったが、近年ニューロン（脳神経細胞）の層を大幅に増やすことで、性能が飛躍的に向上した。

　ここでも膨大なデータが鍵となっている。巨大データを用いてニューラルネットを長時間にわたり訓練する。画像を1000カテゴリーに分類するベンチマークテストでは従来は30％程度と高かった誤り率が、ディープラーニングにより15％まで減少。その後も進化を続け、５％まで低減した。これは人間の誤り率と同程度であり、それを上回る手法も出始めていると聞く。

　ほとんどの画像はコンピューターが言い当てられるようになった。もっとも、人間は同じようなものを写真に撮る傾向があるため学習が効き、めったに見ないような写真を言い当てるのは難しい。コンピューターは意味を理解できるわけではないため、写真に内在する背景知識が必要となるような場合に綻びが出るなど、拙いミスは多い。

　米グーグルの画像保存サービス「グーグルフォト」で人間の写真をゴリラと誤って認識し、物議を醸したのは記憶に新しい。限界はあるが、以前より画像認識の精度が大幅に改善されたことは画期的であり、今後はロボット応用などが期待される。日本でもベンチャー企業をはじめ様々な取り組みがあり期待したい。

　コンピューターは30年で100万倍という猛烈な進化を遂げてきた。それだけ強力になっても言語処理や画像処理は苦手だったが、近年大きな進歩を見せている。前述したように、その根源は巨大なデータが利用可能となったことにある。人類が生み出すデジタル情報量が前世紀末より急増したことが影響している。

　筆者らはこの現象を「情報爆発」と名付けた。文部科学省の支援により、数百人の大学研究者が参加する大規模な研究を2005年から５年間推進した。米国による予算２億ドルのビッグデータ施策発表（12年）よりかなり前であり、決して日本が世界に比べて遅れているわけではない。

　長期にわたり情報爆発、ビッグデータの研究やビジネスを見ていると、潮流の変化に気付く。例えば、データ分析からデータ獲得へのシフトである。大量データを継続的に捕捉し維持管理することは容易ではない。ビッグデータのホルダー（保有者）はそれほど多くなく、良いデータを持っている者が最終的に力を持つ。ＩＴ企業はデータホルダーの買収に動いている。

　大量データの活用により、あらゆる分野で革新が起きている。例えば、望遠鏡の世界でも大量画像に機械学習が利用され、どちらに向くかを自ら考える望遠鏡ができつつある。また、胃カメラをはじめ、医療画像と専門家による読影結果が大量に蓄積されてきた。これらを学習することにより、熟練した医師並みの腫瘍検出支援システムを実現することも夢ではない。

　大量データの利活用は人間では不可能な超人的な世界観を新たに生み出しつつある。ＩＴ（情報技術）が社会に大きく貢献するのであれば、それを人工知能と呼ぶかどうかは大きな問題ではなかろう。重要なのはＩＴの力を見極め、応用分野と積極的に融合を進めることに尽きる。

　とはいえ、人工知能がなんでもできるわけではない。人工知能はソフトウエアで構成されている。それほど賢いのならば、人工知能が自らバグ（不具合）のないソフトウエアを書けるはずだが、現時点では到底できない。

　人間に起因する事故の多くは、人工知能ならば回避できるといわれる。一方で、世の中の多くのシステムの不具合はソフトウエアのバグから生まれている。では、どうすれば人工知能という複雑なソフトウエアをバグなしにつくれるのか。要するに、難しいものは相変わらず難しい。人工知能がすべてを解決してくれるという世界は程遠い。

桑原政則の「合縁奇縁」

ページ

進化する人工知能大量デジタル情報が支え。喜連川優。日経

0 件のコメント:

ページ

進化する人工知能 大量デジタル情報が支え。喜連川優。日経

0 件のコメント:

進化する人工知能大量デジタル情報が支え。喜連川優。日経