macOS も iOS もニューラルエンジンというものを使って、いろいろ便利な機能を実現している。あるいは深層学習によって、自動車の無人運転が可能になる。ならば、その深層学習とは何者なりや、というので読んでみる。数式は出てくるけれども、その数式がどういうことを言っているかを文章でも書いてくれているので、まったく雲を摑むようなものでもない。漠然とした感じは摑めた気もする。
既存の数学の原理から要請されることとは反対のことをやってうまくゆく、という点。論文やライブラリなどのリソースがオープンで無料になっているので、多種多様な研究者が参入して大いに湧いている点はたいへん面白い。Nature は掲載料が高く、機械学習領域専門誌を作ろうとして反対運動が起きた。学術雑誌は講読だけでなく、掲載にも高いカネをとるそうな。このインターネット時代にもう古いんではないか。論文の評価にはカネと手間がかかる、というのはやはり前世紀までのシステムだろう。科学論文の審査にも深層学習は使えるんじゃないか。もちろんそれだってタダではないだろうが、何人かに読ませて判断させるのは「非科学的」に思える。科学としてもヴィクトリア朝の科学だ。
科学者、研究者という、いわば「象牙の塔」の住人だけですんでいたものが、動機も性格もめざすところも異なる多種多様な人びとがどんどん参入することで、研究が活発になる。しかも、研究が進んである程度原理なども解明できてから実用化される、というのではなく、原理なんかわからなくても、どんどん実用化され、また成果を上げている。あるいはこれは18世紀からの産業革命当時に起きていたのと似ているのかもしれない。もっとも今回は起きていることのスピードと、それ以上に次元のレベルが異なる。少なくとも分子レベルではない。原子以下のレベルだ。分子レベルが従来の数学と機械学習、データ分析手法になるだろう。おそらくは量子レベルで起きているので、深層学習原理の解明には、相対論、量子論もからんでくるだろう。ここにはそういう角度からのアプローチは無いが、想像はつく。とすれば、ますます多種多様な分野、立場の人びとの参入が必要になる。多様性の確保はここでも至上命題なのだ。そして同様のことは、他の分野、例えば天文学でも起きている。
もう一つ面白いのは、自然言語など、そのままではデジタル化になじまないデータをデジタル化する技術。埋め込み embedding というのだそうだが、ここでは「りんご」をベクトル=複数の数値の列に変換する例があがっている。これもやりようによって結果が変わってくる。つまり「巧い」デジタル化ができる方法論、手法が探索されている。
従来、数学で証明されていたことと真向から対立する現象が起きている。その現象がなぜそうなるのか、わからない。深層学習で起きているのはそういうことだ。こういう本を読んでいると、パラダイム変換の速度と仕組みも変わってくるのかと思う。自分が依拠しているパラダイムをどんどん変換していかないと科学者として生きていけなくなる時代が来ているのではないか。馴染んだパラダイムにしがみついて一生を終えられる時代はやはり古いものではないか。Nature はそういう時代の産物に見える。
あるいはパラダイムというのはもっと大きな枠組みなので、それはなかなか変えられない、ということだろうか。
実験と理論それぞれの結果が合わないことはこれまでにも起きている。熱輻射の問題は有名だ。そこから量子力学というまったく新しい概念を扱う学問が生まれた。同じことが繰返されるとすれば、深層学習の原理の解明から、データを扱う全く新しい学問が生まれる可能性もある。本書末尾で、深層学習のその向こうを望んでいるのもそういうことだろう。そして今回、そういう学問を生みだすのは、プランクとかアインシュタインといった傑出した個人ではなく、集団の知、ネットワークでつながった集団の知能になるだろう。それもまたスリリングなことだ。なぜなら、そうなればそうした集団の知を働かせる原理の解明あるいは応用も可能になるだろうからだ。そこには生身の人間の知能だけでなく、AI も入ってくる。むしろ、おそらく生身の人間だけでは、もはや解明できないところまで来ているのではないか。
深層学習が実際に何をやっているのか、というのは、正直、よくわからない。データ解析とその評価と適用による推測、ということなのだろうが、同じような計算を何度も繰返す、前の層の計算結果を次の層に入れ、パラメータを変えて繰返すことで、より適正な結果、予測や判断を出す、らしい。キモは1回で全部すませるのではなく、いくつもの層に分けること。しかも、一つの層の中でも前段と後段で役割分担したりもする。それと適切なパラメータを探りあてて適用すること。そうすることで、従来の分析手法では扱えなかった、非連続の関数や入力された場所に応じて異なる滑らかさを持つ関数でしか表せないデータや現象の分析が可能になる。前者はごくわずかに異なる値を入れると大きく結果が異なる現象、たとえば水が氷になるようなもの、後者は画像の上部と下部で構造が異なる画像データや時間に応じて形状が変わる信号データだ。
適切なパラメータを探りあてる方法は、結果のわかっている既存のデータを使って、同じ結果が出るようなパラメータの最適値を探す。ニューラルネットワークが過去の事例から得られたデータを再現できるならば、新しいデータにもおおむね適合できるだろうという考えがベースになっているそうだが、この考え方は一応無理が無いと思えるけれども、一方でニューラルネットワークのようなまったく新しい原理で動いているらしいシステムに対して、本当にそれでいいのか、と問いたくもなる。今のところ、それでうまくいっているからいいじゃん、とも言えるけれども、ニューラルネットワーク、深層学習の本当の実力が発揮されていないのではないかと言ってみたくもなる。本当はもっといろいろな、画期的なことができるのに、その能力のごく一部、それも非常にプリミティヴな部分しか使っていないのではないか。たとえばエネルギー効率が次元が異なるほど良い動力システムの開発とか、人体の免疫システムの再生法の発見とか、あるいは大地震・大噴火の予測も可能なんじゃないか。あるいはこういうことすら、従来の価値観の延長にあるので、全然別の何か、インターネットのような、誰も存在すら想像できなかった何かが生まれるかもしれない。そこを解明するためにも、深層学習の原理の解明が必要なわけだ。
深層学習のような現在只今、猛烈な勢いで研究が進んでいる分野の現状を紹介するのはたいへんな仕事で、本書はかなりうまくやっている。数年後には時代遅れになってしまっているとしても、現時点での理解、現状の現場報告として史料になってもゆくだろう。それにこういう数学の基礎研究のようなものはニュースになりにくい。専門家がど素人にもわかるように書いてくれるのは貴重だ。もちろんど素人の方でも、数式に恐れをなしてばかりいないで、わかるところだけでも食らいついてゆく努力は必要だ。(ゆ)
コメント