今社会のさまざまな場面で活用法が検討される生成AI。しかし、ChatGPTはいかにして私たちの言語を理解しているのだろうか。第3回は東北大学言語AI研究センターで研究を続ける教授、乾健太郎氏を壇上に迎え、大規模言語モデルの仕組みと課題、その可能性について語っていただいた。
「第1回:AIがもたらすビジネス変革」はこちら>
「第2回:驚異的な未来予測理論からのバックキャスティング」はこちら>
大規模言語モデル
「こんにちは。ただいまご紹介いただきました乾と申します。今日は生成AIの根幹になっている大規模言語モデルについて、技術的なお話をしたいと思っております。言語がわかる、使いこなせるというのはどういうことなのか?そして、それを可能にした大規模ニューラル言語モデルのエッセンスとは何なのか?さらに、残されている技術的・社会的課題についても少しお話しようと思います」
乾氏は東北大学に在籍するとともに、アラブ首長国連邦にも拠点を置いている。2023年9月、アブダビに世界初の巨大なAI専門大学が開学し、世界中から面白い研究者たちが集まっているという。乾氏は冒頭の挨拶で、アブダビと日本で連携して何か面白いことをできたらという構想も語った。
「みなさんも使い始めているChatGPTを平たく言いますと、人が自然言語で質問なり指示をすると、それを受けて、適した文章を生成する文章生成器だと言えます。もう少しだけ専門的に言うと、大規模言語データで事前学習をして、さらに指示文で微調整学習をしたものが、大規模ニューラル言語モデルと呼ばれるものです。これは与えられた文章の続きを予測する確率モデルのようなもので、ある単語の後に続きそうな言葉を予測することで文章を生成しています。
例えば、“仙台は〜”と言ったら、次にどんな単語が来るか? “宮城”という単語が来そうだ。では、 “宮城”の次は何が続くか? “県”が来そうだと。こうして一つ一つ次の単語を予測し、その確率がなるべく大きな単語を選ぶことで文章を生成しているわけです。これは事前に大量の文章を丸覚えして、この単語の次にはこの単語が来やすい、こういう文脈のときは次にこのフレーズが来るといった、ある種の流暢さと世界知識を、確率モデルとして手に入れていると想像されます。さらにそのうえで、こういう回答ができるといいねという基準を学習する。これを指示文の調整、微調整学習といいますが、こうしたことをニューラルネットに学習させることで、さまざまなことができるようになってきたわけです」
かつてはさまざまなコンポーネントを作って、それらを用途ごとに組み合わせて利用していたAIの世界。それがこの大規模言語モデルをベースにすれば、多様なタスクを一手に担うことができる。ここが大きなパラダイム転換になっているのだ。
「現在は人間並みに流暢ですし、言葉遣いもほぼ間違えない。もう一つ重要なことは、さまざまなことができる汎用性を持ち始めていることです。自然言語で指示できるので、AIの専門家や自然言語処理のエンジニアがいなくても、誰でも試行錯誤できる。AIサービスの構築は大きく民主化されてきており、これにはインターネットとかスマホの発明と同等に、社会変革を引き起こす潜在的な可能性があると思います。ただし、基本原理は人が作った文章を覚えて使っているだけですから、本当に言葉がわかるAIが実現したのか?という部分は、まだまだ未解明なんですね。この辺りに、今できることと、まだ課題として残っていることの境目があるのです」
「言葉がわかる」とは?
「我々人間は当たり前にやっていることですが、言葉がわかるって、いったいどういうことなのでしょう?もちろん、文字、単語、文法を知らないといけませんが、もっと深い部分があります。例えば、『庭に洗濯物を干した途端に、雨が降ってきた』というエピソードを聞いただけで、その人ががっかりしたとは言わなくても、我々はその気持ちが想像できる。なぜでしょう?
これは、洗濯物を干すということを頭の中でシミュレーションしているのです。干すという行為は服を乾かすためにすること→洗濯物が乾くには晴れていないといけない→雨が降ってきたから洗濯物が濡れて、またやり直しだ→目的が達成されずがっかりだ。というように、相手が言ったことを字面で理解するだけではなく、その向こうにある事実を自分の知識で再構築する。語られてない行間も含めて受け取る。我々はこれをまったく無意識にやっているわけです」
ここで二つの英文が示された。Ed shouted at Tim. He was angry. このときのHeはエドだ。怒っている人はシャウトしやすいという予備知識で我々は意味を判断している。一方、Edshouted at Tim. He crashed the car. はどうか?Heは車を壊した人のことだろうからティムだ、と我々は解釈する。エドが叫んだのはティムが車を壊したからだな、と我々は文章に書かれていないことまで想像しているのだ。これが言語コミュニケーションが機械にとって簡単ではない理由なのだ。
「こうした推論のチェーンのようなものを作れないと、なかなか深い言語理解には到達しない。こういうことは80〜90年代にも盛んに語られていたのですが、大規模な常識というデータを計算機に与える方法がなかったのです。とても書き切れないですから。その時代から30〜40年が経ち、今、ネットから大量の文章や動画のデータを入手できるようになり、この問題を乗り越えられる可能性が出てきた。SNSにみんなが日頃の経験を文章にして載せる、こうした大量のデータから知識を手に入れることが、機械的にできる可能性が出てきたわけです。ということで、2010年代から、高度な言語処理や推論ができる今の大規模言語モデルが出てきているわけです」
ここで参加者から多くの質問が寄せられた。会話において行間を読み合うハイコンテクストな社会とそうではない社会ではAIの推論に差が出るのではないか? 知識と感情を同列に扱えるのか?といった興味深い質問が続く。ここまでの内容が、聴講者の知的好奇心を刺激していることがよく伺える。
大規模なニューラル言語モデル
「前段でも申し上げましたが、ニューラル言語モデルというのは、ある文脈があって、次の単語や次の段を予測する確率モデルなわけです。膨大な候補の単語から、どれがどの程度のスコアなのかを評価するという学習をしています。文章をここまで、さらにここまでと区切ることで、次の言葉を選択するという分岐点はいくらでもつくれるし、データは無尽蔵に収集できるわけです。次の単語を選び、間違ったら調整していくという学習を繰り返していくわけです」
記号の知識を柔らかく記憶する
「もう一つ重要なことは“記号の知識を柔らかく記憶する”ということです。つまり、単語の意味というのは、文脈から大体推測できるということ。これを分布仮説と言います。例えば、ある単語を知らなくても、周りの文章に“ボトルに入っている”とか“酔っ払う”と書いてある。すると、これはアルコールの名前なんだろうと推測できるわけですね。似たような意味の単語というのは、膨大な分布データの中で出現を観察すると、ほとんど同じような環境で出てくる。例えばbeerとかwineというのは、bottleとかdrinkみたいな単語と一緒によく出てくるし、carとかtrainはspeedとかrideみたいな単語と一緒に出てくるのです」
この分布データから、それぞれの単語を数値的なベクトルに置き換えて把握することで、AIは意味が近いか遠いかを、柔らかく計算できるようになるのだ。学習をひたすら重ねてデータを蓄積すれば、全く同じではない文脈でも、類似分野から次の段を予測できるようになるという。
「言語というのは記号です。記号というのはすごく硬いんですね。例えばキモノとワフクは字も音も全然違います。でも、意味はだいたい同じようなものですよっていうことを、機械に教えるのがこれまではとても難しかった。それがこうしてベクトルの世界で捉えることで、柔らかく計算できるようになってきます。これが非常に重要です。文章も少し柔らかく丸覚えできて、そこから意味や知識も獲得できるようになってくる。あとはニューラルネットのデータ規模を大きくすることで、ベターなモデルにしていけるわけです」
指示の学習と価値の学習
「これまでお話したとおり、次の単語予測をひたすらやるのが事前学習で、そのうえに指示文の微調整学習ということをやります。すでに言語に関する基本的な知識はかなり手に入っていますし、世界に関する知識も常識もある程度手に入っている。このあたりは想像していた以上にうまく行っていて、我々にとっても驚きだったわけです。そして今、指示文については既に世界中でデータが作られていているので、それを使うことができます。ただしですね、指示文を出すことをプロンプトと言いますが、このプロンプトエンジニアリングには理屈がないんですね。どう指示すると、どんなクオリティのアウトプットが出てくるかというのは、経験的にしかわからない。この理屈がないところが、今のAIの大きな問題だと言えると思います。
いろんな指示文にAIが答えるとなると、社会規範、人間が考える善し悪しというものも教えないといけない。変なことを言い出さないように、好ましくない文章の生成を抑制するような学習ですね。いろんな言葉の候補がある中で、これはいいけど、これは良くないねと。人間がある種の価値をつけたような判断基準データも与えて学習させる。しかし、これも理屈ではないので、とにかくこれは言ってもいい、これはダメ、というデータをどれだけたくさん、うまく与えられるかいう勝負になっているわけです」
ここで乾氏は、大規模言語モデルとは二階建て構造であると総括した。大量のデータから単語を柔らかく捉えながら丸覚えするのが一階部分。さらに人が与える指示文によって適切/不適切を覚え、記憶した知識を使って推論するのが二階部分。この二段構えによって、今の大規模言語モデルの技術ができているということだ。また、こうした原理に基づいているからこそ、正確性(ハルシネーション)の問題、データの偏り、情報漏えいや著作権侵害など安全性の問題などが生じており、今後も課題解決に向け取り組んでいくと語った。そして、次に訪れるであろうイノベーションは?という聴講者からの質問に、乾氏は非常に面白い回答をしているので紹介して終わろう。
「わたしが面白いと思うのは“人のことがわかる”という方向性です。つまり、人間がどういうふうに最初の言語を獲得しているのか? 脳内で何が起こっているのか? まだまだわからないことのほうが、遥かに多いわけです。とはいえ、脳はなかなか解剖できませんよね。でもニューラルネットは解剖できます。そこから人の認知や脳のことがわかってくると、次の大きなイノベーションになるのではないかと思います」
登録商標
・ChatGPT はOpenAI 社の商標または登録商標です。
・その他記載の会社名、製品名は、各社の商標または登録商標です。
乾 健太郎 氏
MBZUAI客員教授
東北大学言語AI研究センター教授
理研AIP自然言語理解チームリーダー
専門は自然言語処理。情報処理学会論文誌編集委員長、同会自然言語処理研究会主査、言語処理学会論文誌編集委員長、EMNLP 2019 General Chair等を歴任、2022年3月より言語処理学会会長。2019年Google Focused Research Award、2022年文部科学大臣表彰科学技術賞。