LLMの学習が困難なOT領域の形式知
——OT(Operational Technology)領域に対応した業務特化型LLMの構築は、容易ではないそうですね。
是枝
はい。LLMのファインチューニングでは専門的な業務知識の学習が不可欠です。しかし、OT領域、例えば社会インフラ設備や製造業の製造現場のドメイン知識には、状況依存性が高く、暗黙知も多いため、学習困難なものが多いです。このため、いま私たちは業務特化型LLMへの取り組みを4段階に分けて、順次進めています。
まず言語や数値など形がある「形式知の学習」。さらに経験や勘とも呼ばれる「暗黙知の学習」。そして学習済みのLLMをアプリケーション化し、現場担当者を支える「エージェント化」の実現。将来的には、複数業務の「連結化」によるLLMエージェントの実現にも挑戦していきたいと考えています。
——いま、取り組みはどの段階にありますか。
是枝
現在は、「形式知の学習」と「暗黙知の学習」に取り組んでいるフェーズです。
どちらも難しいテーマですが、例えば製造業の形式知には、マニュアルや手順書などテキスト化されたもの以外に、生産管理表や回路図、統計グラフ、検査画像などLLMが学習困難なものが多数含まれます。これらのデータをいかにLLMが読み取れる形にしてあげるか、いま研究を進めています。
例えば、回路図の場合は接点と接点のつながり方を認識させ、構造化された表はタイトル、行、列といったそれぞれの概念を理解させる必要があります。このように、さまざまなタイプの形式知一つひとつを丁寧に観察し、機械学習技術などを用いてそれぞれに学習手法を確立することで、マルチモーダル*¹なLLMを実現したいと考えています。
*1 マルチモーダル:テキスト、画像、音声など異なる種類のデータを統合して処理できるシステムのこと
——とても高度な知見を必要とする挑戦ですね。
張
はい。表や図の学習手法に関しては、日立はかなり前から研究を積み重ねていて、ある程度の実証はできています。ただその他にも、画像診断の画像データや打音検査の音声データ、さらにはホワイトボードに煩雑に書かれたポンチ絵の画像など、きわめて学習難度の高い形式知がOT領域には数多く存在しています。
マルチモーダルなLLMの実現はハードルの高い挑戦です。しかし、日立は多岐にわたるOT領域のデータを製造拠点で実際に扱うだけでなく、最先端の知見を持つAI研究者を擁しています。こうした特徴を持つ日立は、LLM技術を支える存在として、他にはない独自の強みを発揮できる稀有な会社です。製造現場を支えるマルチモーダルなLLMの実現は日立のタスクでもあると思います。
形式知から暗黙知を採取する
——形式知よりも暗黙知を学習させる方が、さらに難易度が高いのではないですか。
是枝
その通りです。そもそも暗黙知には形がないため、言語化することが難しいです。しかし現場の業務では、例えば製造ラインでの打音検査の音を聴き分けることや、設備障害が発生した際にログから対処法を類推することなど、勘や経験と呼ばれる熟練者の暗黙知が重要な役割を果たします。このような暗黙知は、OT領域におけるLLMには不可欠なデータだと言えます。
形のない暗黙知をデータ化する方法には2つのアプローチがあると思います。ひとつは、熟練者にヒアリングしながら業務ごとの暗黙知をテキスト化していく方法です。これは想像しやすいやり方だと思います。
もうひとつは、形式知の中から暗黙知を採取する方法です。例えば、熟練者が書いたメールやメモ、手順書などの形式知に、ある問題が発生した場合の対処法が記載されているとします。この場合、熟練者は過去に類似の問題を経験し、それらの経験をもとに対処法を見つけたと考えられます。こうした経験の積み重ねが対処法に結びついており、その書かれていない経験にもとづく対処法などが暗黙知にあたると推察されます。そこで専用のLLMに、形式知の裏に隠れている熟練者の思考のステップを推論させ、その思考を暗黙知として取り出す研究を進めています。
張
2つのアプローチのうち、ヒアリングによる方法は着実に暗黙知を収集できる方法です。ただ、ヒアリング対象者が少数だと暗黙知に偏りが出る、逆に大人数のヒアリングの実施は業務に支障なく行うのが困難、などのデメリットもあります。そこで、私たちは既存の形式知から暗黙知を自動で採取することに取り組んでおり、「JP1認定コンサルタント試験」挑戦の実証(前編参照)にもその知見の一端が適用されています。
日立では、この2つのアプローチをバランスよく活用した暗黙知のデータ化、さらに学習する形式知のマルチモーダル化を通して、LLMのOT領域への対応を推進しています。
LLMが「知識の連続性」を保つ
張
暗黙知、形式知の学習手法はOT領域に限らず、金融、官公庁、自治体など幅広い分野の業務特化型LLMの構築にも応用することが可能です。
私たちは他にも業界を超えたさまざまなLLMの課題に取り組んでいます。例えば、LLMが誤った情報を生成するハルシネーションの低減の研究。LLMに取り込まれた大切な情報——例えば個人情報などを守るセキュリティの研究。LLMが生成したテキストであることを電子透かしなどで証明する真正性の研究。大規模になりがちなLLMを圧縮するための研究など、「Generative AIセンター*²」に集結したデータサイエンティストやAI研究者、さらに各業界のビジネスを知るドメインエキスパートが、ワンチームとなってお客さまの課題に幅広く取り組んでいます。
*2 新組織「Generative AIセンター」により、生成AIの社内外での利活用を推進し、Lumada事業での価値創出の加速と生産性向上を実現
是枝
いま、熟練者のノウハウや技術をどう継承するかが、グローバルなビジネス課題となっています。特にミッションクリティカルな発電所や鉄道などの社会インフラでは、ノウハウが継承できずにオペレーションが劣化したり停滞したりすることは許されません。
私たちは、現場の暗黙知、形式知をLLMに取り込むことによって熟練者の「匠の技」を若い人たちにしっかりと継承する——すなわち「知識の連続性」を保持するお手伝いがしたいと考えています。業務特化型LLMがエージェントとなって、若い現場担当者の作業や判断をお客さま企業ならではの価値あるノウハウで的確にサポートする。そんな世界を一日でも早く実現できるよう、これからも研究開発に取り組んでいきます。
張 程(ちょう てい)
株式会社 日立製作所 マネージド&プラットフォームサービス事業部
生成AIサービス開発部
技師
サーバー、ストレージの仮想化技術や音声認識技術の評価に携わった後、金融系、公共系のコールセンターの業務改善のためのAI技術の評価などを担当。2022年からは国内外の交通インフラや製造業におけるAIを活用したソリューションの提案、実装に従事。
是枝 祐太(これえだ ゆうた)
株式会社 日立製作所 研究開発グループ デジタルサービス研究統括本部
先端AIイノベーションセンタ メディア知能処理研究部
研究員
研究開発グループにおいて、言語処理分野におけるディープラーニングの基礎的な研究に従事した後、日立アメリカに出向。スタンフォード大学との言語処理を用いた契約書処理に関する共同研究などに携わる。現在は生成AIの本格実用に向けLLMの高度化に取り組む。
関連サイト