Hitachi
お問い合わせお問い合わせ
さまざまな業種、業態において生成AIの本格活用が期待される中、日立は「業務特化型LLM構築・運用サービス」の提供を開始。本サービスの核心的な技術である汎用LLMを特定の業務に対応させる「ファインチューニング」の高度化に日々取り組む日立製作所の張程と是枝祐太に話を聞きました。

「【第4回】RAGの高度化で生成AIを次のステージへ」はこちら>

LLMのファインチューニングとは

——お二人は、「LLM(Large Language Models、大規模言語モデル)」を専門的な業務に特化させるためのファインチューニングに取り組んでいますが、それぞれの役割を教えてください。


私は、お客さまとの実証で顕在化した課題について研究チームに解決技術の開発を依頼し、その成果を本番環境に実装するなど、お客さま業務でのLLM活用を支援しています。

是枝
私は研究所において、学会などで発表されたLLMの最新の学習手法の実証や業務に即した応用など、最先端の技術を実業務に適応させるための研究を進めています。

——そもそもLLMとは、そしてファインチューニングとはなんでしょうか。

画像1: LLMのファインチューニングとは

是枝
「LLM(大規模言語モデル)」の前にまず「言語モデル」について説明すると、言語モデルは大量のテキストデータから言語の性質を統計的にモデル化したものになります。この言語モデルの活用によりコンピュータが自然言語を理解したり、生成したりすることが可能になります。

そして「大規模言語モデル」は、従来の言語モデルに比べてコンピュータの「計算量」、学習する「データ量」、確率計算を行う「パラメータ数」を著しく大規模化することで精度を大幅に向上させたものになります。自然言語に関するさまざまなタスク——例えば質問応答、要約、解説、翻訳などを人間とほぼ同レベルで実行することが可能なため、現在、ビジネスの自動化、効率化を進める技術として期待されており、この数年の間にさまざまなLLMが続々と発表されています。

ただ、そうしたLLMは専門用語や知識を学んでおらず、まだ特定の業務での活用は困難です。そこでLLMに専門知識を学習させたり、適切な挙動ができるよう調整したり、ファインチューニングにより特定のタスクに対応できるよう訓練するのです。

画像2: LLMのファインチューニングとは

——生成AIの高度化の手法として「RAG」について前回ご紹介しましたが、LLMのファインチューニングとの違いはどこにありますか。

画像3: LLMのファインチューニングとは


外部の知識DBを活用するRAGもまた、LLMを特定業務に適応させるための強力な手法です。ただLLMと知識DBが一体化していないため、専門的な用語や表記の理解・生成が難しいケースがあります。またチューニングなしのLLMは、特定のタスクに応じた挙動をとることは困難で、RAGはこの問題を解決できません。生成AIをより高度に業務に適応させるには、RAGだけではなくLLMのファインチューニングを実施する必要があります。

例えて言うならば、RAGを適用した生成AIは、わからないことは何でも自分で検索して答えを出す非常に優秀な新入社員です。一方で、RAGに加えてLLMのファインチューニングを実施した生成AIは、検索しなくても業務のことを深く知っている熟練社員のようなイメージです。

「JP1認定コンサルタント試験」への挑戦

——ファインチューニングによって、汎用LLMはどのくらい専門性を進化させられるのでしょうか。

是枝
日立での実証例を紹介すると、ファインチューニングされたLLMとRAGの組み合わせによる生成AIが、日立の統合システム運用管理 「JP1」の資格試験の中でも最難関(合格率24%*)の「JP1認定コンサルタント試験」で合格点を上回りました。このLLM は、将来的にJP1 コンサルタントが必要とする業務手順や技術知識を補完し、業務を支援するアシスタントとして活用される見込みです。

そしてこのファインチューニングの実証を通して、私たちはさまざまな知見を蓄積しました。

*合格率は2024年7月時点のものです。

——それは、例えばどのような知見ですか。

是枝
今回は主に「継続事前学習」と「教師ありファインチューニング」の2つのステップでファインチューニングを行い、「教師ありファインチューニング」に不可欠な大量の教師データを、別のLLMを使って自動生成する手法を確立しました。

順を追って説明しますと、最初の「継続事前学習」は、LLMに不足している知識を補うためのもので、ここでは既存の「JP1に関する市販本」や「JP1マニュアル」などを追加学習させました。これでJP1認定コンサルタントが知っておくべき情報は、LLMに入ったことになります。

そして次のステップの「教師ありファインチューニング」は、特定のタスクに応じた挙動をLLMにとらせるためのものになります。ここでは、“試験問題に答える”や”JP1に関する質問に答える”という挙動を覚えさせるために大量の教師データ——この場合はQ&Aのデータセット——が新たに必要になるので、私たちは既存の「JP1に関する市販本」と「JP1マニュアル」から別の生成AIを使って「ソフトウェアに関する一般的なQ&A」、「JP1全般に関するQ&A」、「JP1認定コンサルタント試験に特化したQ&A」など大量のデータセットを自動生成しました。

この知見は、他のさまざまなドメインにおいても教師データの作成に応用することが可能です。

画像: 「JP1認定コンサルタント試験」への挑戦

教師データの自動生成のメリット


いまお客さまにとって、教師データの作成がLLMのファインチューニングにおけるボトルネックになっています。タスクに応じた教師データを作成するには業務への深い知見が必要なうえ、数万セットという膨大な分量が求められます。しかし、熟練者を何人も集めて教師データの作成に専念してもらうことは、業務上困難です。その時に、マニュアルなど業務知識をある程度網羅したテキストから教師データを準備できれば、作業を大幅に簡略化でき、お客さまにとって大きなメリットとなります。

また、教師データの作成において、お客さまとの協創を通じて事業の知見を幅広く蓄積していることも日立の強みです。例えば同じカスタマーサポート業務でも、お客さまの事業に沿った回答の仕方が求められます。また、業界の規格や企業のポリシーから外れた回答の生成を防ぐことも重要です。このため、教師データはそれぞれの事業の内容をきめ細かく反映したものを用意する必要がありますが、日立では各業界に精通したドメインエキスパートがお客さま業務を深く理解し、その知見を最大限活用しながらLLMエンジニアとともにファインチューニングに取り組みます。

——日立では現在、難易度の高いOT領域の業務特化型LLMの実現に注力しているそうですね。次回はそのお話について聞いていきます。

次回、後編は1月23日公開予定です。

画像1: 生成AI活用のフロントランナー
【第5回】LLMを特定タスクの専門家に(前編)

張 程(ちょう てい)

株式会社 日立製作所 マネージド&プラットフォームサービス事業部
生成AIサービス開発部
技師

サーバー、ストレージの仮想化技術や音声認識技術の評価に携わった後、金融系、公共系のコールセンターの業務改善のためのAI技術の評価などを担当。2022年からは国内外の交通インフラや製造業におけるAIを活用したソリューションの提案、実装に従事。

画像2: 生成AI活用のフロントランナー
【第5回】LLMを特定タスクの専門家に(前編)

是枝 祐太(これえだ ゆうた)

株式会社 日立製作所 研究開発グループ デジタルサービス研究統括本部
先端AIイノベーションセンタ メディア知能処理研究部
研究員

研究開発グループにおいて、言語処理分野におけるディープラーニングの基礎的な研究に従事した後、日立アメリカに出向。スタンフォード大学との言語処理を用いた契約書処理に関する共同研究などに携わる。現在は生成AIの本格実用に向けLLMの高度化に取り組む。

This article is a sponsored article by
''.