Hitachi
お問い合わせお問い合わせ
産業用メタバースの活用が拡大するにつれて、幅広い産業分野に対応し、手軽に、早く3Dモデルを作成できる生成AIの実現が強く求められています。日立の3D自動生成技術は、2段階での3Dモデル生成と、専門的ドメインに向けたファインチューニングの手法を確立し、これらのニーズにしっかり対応。研究の中心にいる日立製作所の渡邉裕樹と何毅に話を聞きました。

前編はこちら>

計算リソースと生成時間の低減

——日立の3D自動生成技術は、計算リソースを抑えながら短時間で3Dモデルを生成し、しかもドメインへの特化に必要な学習データセットも少量で済むそうですね。これらをどのように実現したのか、聞かせてください。

画像: 計算リソースと生成時間の低減


はい。まず私たちは、計算リソースと生成時間の短縮を、3Dモデルの生成を2段階に分けて行うことにより達成しました。

図を使って説明します。はじめにViT*¹バックボーンというアーキテクチャーを用いて、手書きのスケッチを3次元と捉えて点群がどう分布しているか、その特徴量(ラテントコード)を抽出します。通常は、このラテントコードからそのまま図の右端にあるSDF*²データによるハイクオリティな3Dモデルを生成します。

ですが私たちの3D自動生成技術では、その前段階として粗い3Dモデルを生成します。具体的には、ラテントコードを「グリッドサンプル」と呼ばれる粒の大きな立方体の集合体に当てはめて、点群の密度を下げた形で3Dモデルを作成します。これは例えるなら玩具のブロックで3Dモデルを生成するイメージです。これが第1段階のボクセル*³ボリュームです。

そして第2段階では、このボクセルボリュームをガイダンスに利用しながら、ノイズから逆拡散過程(前編参照)によりハイクオリティな3Dモデル(SDF)を生成します。
*1 ViT:Vision Transformer
*2 SDF:Signed Distance Function
*3 ボクセル:立体物の表現に用いられる小さな立方体の最小単位であり、二次元画像におけるピクセルに相当。

画像: 第一段階で粗い3Dモデルを生成し、第2段階のガイダンスとすることで計算量を抑えている。

第一段階で粗い3Dモデルを生成し、第2段階のガイダンスとすることで計算量を抑えている。

渡邉
SDFデータを生成するための学習は複雑で、最初の手書きのスケッチから直接SDFを生成しようとするとばく大な計算量を必要とします。そこで私たちは、SDF生成の準備としてボクセルボリュームの生成を行うという2段階生成を採用しています。

ボクセルボリュームは比較的軽めの学習で生成することができ、第2段階ではこのボクセルボリュームをガイダンスに利用することでSDF生成の初期段階をショートカットでき、計算量を大きく削減することができます。

一般的に3Dモデルを作成する生成AIは、ハイパフォーマンスなGPUを複数枚必要としますが、我々の3D自動生成技術はゲーミング用のGPUでも学習可能です。これにより低コストで導入できるようになりました。また、この計算量の低減が生成時間の短縮につながり、従来なら約1分から場合によっては数10分かかっていたものが、今回、数秒で生成できるようになりました。

少ない学習量で専門的なドメインに特化

——次に、少ない学習データセットで、専門的なドメインに対応させる手法を教えてください。

画像: 少ない学習量で専門的なドメインに特化

渡邉
はい。専門的な産業ドメインに特化した3D生成AIを実現するためには、そのドメインの3Dモデルを数多く学習することが必要です。しかし専門的な分野の3Dモデルは、それを作成した企業の大事な財産であるため、共有されることは少なく、結果として学習に使える3Dモデルの数は自ずと限られることになります。そこで、少ないデータセット量でもそのドメインに向けた学習ができる手法が求められました。


私たちは、机や椅子、棚など、世の中に豊富に存在している一般的なオープンソースの3Dモデルを基礎的な学習に使うことを考えました。まず一般的なオブジェクトを使って生成AIに、基本的に物体の形状とはどういうものなのか、ここにこういう角があれば、ここには面があるはずだ、というような抽象的な概念を学ばせました。
それを前提にして、特定ドメインの3Dモデルを使って、この分野ではハシゴはこういう形をしている、などドメイン特有の特徴を追加学習させます。つまり汎用の生成AIを、特定業務の専門家にするためのファインチューニングです。これによって、少量のデータセットであっても、そのドメインに求められる3Dモデルを高い精度で出力できるようになりました。

——学習のデータセットが少量で済むことは、適用範囲の拡大につながりますね。


その通りです。またデータ量が少ないため、ファインチューニングに要する時間も短時間です。基礎的な学習を完了した生成AIを、一晩のファインチューニングで、プラント設計やインフラ保守のお客さまにも適用させることができ、これにより導入コスト低減にもつながります。この3D自動生成技術は、性能面でも、コスト面でも、幅広いお客さまに喜んでいただけると考えています。

現場のニーズに寄り添い続ける

——この3D自動生成技術をどのように発展させていきたいですか。


この技術は、産業用メタバースでの3Dモデル生成をターゲットに開発していますが、将来的には3DCADへの対応を視野に入れています。例えば、プロンプトとしてスケッチとともに寸法などを入力することで、ミリ単位まで正確に3Dモデルが生成されるようになれば、設計業務は大きく変わると思います。設計者は、設備や構造物、建物がどのように課題を解決するかというコンセプトに集中し、あとは生成AIがそのドメインでの設計上の制約など煩雑な問題を自動で解決しながら3Dモデルに仕上げていってくれる。そんな新しい設計業務の実現を支援したいと考えています。

渡邉
この3D自動生成技術は、日立だから実現できたものです。日立が手掛けるOT(Operational Technology)の分野では日々3Dモデルを活用しています。この取り組みのきっかけもOT現場のニーズからですし、プロジェクトの進展も社内に3Dモデル活用の知見が豊富に存在したからだと言えます。
OTの現場は、人手不足や技術伝承の難しさ、デジタル化の遅れなどさまざまな課題を抱えています。私たちはこれからも現場のニーズを見つめながら、この3D自動生成技術をさらに進化させていきたいと考えています。

画像1: 生成AI活用のフロントランナー
【第6回】生成AIが、手書きスケッチから3Dモデルを生成(後編)

渡邉 裕樹(わたなべ ゆうき)

株式会社 日立製作所 研究開発グループ Digital Innovation R&D
先端AIイノベーションセンタ ビジョンインテリジェンス研究部
主任研究員
博士(情報科学)

画像認識や画像検索の研究に従事し、これまでに放送映像検索システムや、防犯カメラ映像からの人物検索システム、ドローンによる災害映像解析システムなど、さまざまな分野でアプリケーション開発に携わる。日立アメリカ駐在中には広大な屋外ヤードの資材量管理システムの開発にも参画した。近年では、深層学習や生成AIを活用した新しい画像認識技術を基盤に、メタバース空間の有効活用に向けた研究に注力。2024年に第56回市村産業賞・貢献賞を受賞。

画像2: 生成AI活用のフロントランナー
【第6回】生成AIが、手書きスケッチから3Dモデルを生成(後編)

何 毅(いず たけし)

株式会社 日立製作所 研究開発グループ Digital Innovation R&D
先端AIイノベーションセンタ ビジョンインテリジェンス研究部
企画員

3Dモデルの生成AIにおいて、2D図面やテキストなど、より簡単な入力でより正確な3Dモデルを生成するための研究に従事。その他、製造ラインのAI検査システムが学習するための異常データを自動生成する研究など、さまざまな取り組みを通して産業分野へのAIの浸透に取り組む。

This article is a sponsored article by
''.