3D自動生成技術とは
——今回、新たに開発された3D自動生成技術の概要を聞かせてください。
何
はい。いま産業分野では、3Dモデルの活用が広がっています。今回開発したのは、生成AIを活用して3Dモデルを自動生成する技術です。3Dモデルに対応した生成AIは既に存在しますが、その多くはゲームなどのエンターテインメント分野向けであり、産業系の3Dモデルの生成は得意ではありません。私たちの3D自動生成技術は産業分野への対応はもちろん、ファインチューニングにより専門領域の特性を反映した高精度な3Dモデルの生成も実現しています。

産業系の3Dモデルの生成ニーズに応えるために3D自動生成技術を開発。
渡邉
この3D自動生成技術は、プロンプトを入力すると既存の蓄積データから該当する3Dモデルを検索、もしくは瞬時に3Dモデルを生成するというものです。その最大の特長は、手書きのラフなスケッチからでもわずか数秒で3Dモデルを自動生成できる点です。

テキストやスケッチから求める3Dモデルを検索、もしくは生成する。
——手書きのスケッチでいいのですか。それは活用のハードルも下がりますね。
何
はい。ラフな手書きでOKなので、専門家でなくても3Dモデルを作ることができます。
プロンプトはテキストでも大丈夫ですが、そもそも言葉は曖昧です。例えば、生成AIに「ハシゴ」と指示してもさまざまな形状のものがあり、必ずしも欲しい形のハシゴが出力されるとは限りません。だったらユーザーの脳内にあるハシゴのイメージをスケッチとして入力するほうが、より確実だと考えました。もしイメージと違う3Dモデルが出力されても、手書きでスケッチを加筆して、編集することもできます。
産業用メタバースでのニーズ
——この技術の開発に取り組んだ経緯を教えてください。

渡邉
大きなきっかけとして、産業用メタバースの進展があります。日立も「現場拡張メタバース」という、遠隔地にいる関係者同士が仮想空間に構築された現場の原寸大モックアップを共有しながら、作業性や安全性の確認、技術の伝承、人財育成などを効率的に進められるソリューションを提供しています。
そうした産業用メタバースを活用して、例えば工場のレイアウトを検証したい場合、課題となるのが、設備の3Dモデルをどう用意するか、という点です。

何
エンターテインメント系の3Dモデルであれば、さまざまなものがインターネットで入手できます。一方で、産業系で使えるものは机、椅子、棚、車など一般的なものしかなく、専門的なドメインに特有の設備の3Dモデルとなると、自作するしかありません。しかし、3Dモデルを作るとなると専門家に依頼が必要で、シンプルなものでも1時間ほどかかるため、この手間が円滑なメタバース活用の妨げのひとつになっていました。
その時にこの3D自動生成技術があれば、配置したい設備の3Dモデルを瞬時に用意できるだけでなく、議論に応じて形やサイズをインタラクティブに調整しながら試行錯誤を素早く繰り返すことができます。
3Dモデル生成の仕組み
——今回、3D自動生成技術の実現にあたって、苦心した部分というのはどこですか。
何
大きく3つあります。それは、計算リソースを抑えること。生成時間を抑えること。そして、学習させるデータセットの量を抑えることです。これらについて話す前に、そもそも生成AIが3Dモデルをどのように作るのかを簡単に説明します。
いま2D画像系、3Dモデル系の両方の生成AIにおいて、コンテンツ生成の仕組みとして主流なのが「拡散モデル」です。今回の3D自動生成技術も、基本的にこの拡散モデルを使用しています。
拡散モデルではまず訓練として、例えば「椅子」の3Dモデルにデータを付加していき、最終的にノイズだけになる過程(拡散過程)を生成AIに学習させます。そして生成AIが「椅子」の3Dモデルを生成する際には、この学習した拡散過程をもとに、ノイズからデータを除去していき(逆拡散過程)、椅子を出現させています。

拡散モデルは、ノイズを除去してデータを復元する、というコンセプトを持つ。
渡邉
つまり学習するデータセットの量が不十分だと、生成AIは十分なパターンを学べず、ユーザーの期待に応えられません。さらに生成AIは、大規模な計算リソースを必要とします。それはデータの学習にも、アウトプットの生成にも膨大な量の計算処理を行うためです。特に3Dモデルは、データが複雑であったり、レンダリング*のプロセスを要したりと、より大きな計算リソースが必要です。それにともなって生成速度も長くなり、約1分から場合によっては数10分と、時間がかかる傾向にあります。
* レンダリング:3Dデータを人間が理解できるよう2Dの実写のようなイメージに仕上げること。
何
無制限にGPUを使うことができれば大きな問題はないのですが、ビジネスで使う以上はコストには上限があり、お客さまに広く使っていただくためには計算リソースを抑えなければなりません。同時に、「メタバースで使える3Dモデルをサクサクと作りたい」というお客さまのニーズに応えるためには生成時間も抑える必要があります。
さらに、生成AIに期待通りの3Dモデルを生成させるためには、豊富なデータセットでの訓練が理想的ですが、ドメインが専門的であるほど用意できる訓練データの数は限られます。そのため、少量のデータセットでも生成AIがドメインの特性を学べる手法を編み出すことも、越えなければならない課題でした。
——次回は、これらの課題をどのように解決したのか聞いていきたいと思います。

渡邉 裕樹(わたなべ ゆうき)
株式会社 日立製作所 研究開発グループ Digital Innovation R&D
先端AIイノベーションセンタ ビジョンインテリジェンス研究部
主任研究員
博士(情報科学)
画像認識や画像検索の研究に従事し、これまでに放送映像検索システムや、防犯カメラ映像からの人物検索システム、ドローンによる災害映像解析システムなど、さまざまな分野でアプリケーション開発に携わる。日立アメリカ駐在中には広大な屋外ヤードの資材在庫管理システムの開発にも参画した。近年では、深層学習や生成AIを活用した新しい画像認識技術を基盤に、メタバース空間の有効活用に向けた研究に注力。2024年に第56回市村産業賞・貢献賞を受賞。

何 毅(いず たけし)
株式会社 日立製作所 研究開発グループ Digital Innovation R&D
先端AIイノベーションセンタ ビジョンインテリジェンス研究部
企画員
3Dモデルの生成AIにおいて、2D図面やテキストなど、より簡単な入力でより正確な3Dモデルを生成するための研究に従事。その他、製造ラインのAI検査システムが学習するための異常データを自動生成する研究など、さまざまな取り組みを通して産業分野へのAIの浸透に取り組む。