Intel Labsは先日、Blockade Labsと共同開発したLatent Diffusion Model for 3D(LDM3D)をIEEE Computer Vision and Image Recognition Conferenceで実演しました。このモデルは、自動生成型人工知能技術を用いて、テキスト記述から360度視野角の3D画像を迅速に生成できると謳っています。
現在のほとんどの生成AI技術はテキスト記述から2D画像しか生成できませんが、Intel LabsがBlockade Labsと共同で発表した「Latent Diffusion Model for 3D」は、テキスト記述に基づいて同じパラメータで画像と対応する深度情報を自動生成し、3D立体画像を迅速に構築できます。このモデルは迅速なモデリングと3Dシーンのセットアップに活用でき、建築、デザイン、ゲーム、エンターテインメントなどの業界におけるアプリケーションの加速に貢献します。
この拡散モデルは、4億点以上の画像とテキストアノテーションを含むLAION-400Mデータベースの10000サンプルを用いて学習されました。学習コーパスは、Intel Labsが開発した大規模深度推定モデルであるDense Prediction Transformer(DPT)を用いてアノテーションされました。
この拡散モデルは、Intel XeonプロセッサーとHabana Gaudi AIアクセラレーターを搭載した人工知能スーパーコンピューターで学習されています。Dense Prediction Transformerの大規模深度推定モデルは、各画像のすべてのピクセルに対して高精度な相対深度情報を提供します。生成された画像にはこの深度情報が組み込まれており、360度の視点から見ることができる3Dコンテンツが作成されます。これにより、生成プロセス中のメモリ使用量が削減され、計算レイテンシが最小限に抑えられます。
インテルは、この普及モデルをHugging Faceを通じてオープンソース化しました。Hugging Faceは、ユーザーが機械学習モデルとデータセットを共有できるプラットフォームです。これにより、より多くの研究者や企業がこのモデルを活用して様々な応用プロジェクトを作成し、モデル利用の効率を継続的に向上させることができます。


