Apple は、約 30 分で短いビデオからデジタル人間のアバターを作成できる生成 AI テクノロジーである HUGS と呼ばれるものについて説明する研究論文を発表しました。

Apple の機械学習研究を通じてリリースページApple 研究者の Anurag Ranjan 氏が共有X上で, 「HUGS: Human Gaussian Splats」では、人間のデジタル アバターを作成するテクニックについて説明します。この研究では、機械学習とコンピューター ビジョンを使用し、比較的少ないソース資料を使用して作成プロセスを詳細に説明しています。

現在のニューラル レンダリング技術は以前のバージョンに比べて著しく改善されていますが、依然として「静的なシーンの写真測量に最適であり、環境内で自由に動く人間にはあまり一般化できない」と導入段落で説明されています。

ヒューマン ガウス スプラット (HUGS) の概念では、3D ガウス スプラッティングと呼ばれる技術を使用して、シーン内にアニメーション可能な人間を作成します。

この方法自体には、通常はシーン内で動いており、システムが動作するためにできるだけ多くの表面を表示する、被写体の少量のビデオが必要です。この技術では、場合によっては非常に短いクリップを使用することもあり、場合によっては 50 ~ 100 フレーム程度の単眼ビデオを使用することもあり、これは 2 ~ 4 秒の 24fps ビデオに相当します。

このシステムは「30分以内に静止シーンと完全にアニメーション可能な人間のアバターを解きほぐす」ように訓練されているとAppleは主張している。

SMPL ボディ モデルは人間のガウス モデルを初期化するために使用されますが、すべての詳細をキャプチャすることはできません。このプロセスでは、布地や髪の毛などのモデル化されていない要素については、SMPL モデルから逸脱して、キャプチャされてモデルに含まれているもののギャップを埋めることができます。

また、線形ブレンディング スキン ウェイトを最適化して、アニメーション中にガウス モデルの動きと調整して、モデルの外観を改善するという提案もあります。

最終的に、トレーニング ビデオから人体モデルとシーンの「最先端のレンダリング品質」アニメーションが HD 解像度で 60fps のレンダリング速度で出力されるまでの時間は、約 30 分です。これは、NeuMan や Vid2Avatar などの他の方法よりも約 100 倍高速であると言われています。

研究論文には著者としてムハメド・コカバス氏、リック・チャン氏、ジェームズ・ガブリエル氏、オンセル・トゥゼル氏、アヌラグ・ランジャン氏が名を連ねており、マックス・プランク・インテリジェント・システム研究所との共同で作成された。

Apple はかなり長い間、デジタル アバターを作成するというアイデアに取り組んできました。アップルビジョンプロ。有効にするにはフェイスタイム会話だけでなく、ユーザーの目の外側の景色もヘッドセットによって作成されます。デジタルの「人」、ユーザーを表すためにさまざまな方法で使用されます。