Apple の没入型ビデオへの取り組みアップルビジョンプロこれは、典型的な魚眼投影とは異なり、高解像度ヘッドセット用の興味深いひねりが組み込まれています。
VR および AR エクスペリエンスを提供するヘッドセットは、多くの場合、ユーザーに没入型ビデオも提供します。これは空間ビデオの形式をとることができ、3D 効果を提供するだけでなく、視聴者をコンテンツで取り囲むのに有利な 360 度ビデオも提供します。
アップルも発売してる臨場感あふれるビデオクリップ、つまり高解像度の 180 度 3D ビデオですが、現時点ではコンテンツ ライブラリの成長が比較的遅いです。
これらのビデオを作成するには、魚眼レンズを備えたカメラを使用して非常に広角のショットを作成し、複数のビデオを組み合わせて 1 つのビデオを作成することがよくあります。
Apple Vision Pro には、当然のことながら、魚眼コンテンツを表示する機能があります。ただし、ストリーミングに使用されている間、Apple TV+ビデオの場合、この形式はほとんど文書化されておらず、サードパーティによって使用されていません。
でによる研究Mike Swanson 氏は日曜日に、Apple のユーザー向けの没入型ビデオ プロジェクションは、従来の魚眼フォーマットとは異なるアプローチを採用していると発表しました。
さまざまな歪み
2D ビデオの画像を、中心にいるユーザーから見える半球状または球状の投影マップに変換するのは簡単ではありませんが、歪みのおかげで実質的に解決されました。
フレーム内のすべてを含む典型的な 180 度のアウトカメラ魚眼ショットは円として表示され、円の角と端にある黒い部分は、視覚データが利用できない領域を参照します。
ビデオを特定の方法でセグメント化することで、仮想球内で水平方向と垂直方向の両方で、ユーザーの 180 度の視野に収まるようにビデオを引き伸ばすことができます。これは投影を実現する最も簡単な方法ですが、コーナーセクションはエンコードされたビデオの一部であるものの、実際には最終画像では使用されないため、データ効率が悪くなります。
黒い部分を削除する代替案として、180 度の正距円筒図法が存在します。編集によって作成され、長方形のフレーム全体を埋めるように画像をワープします。
表示のために歪ませると、投影マップのエッジに使用されるピクセルが増え、ユーザーが実際に見ることができる詳細が増えることを意味します。
それぞれの立体視ビデオ、または 360 度ビデオを作成するには、多くの場合、各 180 度の視野が利用可能なスペースの半分に押し込まれ、同じフレーム内に両側が含まれるようになります。
このシナリオでは、180 度の各ビューで詳細を保持することが困難になるため、画像を隅にワープして無駄なピクセルを排除することが理にかなっています。
現実歪曲効果
Swanson 氏は当初、Apple が魚眼投影処理で何を変更したかを判断するのに苦労しましたが、Apple Vision Pro のネットワーク トラフィックを監視することで、何が実行されたかについていくつかの詳細を明らかにしました。
モニタリングだけから、ストリームは HDR10 でエンコードされ、片目あたり 4,320 x 4,320 の解像度、90fps で約 50Mbps であることがわかりました。ただし、イマーシブ ビデオは DRM で保護されていたため、Swanson は生の魚眼フレームを破損せずに表示することができませんでした。
その後、同じ魚眼エンコーディングを使用しているが DRM なしの、Apple TV+ のロゴのイントロ クリップについて警告を受けました。これにより、Apple の魚眼フォーマットをさらに分析できるようになりました。
まず、Apple は、単一のビデオ フレームを使用して 2 つの目または前後 180 度の投影を処理するのではなく、MV-HEVC を使用してステレオ ビデオをエンコードします。実際、各 180 度投影はビデオ ファイル内の別のビデオ レイヤに保存されます。
標準的な魚眼、正距円筒図法、Apple の魚眼処理の例 [Mike Swanson]
さらに珍しいのは、Apple が魚眼コンテンツを 45 度回転してエンコードしていることです。 「球」の基部はフレームの左下隅にあり、頂点は反対側の隅にあります。
スワンソン氏は、この変更は理にかなっていると述べ、その十分な理由の 1 つは、対角線がフレームの最長の寸法であるため、回転していないバージョンよりも多くの水平方向の回転後のピクセルを格納できることです。
視聴者にとっての利点は、水平線に利用可能なピクセルが最も多くなるということです。ほとんどの人がビデオを視聴するときにここを見ることになるため、このセクションの詳細を維持することは、視聴エクスペリエンスにとって非常に重要です。
投影で処理するピクセルが最も少ない領域は、通常の魚眼レンズの上部、下部、側面の中央から、おそらくあまり表示されない「コーナー」セクションに移動します。
まだ謎がいくつかある
追加情報にもかかわらず、スワンソン氏はアップルのプロセス全体を解明できておらず、いくつかの要素はまだ解明されていない。
これらの 1 つは、放射状ストレッチングと呼ばれる技術を中心にしています。この技術では、画像の各段階が正方形のフレームの端まで引き伸ばされ、画像のフレーム全体の使用量が最大化されます。
スワンソン氏は生の Apple 魚眼フレームを処理することでそれに近づいたが、「100% 正しいわけではない」。必要な放射状の伸びと歪みの量を減らすために、対角線に沿っていくつかの追加の論理要素が機能することが提案されており、スワンソンの最良の推測は単純な面取りされたコーナーの使用です。
また、Apple が潜在的に特定のジオメトリにエンコードして不必要な複雑さを加え、他社が同じフォーマットを使用するのを困難にする可能性があるとも言われています。
Swanson 氏には、なぜ Apple がこの種の投影形式を使用するのかという疑問がまだ残っています。 Apple はそうすることでさらに多くのメリットがあることに気づくかもしれませんが、それはまだ謎です。
Apple Vision Pro 用のビデオのエンコードは、映画制作者が直面する課題の 1 つにすぎません。キヤノン幹部は3月、次のように説明した。どのカメラもありませんヘッドセットが必要とする解像度とリフレッシュ レートでビデオを生成できます。