Appleの研究者らは自動運転車システムを公道に導入する取り組みを進めており、先週、学習可能なニューラルネットワークを使って3D点群内の物体を検出する方法を概説した学術論文を発表した。この技術はまだ初期段階にありますが、LiDAR ナビゲーション ソリューションの精度を向上させるために成熟する可能性があります。

Apple のエンジニアによって最近公開された他の学術論文と同様に、AI 研究者の ying Zhou と機械学習の専門家 Oncel Tuzel による最新エントリ「VoxelNet: 点群ベースの 3D オブジェクト検出のためのエンドツーエンド学習」が公開されました (PDFリンク)科学論文の arXiv アーカイブを通じて。

Appleはその記事の中で、LiDARアレイによって生成されるような3D点群内のオブジェクトの正確な検出が、急成長する多くの実世界アプリケーションにおける障害点であると指摘している。自動運転車からロボット掃除機まで、人間のオペレーターの助けなしで周囲を移動する機械は、重要な物体を迅速かつ正確に検出する必要があります。

Appleによれば、LiDARテクノロジーは、2D画像ベースの検出と比較して、空間内のオブジェクトの位置をより正確に特定するための深度情報を提供するため、より信頼性の高い代替手段であることが証明されています。ただし、レーザー パルスを放射し、光が固体表面で反射して戻ってくるまでの時間を記録することによって生成される LiDAR 点群は、まばらで点密度が大きく変動するため、多くの問題が発生します。

データ解釈を管理するために設計された現在の最先端技術には、前述の点群の特徴表現を手動で作成することが含まれます。点群を鳥瞰図に投影する方法もあれば、データを 3D ボクセル グリッドに変換し、各ボクセルを特定の特徴でエンコードする方法もあります。 Apple によれば、フィーチャ表現を手動で作成すると、そのようなシステムが 3D 形状情報を効率的に活用することが制限される「情報ボトルネック」が発生します。

代わりに、Zhou と Tuzel は、点群ベースの 3D 検出のためのトレーニング可能なディープ アーキテクチャの実装を提案しています。 VoxelNet と呼ばれるこのフレームワークは、ボクセル特徴エンコーディング (VFE) レイヤーを使用して、3D 形状を特徴付けるための複雑な特徴を学習します。特に、この技術は点群を 3D ボクセルに分割し、スタックされた VFE レイヤーを介してボクセルをエンコードし、ボリューム表現をレンダリングします。

テストでは、Apple の方法論が有望であることが示され、現在の LiDAR ベースの検出アルゴリズムや画像ベースのアプローチを「大幅に」上回りました。これは、Apple がプロセスを評価するために使用した KITTI 3D オブジェクト検出ベンチマークを通じて実行された評価によるものです。 VoxelNet は、さまざまなテストで 3 つの基本的な物体 (車、歩行者、自転車) を検出するように訓練されました。

理論的研究とは別に、Appleは現在自動運転車を評価中ですテストベッド同社の自動運転技術への取り組みは、ブランド化された自動運転車をゼロから構築することを目的とした「プロジェクト タイタン」構想の下で始まりました。多額の投資と複数の従業員の配置転換を経て、Titan は障害の数ソフトウェアとハ​​ードウェアのサポートなどの取り組みの残骸はありましたが、最終的に 2016 年末に凍結されました。アクティブなままにする

8月の報道によると、Appleはこのテクノロジーを活用して、自動運転シャトルこれにより、従業員がシリコンバレーのキャンパス間を移動できるようになります。

Apple の研究論文は自律車両ナビゲーションに重点を置いていますが、説明されている技術は、深度マッピング ハードウェアを使用して現実世界の物体を検出する拡張現実システムにも適用できます。新しいiPhone Xのスポーツ機器は、前面のTrueDepthカメラにLiDARアレイと同様の機能が搭載されており、正確な深度マッピング操作を実現する小型ドットプロジェクターが組み込まれています。 TrueDepth の範囲が拡張され、ポータブル デバイスの背面に取り付けられれば、高度なソフトウェアと組み合わせて、全く新しい消費者向け AR エクスペリエンスを強化できる可能性があります。