10 年前に iPhone が発売されたとき、基本的な写真は撮影できましたが、ビデオは撮影できませんでした。現在の iOS 11 は、深度、AI ビジョン、機械学習を備えた新しいレベルの画像キャプチャを実現しています。並行して、カメラが捉えたものとデバイスによって作成されたグラフィックスを統合する、拡張現実のための新しいプラットフォームをホストします。ここでその仕組みを見てみましょう。

この秋の iOS 11 リリースでは、カメラとイメージングに関連する一連の新しいアプリケーション プログラミング インターフェイス (API) が導入されました。 API を使用すると、サードパーティの開発者は Apple 独自のコード (フレームワークまたは「キット」と呼ばれることもあります) を利用して、独自のアプリで特殊な重労働を行うことができます。

新しい深度APIこれにより、開発者は、iPhone 7 Plus および 8 Plus のデュアル カメラの開発と調整における Apple の膨大な作業を比喩的に担うアプリを構築できます。これらのカメラは連携して動作し、画像の一部を選択的に調整するために使用される差分深度マップを構築できます。彼らはカメラから遠く離れています。

そしてその洗練されたビジョンフレームワークとCoreML, Appleは、開発者が事前に構築されたインテリジェンスのライブラリを利用して、カメラが捉えた顔、物体、テキスト、ランドマーク、バーコードを検出し、さらに既存の機械学習モデルに基づいてどのような物体であるかを特定できるようにしています。AR は、モーション センサー データとカメラからの視覚入力を組み合わせて使用​​し、ユーザーが空間内にレンダリングされた 3D グラフィックスを自由に探索できるようにします。

iOS 11 のインテリジェント カメラ イメージング API における 3 番目の主要な取り組みは、Apple が呼ぶ新しいフレームワークを使用して、サードパーティ開発者向けのプラットフォームとして拡張現実エクスペリエンスのレンダリングの作成をサポートします。ARKit

ARKit アプリの最もわかりやすい例は、カメラで見た現実世界にオーバーレイされるアニメーション グラフィックの合成 3D 世界を構築するゲームです。

AR では他にもさまざまなことが可能です。ガイド付きナビゲーションモデルの探索現実世界を測定し、マッピングする、カメラを隅に向けるだけで家の平面図を構築するなど。

AR は、実際の画像の上に 3D グラフィックスを単にオーバーレイするだけでなく、モーション センサー データとカメラからの視覚入力を組み合わせて使用​​し、ユーザーが空間内にレンダリングされた 3D グラフィックスを自由に探索し、複雑なアニメーション シーンをあらゆる角度から視覚化できるようにします。

スティーブ・ジョブズ氏がiPhone 4にCore Motionを導入

AR アプリ開発用のプラットフォームを提供することは、思っているよりも困難です。 ARKit は、2007 年に初代 iPhone に組み込まれ、傾きゲームや「シェイクして元に戻す」などのジェスチャを可能にした 3 軸加速度計から始まった、モーション センサーからのデータの最適化と追跡における Apple の 10 年間の経験に基づいて構築されています。

2010 年、iPhone 4 は 3 軸を備えた最初のスマートフォンを出荷しました。ジャイロスコープ。加速度計傾斜センサーとデジタル コンパスと連携することで、携帯電話に 6 軸のモーション検知と重力周りの回転を提供し、ゲームやユーティリティ アプリで新しいレベルの空間認識を可能にします。

スティーブ・ジョブズは、2010 年の WWDC のステージで、iPhone 4 のジャイロスコープによる空間内での位置決めを使用して、2 分間の贅沢なジェンガ ゲームをプレイするデモンストレーションを行いました。そこでは、彼の仮想ブロックの積み重ねが、単に左右に傾けられるのではなく、携帯電話の動きに合わせて回転することができました。

スティーブ・ジョブズは 2010 年に iPhone 4 ジャイロスコープと Core Motion API を導入しました

当時、これはエキサイティングな新機能であり、開発者聴衆、つまり正確な 6 軸モーション データにアクセスできるモバイル デバイスで何ができるかを知っていたエンジニアから歓声が上がりました。

モーション トラッキングの形式は、これまでにも、加速度計を備えた任天堂の Wii リモコンや、PS3 用のソニーの SIXAXIS ジャイロスコープ コントローラーなど、ビデオ ゲーム コンソールのコントローラーに導入されていました。しかし、Apple は主要な携帯ゲーム機が登場する前に iPhone 4 にジャイロスコープを追加しました。ソニーの PSP Go にはモーション センサーがなく、任天堂は翌年にモーション認識 3DS を出荷しただけです。

ジョブズ氏は、iPhone 4の新しいジャイロスコープは単なる空想的なハードウェアギミックではなく、「非常に正確な位置情報を提供する」新しいiOS Core Motion APIとともに提供されており、アプリ開発者がセンサーが記録したデータを使用する新しい方法を模索できると強調した。 。同氏はまた、新しいハードウェアがすべてのiPhone 4に搭載されることになるため、開発者がターゲットとする巨大で均一なインストールベースがすぐに構築されることになると強調した。

5 年間にわたる Core Motion の進化

Apple の当時新しい A4 カスタム シリコンは、より強力かつ洗練されたものになり続けました。 2013 年の 64 ビット、A7 搭載 iPhone 5 では、Apple はモーション センサーとデジタル コンパスの出力を効率的に監視するための新しい低電力 M7 モーション コプロセッサを導入しました。これにより、常に電源を入れなくてもバックグラウンドの Core Motion データを収集してレポートできるようになりました。 CPU。

フィットネス トラッキングに関連したモーション データの最も明白で価値のある用途の 1 つ。 iPhone 6 の M8 コプロセッサ コアは、階段を登ったり丘を駆け上がったりする際の標高の変化を追跡するための気圧計を追加することで、これを強化しました。

翌年、常時オンで電力効率の高い M9 コア モーション シリコンは、iPhone 6s の Hey Siri コマンドに応答するためにマイクを監視するというさらなる任務を負うことになりました。このテクノロジーは Apple Watch にも採用され、Siri とフィットネス トラッキングの両方が主要な機能となりました。

コアモーション + カメラビジョン = VIO

2015年にAppleが買収したメタイオは、拡張現実視覚化ツールを開発するフォルクスワーゲン社内プロジェクトから独立した会社です。 2013年の買収を含むこれまでの買収に加えて、プライムセンスそしてその後の Faceshift、そして昨年の Flyby Media を含むその後の買収により、Apple はモーション センシングとカメラの上に新しい 3D 世界を構築し、ナビゲートするために必要なスキルを習得していました。

3 億 8,000 万台の iPhone および iPad モデルがすでに AR エクスペリエンスを提供可能

最終的な目標には、iPhone X に内蔵された洗練された正面 TrueDepth センサーが含まれており、認証に革命を起こすユーザーの顔の特徴の詳細な 3D イメージングを使用します。ただし、Face ID とビデオでの顔の表情追跡のプラットフォームは、先進的な新しい携帯電話が来月出荷されるときにのみ開始されます。VIO を使用すると、システムは、上下、前後、内外、ピッチ、ヨー、ロールの 6 つの軸に沿ったデバイスの複雑な動きに従って、「6 自由度」でライブ視覚化できるアニメーション 3D グラフィックを作成できます。

同じテクノロジーの多くは、シングルカメラ AR の形で初期に登場しています。 iOS 11 の新機能により、少なくとも A9 チップ (3 億 8,000 万台以上の iPhone 6 以降の携帯電話および新しい iPad のベースとなる M9 Core Motion コプロセッサを組み込んだ) を搭載したデバイスは、情報と並行して位置追跡に使用するモーション センサー データを追跡できます。 VIO (Visual Inertial Odometry) と呼ばれる技術を使用してカメラから撮影されます。

VIO はカメラ データ (「視覚」) を分析して、デバイスがそのランドマークに対して空間内でどのように移動しているかを測定 (「オドメトリ」) するために使用できるランドマークを特定します。モーション センサー (「慣性」) データは、デバイスが空間内でどのように動いているかをよりよく理解するために、デバイスが見ているものと比較できる補足情報を提供する際の空白を埋めるために使用されます。

基本的に、VIO を使用すると、システムが 6 つの軸 (上下、前後、内外、ピッチ、ヨー、およびロール。

ARKit は 6 つの自由度で仮想 3D 世界を探索します

シーン理解と組み合わせると、カメラは現実世界の視覚的ランドマークを識別して、3D レンダリングされたグラフィック シーンの基礎として機能する水平面として定義できます。さらに、カメラは、適応照明と影をレンダリングするために使用される照明推定にも使用されます。その結果、カメラで捉えた現実世界のビデオの上に空間内にレンダリングされたフォトリアリスティックな 3D モデルが作成され、デバイスを傾けたり回転させたりするだけで、あらゆる角度から自由に見ることができます。

VIO を使用すると、ARKit アプリが壁、床、テーブルなどの表面を識別し、仮想オブジェクトを空間に配置できるようになります。ユーザーは、これらの表面上に構築されたコンピューター グラフィックスで拡張されたカメラに見える世界を確認し、同じ方法でそれらを自由に探索できるようになります。私たちは現実世界の物体や環境を、上、下、上、下、そしてその周りを周回することによって調べます。

Android が AR に従うのは難しいでしょう

AR の VIO は概念的に単純に聞こえるかもしれませんが、コア モーション センサーの正確な追跡と、ビデオ ストリームのフレーム全体にわたる何千もの移動ポイントの視覚分析が必要です。説得力のある AR エクスペリエンスをレンダリングするには、これらの山のデータを瞬時に計算し、その結果をリアルタイムでシーンの再描画に適用する必要があります。 ARKit には、Apple の最新 3 世代の A9、A10 Fusion、および A11 Bionic チップのレベルの非常に高速なシリコン ロジックが必要です。

過去 2 年間で、Apple はシングルカメラ VIO ベースの AR を処理できる iOS デバイスを 3 億 8,000 万台以上販売しました。ただし、2015 年の Android の主力製品は、Qualcomm と Samsung のチップを搭載していました。AppleのA9の約半分の速度

2 年前、Apple の A9 の優れた速度がなぜそれほど重要なのかはそれほど明らかではありませんでした。しかし現在、Android の ARKit に相当するものを実行できる同業他社はありません。 Googleは、当時自社のTegra K1とオーバークロックされたQualcomm Snapdragonチップの速さを叫び、「独自の」Nexus 6とNexus 9さえ放棄した。

2 年前、A9 の速度がなぜそれほど重要なのかは明らかではありませんでした

昨年販売された上位の Android であっても、シングルコアのパフォーマンスは A9 よりも大幅に遅かったです。また、VIO の計算ではマルチスレッドを使用して複数のコアを利用できるように見えますが、AR を実行するのに十分な速度のチップを搭載したプレミアム Android にとってのもう 1 つの問題は、通常、ベンダーが非常に高解像度のディスプレイを搭載しているため、より多くのディスプレイを搭載できることです。同じシーンをレンダリングするためだけの作業です。

Apple は、非常に高速なシリコンと管理可能な解像度を使用するディスプレイを組み合わせることで、AR プラットフォームを実行できる巨大な既存のインストール ベース全体に AR プラットフォームを迅速に展開できるようになりました。

Android 上の AR のより大きな問題は、カメラが認識する内容とモーション センサーが報告する内容の間に正確な精度が必要であることです。 Android は通常、超高解像度ディスプレイを駆動する低速チップの使用を余儀なくされているだけでなく、調整やサポートがより困難な、より多様なモーション センサーを使用するという点で断片化にも直面しています。

Google が独自の取り組みについて概説したとき、ARコアAndroid への開発では、HTC の Pixel と Samsung の S8 の 2 つのデバイスしかサポートできませんでした。これは、昨年販売されたデバイスの数が約 2,500 万台に過ぎず、これより大幅に少ないです。Apple の既存の iPhone インストールベースの 10 分の 1 の規模ARKit アプリを実行できます。

これらの図は単に次のことを説明しているだけであることに留意してください。潜在的な最大ユーザー数現在 AR アプリに興味があるかもしれない人。電話ケースと同様に、誰もが AR アプリを使いたがるわけではありません。しかし、電話ケースを購入する場合、iPhone の均一な設置ベースにより、特定の Android モデルに特化したものよりもはるかに幅広い選択肢が得られます。App Store の 2 倍の追跡可能なダウンロードを提供しているにもかかわらず、Google Play は収益の約半分しか得ていない

Windows Phone を使用している人なら誰でも共感できると思いますが、開発者が ARCore に投資するビジネス ケースを構築するには、その前に到達する必要があるクリティカル マスのしきい値があります。それがなかったら、たとえば、Galaxy フォン専用のアプリがもっと登場することになるでしょう。

開発者に次のような独自の API を採用するように誘導したり、金を払ったりしようとする長年の努力にもかかわらず、コード, サムスンは、自社ブランドのAndroidスマートフォンでのみ動作するアプリの支持を得ることができていない。息を切らした後発表「Samsung は Chord をアプリ開発者にとってトップの共有プロトコルにすることに全力で取り組んでいる」と述べていますが、この API は 2013 年のプレスリリースよりも長く存続していないようです。

iOS App StoreのAR

さらに、基本的な Android はすでに世界的に非常に大きなインストール ベースを持っていますが、iOS App Store と比べて収益性の高いアプリ プラットフォームとしての役割も果たせていません。 App Store の 2 倍の追跡可能なダウンロードを提供しているにもかかわらず、Google Play は収益の約半分しかもたらしません。その理由の 1 つは、Android ユーザーがアプリにお金を払うことを期待していないためです。これにより、Android アプリの性格は、ほとんど広告なしの無料モデルに変わりました。

昨年のウスツーゲームズ報告されましたiOS ユーザーの 40% が、受賞歴のあるタイトル「Monument Valley」のインストールに料金を支払ったのに対し、Android ユーザーの場合、料金を支払ったのはわずか 5% でした。残りは主に海賊版をダウンロードしていました。AR が Android に登場すると、広告に焦点が当てられる可能性が高い

ゲームの販売数 240 万件のうち、170 万件が iOS で販売されたのに対し、Google Play での販売は 0.3 件未満でした。開発者の収益の 80% 以上は iOS ユーザーからのものです。

これらの統計は、ゲーム、生産性向上アプリ、その他のモバイル ソフトウェア ツールが一般に iOS 専用に構築されているか、最初に iOS でリリースされ、後から広告付きのバージョンでのみ Android に導入されるのが一般的である理由に重要な役割を果たしています。

これは、AR が Android に登場するとき、実用性や、新しいテクノロジーで可能性の限界を押し広げる有料ゲームやエンタープライズ アプリではなく、広告に焦点を当てる可能性が高いことを意味します。

AppleのARは機能ではなくプラットフォームである

特に、私たちはこの夏を予測しましたAR エクスペリエンスを構築する際の Apple のアプローチ (標準の iOS カメラと深度の両方を使用) は、社内で実行される単なるトリックではなく、アプリ開発プラットフォームの一部です。

対照的に、今夏の Google IO では、同社は拡張現実、機械学習、光学式文字認識に基づく新しい Google レンズ機能を披露しましたが、これらをサードパーティ開発者プラットフォームとして実際に公開することはありませんでした。代わりに、これらはクラウドベースの Google サービスに組み込まれ、Android を Google 独自のサービス、有料配置広告、収益化に必要な監視追跡に結び付ける機能です。

Apple とは異なり、Google はアプリ プラットフォームによってサポートされるハードウェアの販売から収益を得ているわけではありません。 Googleは何年にもわたってモバイルアプリを軽視し、実際にアプリを使用する人は誰もいない、そしてGoogleにとってユーザーの行動を追跡し、その後収益化するのがはるかに簡単であるウェブの使用に皆が戻るべきであることを示唆する物語を作り上げてきました。これは、基本的に「なぜアプリが必要ですか?」と尋ねていた Microsoft の初期の Windows Phone 広告と似ています。

現実には、人々が iOS に惹かれ、Web ベースのコンテンツの一般的なストリームを表示できる PC、ネットブック、テレビのようなコモディティ デバイスとしてスマートフォンやタブレットを購入せずに、iOS を使い続ける主な理由は、サードパーティ ソフトウェアにあるということです。

Apple は、高度なカメラ イメージング、深度センシング、マシン ビジョン、AR のすべての取り組みを通じて、アプリがモバイル テクノロジーの利用方法の中心であり続けるよう取り組んでいます。今のところ、その戦略は成功しています。

ただし、AR にはもう 1 つのフロンティアが展開されようとしています。次の記事で概説するように、Google が模倣するのが難しい方法で話題にするためだけに、これは極秘に守られてきました。