Appleは先週、初の学術研究論文を発表した。この論文は、コンピュータビジョンシステムの認識を改善する方法を取り上げたもので、伝統的に秘密主義だった同社に新たな方向性を示すものだった。
「敵対的トレーニングによるシミュレートされた教師なし画像からの学習」というタイトルの論文が審査のために提出されました11月中旬12月22日にコーネル大学図書館を通じて出版物を見る前に。
Appleの記事が到着1ヶ月未満同社は従業員が人工知能に関する研究を発表することを今後禁じないと発表した後。
発見者フォーブス 月曜日にApple の最初の公開研究論文では、合成画像 (コンピューター生成画像) を使用してオブジェクトを認識するコンピューター ビジョン アルゴリズムをトレーニングする手法について説明しています。
コンピュータで生成された画像には通常ラベルが付けられるため、現実世界の画像のみに基づいてモデルをトレーニングする場合と比較して、合成データを利用するモデルの方が効率的であることがよくあります。たとえば、目や手の合成画像にはそのような注釈が付けられますが、同様の素材を描いた現実世界の画像はアルゴリズムでは未知であるため、人間のオペレーターが説明する必要があります。
ただし、Apple が指摘したように、コンピューターで生成されたコンテンツは正確な学習セットを提供するには十分に現実的ではないため、シミュレートされた画像に完全に依存すると満足のいく結果が得られない可能性があります。このギャップを埋めるために、Apple は「シミュレーション + 教師なし学習」を通じてシミュレーターの出力を改良するシステムを提案しています。
実際には、S+U 学習のこの特定の特徴は、ラベルのない実際の画像データと注釈付きの合成画像を組み合わせます。この技術は主に敵対的生成ネットワーク (GAN) に基づいており、二人が競うニューラル ネットワーク (ジェネレーターとディスクリミネーター) を相互に比較し、生成されたデータを実際のデータからより適切に識別します。かなり最近の開発であり、そのプロセスは成功を見たフォトリアリスティックな「超解像度」画像の生成に。
必ずしも今後の消費者向けテクノロジーを予見しているわけではありませんが、Apple が修正された GAN を視線と手の姿勢推定の評価に適用することを選択したことは興味深いことです。さらに同社は、いつかS+U学習を静止画像からビデオ入力に移行したいと述べている。
Apple初の公開研究論文は視覚専門家によって執筆されたアシシュ・シュリヴァスタヴァそして、Tomas Pfister、Onsel Tuzel、Wenda Wang、Russ Webb、そして Apple の人工知能研究担当ディレクターである Josh Susskind を含むエンジニアのチームです。注目すべきは、サスキンド氏が今月初めにアップルが学術分野への新たな関心を示したことを発表しており、これが今後の採用活動に役立つと一部の人が信じている動きだ。