アップルAI研究により、与えられたコンテキストを大規模言語モデルで解析しやすいテキストに変換することで、Siri へのコマンドの送信をより高速かつ効率的に行うモデルが明らかになりました。
Apple における人工知能の研究は続く出版されている同社は 6 月に AI イニシアチブを一般公開する予定であり、WWDC。これまでにさまざまな研究が発表されており、その中には画像アニメーションツール。
の最新の論文だった最初に共有されたによるベンチャービート。この論文では、ReALM (言語モデリングとしての参照解決) と呼ばれるものについて詳しく説明しています。
ユーザーが「これ」または「あれ」と言うような曖昧な言語入力に基づいてコンピューター プログラムにタスクを実行させることを、参照解決と呼びます。コンピューターは人間のように画像を解釈できないため、これを解決するのは複雑な問題ですが、Apple は LLM を使用して合理化された解決策を見つけた可能性があります。
次のようなスマートアシスタントと話すときシリ、ユーザーは、バックグラウンド タスク、ディスプレイ上のデータ、その他の非会話型エンティティなど、対話するために任意の数のコンテキスト情報を参照する可能性があります。従来の解析方法は、信じられないほど大規模なモデルと画像などの参照資料に依存していましたが、Apple はすべてをテキストに変換することでアプローチを合理化しました。
Apple は、自社の最小の ReALM モデルが GPT-4 と同様のパフォーマンスを示し、パラメーターがはるかに少ないため、オンデバイスでの使用に適していることを発見しました。 ReALM で使用されるパラメータを増やすと、ReALM のパフォーマンスは GPT-4 を大幅に上回りました。
このパフォーマンス向上の理由の 1 つは、GPT-4 が画面上の情報を理解するために画像解析に依存していることです。画像トレーニング データの多くは、テキストで埋められた人為的なコードベースの Web ページではなく、自然の画像に基づいて構築されているため、直接 OCR は効率が低くなります。
画面キャプチャ データをテキストとして表現します。出典: Apple の調査
画像をテキストに変換すると、ReALM はこれらの高度な画像認識パラメータの必要性を省略できるため、ReALM のサイズが小さくなり、より効率的になります。 Apple はまた、デコードを制限したり、単純な後処理を使用したりする機能を組み込むことで、幻覚の問題を回避しています。
たとえば、Web サイトをスクロールしていて、お店に電話したいと思った場合、「お店に電話して」と言うだけで、Siri はコンテキストを考慮してその意味を解析する必要があります。ページ上にビジネス番号としてラベル付けされた電話番号があることを「確認」し、ユーザーにそれ以上のプロンプトを表示せずにその電話番号に電話をかけることができます。
Apple は、総合的なAI戦略WWDC 2024 中に。噂によると同社は、プライバシーとセキュリティを維持する小型のオンデバイス モデルに依存することになります。ライセンス取得中倫理的な難問に満ちた、より物議を醸しているオフデバイス処理用の他社の LLM。