Apple の Ferret LLM は、シリiPhone ディスプレイ内のアプリのレイアウトを理解できるようになり、Apple のデジタル アシスタントの機能が向上する可能性があります。
Apple は数多くの機械学習に取り組んできました。AIプロジェクトそれそれはからかう可能性がありますでWWDC2024年。発表されたばかりの論文によると、その研究の一部にはSiriがアプリやiOS自体がどのようなものかを理解できる可能性があるようだ。
コーネル大学が発表した論文月曜日に、タイトルは「Ferret-UI: マルチモーダル LLM を使用したグラウンデッド モバイル UI の理解」です。これは基本的に、モバイル ディスプレイのユーザー インターフェイスを理解できる可能性のある新しいマルチモーダル大規模言語モデル (MLLM) について説明しています。
Ferret という名前は、もともとオープンソースのマルチモーダル LLM に由来しています。10月に発売、コーネル大学の研究者が、Apple の研究者と共同で研究したものです。当時、Ferret は、写真の選択された部分に含まれる動物の種類を識別するなど、複雑なクエリに対して画像のさまざまな領域を検出して理解することができました。
LLM の進歩
Ferret-UI に関する新しい論文では、MLLM の使用法には注目に値する進歩があったものの、「ユーザー インターフェイス (UI) 画面を理解し効果的に操作する能力がまだ不足している」と説明されています。 Ferret-UI は、モバイル UI 画面を理解するために調整された新しい MLLM であり、「参照、根拠付け、推論機能」を備えていると説明されています。
LLM がモバイル ディスプレイのインターフェイスを理解する際に抱えている問題の 1 つは、そもそもインターフェイスがどのように使用されるかということです。多くの場合、縦向きでは、アイコンやその他の詳細がディスプレイの非常に小さな部分を占めることが多く、マシンが理解しにくくなります。
これを支援するために、Ferret には画像を「任意の解像度」に拡大してアイコンやテキストを読みやすくする拡大システムがあります。
iPhoneのディスプレイを解析するFerret-UIの例
処理とトレーニングのために、Ferret は画面を 2 つの小さなセクションに分割し、画面を半分に切ります。この論文では、他の LLM は低解像度のグローバル画像をスキャンする傾向があるため、アイコンがどのようなものであるかを適切に判断する能力が低下すると述べています。
トレーニング用のデータを大幅に収集することにより、ユーザーのクエリを十分に理解し、画面上のさまざまな要素の性質を理解し、状況に応じた応答を提供できるモデルが完成しました。
たとえば、ユーザーがリマインダー アプリの開き方を尋ねると、画面上の [開く] ボタンをタップするように指示される可能性があります。 15 歳がアプリを使用できるかどうかを尋ねるさらなるクエリでは、ディスプレイに表示されている場合は年齢ガイドラインを確認できます。
補助的なアシスタント
Siri のようなシステムに組み込まれるかどうかはわかりませんが、Ferret-UI は、デバイスの高度な制御の可能性を提供します。iPhone。ユーザー インターフェイス要素を理解することで、Siri がアプリ内のグラフィック要素を独自に選択することで、アプリ内でユーザーにアクションを実行できる可能性が提供されます。
視覚障害者向けの便利なアプリケーションもあります。このような LLM は、画面に表示されている内容をより詳細に説明できる可能性があり、ユーザーがアクションの実行を要求する以外に何もする必要がなく、ユーザーに代わってアクションを実行できる可能性があります。