Apple の研究者たちは、より柔軟で強力な機械学習および「AI」タイプのシステムを可能にする大規模言語モデル (LLM) を迅速にトレーニングする新しいマルチモーダルな方法を発見しました。
あ研究論文今週初めに同社が調査サイト arxiv.org に投稿した記事では、Apple が画像キャプション、インターリーブされた画像テキスト、およびテキストのみのデータのいわゆる「慎重な組み合わせ」を使用して LLM をトレーニングしていることが明らかになりました。視覚データと言語データを組み合わせることで、モデルは画像にインテリジェントにキャプションを付けたり、自然言語の意味を推測したりするタスクを処理できるようになりました。
研究の一環として、画像エンコーダの選択とそれが処理する画像の解像度が、ビジョン言語コネクタの設計よりもパフォーマンスに大きな影響を与えることが判明しました。
ある例では、300 億パラメータの MM1 モデルを使用したところ、強力なコンテキスト内学習能力があることが判明しました。この発見は、ほとんどの「思考連鎖」プロンプトを使用せずに、複数の画像に対して多段階の推論を実行できることを意味します。
によるとベンチャービート、アップルは継続中その伝統画期的なテクノロジーに関しては、「先手」ではなく「追随者」になることです。最高経営責任者(CEO)ティム・クックは最近、同社が既存のテクノロジーに「AI」を組み込むために年間10億ドルを費やしていることを認めた。
クック氏は、同社が「今年後半にAI分野で進行中の取り組みの詳細」を共有すると述べた。 Apple は、その進歩について何らかの発表を行う予定です。WWDC今年の6月。
会社は両方です追いつくAI関連技術の活用でライバルに差をつける。また、既存の機械学習能力を強化しながら、ユーザーのプライバシーを保護する方法も開発中です。
プライバシーとセキュリティに対する後者の懸念は、既存の「チャットボット」タイプのサービスの特徴ではなく、Apple にとっての課題を増大させています。
Apple はニューラル ネットワークのマルチモデル トレーニングに関心を持っているため、最先端のパフォーマンスが得られ、複数ステップの推論が可能になりました。これは、同社が機械学習能力を急速に進歩させ、高度な「インテリジェンス」能力を与える道を見つけたことを示唆しています。