Apple とコーネル大学の研究者らは、10 月にオープンソースのマルチモーダル LLM を密かに推進し、クエリに画像の領域を使用できる「Ferret」と呼ばれる研究リリースをリリースしました。

10月のご紹介Githubへ導入のアナウンスやファンファーレもなく、ほとんど注目を集めませんでした。 Ferret のコードは 10 月 30 日に Ferret-Bench とともにリリースされ、チェックポイント リリースは 12 月 14 日に導入されました。

当初はあまり注目を集めませんでしたが、このリリースは土曜日に AI 研究者にとってさらに大きな問題となりました。レポート ベンチャービート。医療における AI を活用する非営利団体の運営者 Bart De Witte 氏は、Xに投稿しました「見逃した」リリースについては、これを「影響力のあるAI研究に対するAppleの取り組みの証し」と呼んだ。

Ferret のオープンソース化は非営利ライセンスに基づいて行われているため、このままでは商用化できません。ただし、将来の Apple 製品またはサービスで何らかの形で使用される可能性は常にあります。

ツイート10月からアップルAI/ML 研究科学者 Zhe Gan 氏は、Ferret の使用法を、画像内の「あらゆる場所を任意の粒度で参照および接地できる」システムであると説明しています。画像内の任意の形状の領域を使用してこれを行うこともできます。

より簡単に言うと、モデルは画像上に描画された領域を調べ、クエリでユーザーに役立つその領域内の要素を特定し、検出された要素の周囲に境界ボックスを描画できます。その後、識別された要素をクエリの一部として使用し、通常の方法で応答できます。

たとえば、画像内の動物の画像を強調表示し、LLM にその動物が何であるかを尋ねると、その生き物の種類と、ユーザーがグループの中の個々の動物を指していることがわかります。その後、画像内で検出された他のアイテムのコンテキストを使用して、さらなる応答を提供する可能性があります。

このリリースは、Apple が通常の秘密主義的な姿勢ではなく、AI の研究に関してよりオープンになることに熱心であることを示しているため、研究者にとって重要です。

Apple はインフラストラクチャの問題もあります。AIサーバーそれは所有していますが、現時点では、たとえば ChatGPT と完全に連携できる規模を備えていない可能性があります。 Apple は他の企業と協力してその機能を拡張することもできるが、もう 1 つの方法は、Apple が行ったことと同じこと、つまりオープンソース モデルをリリースすることである。

Github リリースの興味深い要素の 1 つは、レディットのr/アップル斑点のあるFerret は「80 GB メモリを搭載した 8 つの A100 GPU でトレーニングされている」ということです。 Appleの歴史を考えると、Nvidia GPUのサポート、これは GPU プロデューサーの珍しい承認であると見られました。