Apple は、カリフォルニア大学の研究者と協力して、誰でも試せる独自の AI ベースの画像編集モデルをリリースしました。
このモデルは「MGIE」と呼ばれており、MLLM-Guided Image Editingの略で、ユーザーは自然言語の指示に基づいて画像を編集できます。テキスト、写真、ビデオなどのさまざまな種類の情報を組み合わせたマルチモーダル大規模言語モデル (MLLM) を活用して、人間のような言語を理解して生成します。
MLLM に関する研究では、画像の理解と生成において有望な結果が示されていますが、まだ広く実装されていません。
MGIE は、2024 年学習表現国際会議で論文として発表されました。紙MGIE が競争力のある推論効率を維持しながら、自動メトリクスと人間による評価をどのように改善できるかを紹介します。
MGIE は MLLM を利用して、ユーザー入力から表現豊かな指示を導き出します。ベンチャービートオファー例:ユーザーが MGIE に「空をもっと青くする」と指示すると、MGIE はこれを「空の領域の彩度を 20% 増やす」と解釈します。
MGIE が自然言語を解釈する方法 |画像クレジット: Apple、カリフォルニア大学サンタバーバラ校
次に、自然言語入力から命令が導出されると、画像の編集バージョンが生成されます。色の調整から画像の一部の生成や削除まで、幅広い編集に使用できます。
MGIE はオープンソースであり、GitHub で誰でも試すことができます。のGitHubページこれにより、ユーザーはコード、データ、事前トレーニングされたモデルを入手できるようになります。
画像生成の速度は、ハードウェアのパフォーマンスに応じて大きく異なります。また、このようなモデルは非常に RAM を消費します。
Appleはしばらくの間、AI支援機能の開発に水面下で取り組んできた。1月には、iOS 17.4ベータ版のコードは、AppleがAIを活用した新しいバージョンの開発に取り組んでいることを示唆していた。シリ。
Appleの株価がこのところ急落しているのは、アナリストが同社が生成AIの実装においてメタ、グーグル、マイクロソフトに遅れをとっていると高らかに宣言したことも一因だ。これが携帯電話、タブレット、スマートウォッチ、VR ヘッドセットではなく、生成 AI ではなぜ問題にならなかったのかは不明です。
おそらくそれらのアナリストを思いとどまらせるため、Apple CEOティム・クックAppleは最近、今後数カ月以内に発表されるAI機能に「膨大な時間と労力」を費やしていると述べた。彼も注目されましたApple が社内で生成 AI に取り組んでいること。