Apple と Nvidia のコラボレーションにより、AI モデルの作成速度が 3 倍になりました

Apple の最新の機械学習研究により、以下のモデルの作成が可能になる可能性があります。アップルインテリジェンスNvidia GPU を使用するときにトークンの生成速度をほぼ 3 倍にする技術を考案することで、より高速化できます。

Apple Intelligence など、AI ベースの機能を提供するツールやアプリの大規模言語モデル (LLM) を作成する際の問題の 1 つは、そもそも LLM の作成が非効率であることです。機械学習用のモデルのトレーニングはリソースを大量に消費し、時間がかかるプロセスですが、多くの場合、より多くのハードウェアを購入し、エネルギーコストの増加を負担することで対処できます。

2024 年の初めに、Apple はトレーニングのパフォーマンスを向上させるための投機的デコード手法である ReDrafter として知られる Recurrent Drafter を公開し、オープンソース化しました。複数のパスからのドラフト トークンを予測および検証するために、ビーム検索と動的ツリー アテンションを組み合わせた RNN (リカレント ニューラル ネットワーク) ドラフト モデルを使用しました。

これにより、一般的な自動回帰トークン生成手法と比較して、LLM トークンの生成が生成ステップあたり最大 3.5 倍高速化されました。

役職Apple の機械学習研究サイトでは、既存の研究と並行して、アップルシリコン、それだけではありませんでした。水曜日に公開された新しいレポートでは、チームが ReDrafter を作成する際に研究をどのように適用し、Nvidia GPU で使用できる実稼働環境にするかを詳しく説明しました。

Nvidia GPU は、LLM 生成に使用されるサーバーでよく使用されますが、高性能ハードウェアには高額なコストがかかることがよくあります。マルチ GPU サーバーにコストがかかることは珍しいことではありません250,000ドルを超える必要なインフラストラクチャやその他の関連コストは言うまでもなく、ハードウェアのみに相当します。

Apple は Nvidia と協力して、ReDrafter を Nvidia TensorRT-LLM 推論高速化フレームワークに統合しました。 ReDrafter は他の投機的デコード手法では使用されなかった演算子を使用しているため、Nvidia はそれを機能させるために追加の要素を追加する必要がありました。

その統合により、仕事で Nvidia GPU を使用している ML 開発者は、Apple Silicon を使用している開発者だけでなく、実稼働環境で TensorRT-LLM を使用しているときに ReDrafter の高速トークン生成を使用できるようになります。

Nvidia GPU で数百億パラメータの本番モデルのベンチマークを行った結果、グリーディ エンコーディングでは 1 秒あたりの生成トークンの速度が 2.7 倍向上しました。

その結果、このプロセスを使用してユーザーの待ち時間を最小限に抑え、必要なハードウェアの量を削減できることがわかります。つまり、ユーザーはクラウドベースのクエリからより高速な結果を期待でき、企業はより少ない費用でより多くのサービスを提供できるようになります。

エヌビディアでは技術ブログこのテーマに関して、グラフィックス カード メーカーは、コラボレーションにより TensorRT-LLM が「より強力かつより柔軟になり、LLM コミュニティがより洗練されたモデルを革新し、それらを簡単に導入できるようになった」と述べました。

このレポートのリリースはAppleに続いて行われる公的に確認された同社は、Apple Intelligence 機能で使用するモデルをトレーニングするために Amazon の Trainium2 チップを使用する可能性を調査していました。当時、このチップを使用した事前トレーニングにより、既存のハードウェアと比較して効率が 50% 向上すると予想していました。