Apple はトレーニングに使用されるデータに料金を払って大儲けしたアップルインテリジェンス, しかし、同社が利用していたある会社は、YouTubeビデオを盗用した疑いで告発されている。
すべての生成 AI は、大規模言語モデル (LLM) と呼ばれる巨大なデータセットを蓄積することによって機能し、多くの場合、そのデータのソースが物議を醸している。 Appleはその情報源は倫理的であると繰り返し主張しており、代金を支払ったことが知られているほどだ。出版社に数百万ドル、 そしてライセンスのある画像写真ライブラリ会社から。
によると有線、 しかし、1つの会社Apple が使用したデータは、その情報源についてそれほど慎重ではなかったようです。 EleutherAI は Pile と呼ばれるデータセットを作成したと伝えられており、Apple はこれを LLM トレーニングに使用していると報告しています。
ただし、パイルの一部は YouTube 字幕と呼ばれ、許可なく YouTube 動画からダウンロードされた字幕で構成されます。これは YouTube の利用規約にも違反しているようですが、それは必要以上にグレーゾーンである可能性があります。
Apple のほかに、Pile を使用した企業には Anthropic が含まれますが、同社の広報担当者は、YouTube の字幕の使用とビデオの使用には違いがあると主張しました。
「パイルには YouTube の字幕のごく一部が含まれています」とジェニファー・マルティネス氏は語った。 「YouTube の規約には、そのプラットフォームの直接使用が含まれており、Pile データセットの使用とは異なります。」
「YouTubeの利用規約に違反する可能性については、Pileの作者に紹介する必要があるでしょう」と彼女は続けた。
セールスフォースはまた、「学術および研究目的」のAIモデルの構築にPileを使用したことを認めた。 SalesforceのAI研究担当副社長は、Pileのデータセットは「一般公開されている」と強調した。
伝えられるところによると、Salesforce の開発者らは、Pile データセットに冒涜的な表現に加えて、「性別や特定の宗教グループに対する偏見」が含まれていることも発見しました。
これまでのところ、Pile の使用についてコメントしている企業は Salesforce と Anthropic だけです。 Apple、Nvidia、Bloomberg、Databricks がこれを使用したことが知られていますが、いずれも対応していません。
Apple Intelligence は Apple 版の AI です
団体 Proof News は、48,000 以上のチャンネルからの 173,536 本の YouTube 動画の字幕がパイルで使用されていることを発見したと主張しています。使用されたビデオには、Marques Brownlee (MKBHD) による 7 件と PewDiePie による 337 件が含まれます。
Proof News が作成したオンラインツールYouTuber が自分の作品が使用されているかどうかを確認できるようにします。
しかし、無断で収集されているのはYouTubeの字幕だけではありません。欧州議会からの文書と同様に、ウィキペディアが使用されたと主張されています。
学者や数学者さえも、これまで統計分析のために数千件のエンロンスタッフの電子メールを使用してきました。現在、Pile はそれらの電子メールのテキストをトレーニングに使用したと主張されています。
Apple の生成 AI は、唯一のものそれは法的かつ倫理的に訓練されたものです。しかし、Apple の意図にもかかわらず、Apple Intelligence は、権利のない YouTube の字幕について訓練を受けてきたようです。