Apple の機械学習ブログへの最新の寄稿では、「Hey Siri」コマンドの背後にあるソフトウェアがどのように機能するのか、そして同社がニューラル ネットワークをどのように使用して音声の音響パターンを変換し、背景から音声を除去するのかについて詳しく説明しています。

新しい記事水曜日に出版された主に、iPhone または Apple Watch 上で直接実行される Siri の部分に焦点を当てています。特に、検出器に焦点を当てています。これは常にウェイクアップ フレーズだけをリッスンしますが、他のノイズにも対処する必要がある特殊な音声認識装置です。

Apple は、iPhone または Apple Watch のハードウェアがあなたの声を 1 秒あたり 16,000 の速度で瞬間的な波形サンプルのストリームに変換すると述べています。一度に約 0.2 秒の音声が「ディープ ニューラル ネットワーク」に供給され、そこで聞いているものが分類され、聞いているものが起動フレーズであるかどうかの可能性がオペレーティング システムの残りの部分に渡されます。

Apple は感度に関していくつかのしきい値を設定しています。スコアが中央値の範囲内にある場合、ソフトウェアはもう一度そのフレーズを数秒間注意深く聞き、再度聞き逃さないようにします。

最初のアクティベーションの後、波形は Siri サーバーに到着します。メインの音声認識装置が「Hey Siri」以外の音声 (たとえば、「He​​y Seriously」) として聞き取ると、サーバーは電話機をスリープ状態に戻すためのキャンセル信号を送信します。

言語固有の音声仕様も統合されており、Apple は「シリア」と「深刻な」という単語が周囲のフレーズとのコンテキストで検査されることに注目しています。

Apple Watch には、バッテリーがはるかに小さく、処理能力もそれほど強力ではないため、いくつかの特別な課題があります。こうした問題を回避するために、Apple Watch の「Hey Siri」検出機能は、時計のモーション コプロセッサが手首を上げるジェスチャを検出した場合にのみ実行され、画面がオンになります。

Apple の Machine Language Journal は継続されました7月19日、最初の投稿では、「合成画像のリアルさを向上させる「照合された画像を使用したニューラル ネットワーク トレーニングについて説明しています。最初の部分では、大量のトレーニング情報が必要なデータ セットの例として目と視線を使用しましたが、そのデータを収集することが難しいため、効率的な機械学習の妨げになる可能性があります。」

Apple は、機械学習の研究者、学生、エンジニア、開発者を招待し、プログラムに関する質問やフィードバックをお寄せください。

このサイトは、研究者が発見したものを公開し、研究内容を学界全体と議論できるようにするというアップルの約束の一環とみられる。 Appleの方針の大転換が発表された12月にApple 人工知能研究ディレクター、ラス・サラクディノフ氏による。