Apple の申請により Podcast が次のレベルへ

最近公開された提出書類が発見されましたAppleInsiderこの論文は、ポッドキャストをその静的な形式を超えて、教育機関や企業が日常のプレゼンテーションに使用するのに適したライブのインタラクティブなプレゼンテーション媒体に進化させるための Apple のチーフソフトウェアアーキテクトの取り組みを明らかにしています。

「教室での講義やその他のプレゼンテーションのポッドキャストは通常、講師のビデオフィードとプレゼンテーション中のスライド（またはその他のコンテンツ）の間でフォーカスを切り替えるために手動で編集する必要があります」とAppleのソフトウェアエンジニアリング担当シニアバイスプレジデントのBertrand Serlet氏は書いています。 15ページのファイリングに記載されています。「毎日多くのプレゼンテーションが行われる学校や企業では、ポッドキャストの編集には専任の人員が必要であり、法外な費用がかかる場合があります。」

この問題を解決するために、Serlet 氏は、プレゼンターのライブカメラフィードを Keynote または PowerPoint プレゼンテーションと自動的にマージして、視聴者がプレゼンターのスライドを視聴できるようにする、面白くてダイナミックなポッドキャストを形成できる自動コンテンツキャプチャおよび処理システムを提案しています。プレゼンターとしても。

出願書類で概要が説明されている一例では、コンテンツキャプチャシステムは、ビデオストリーム (ストリーム A) と基調講演ストリーム (ストリーム B) を、専用のポッドキャスト作成ソフトウェアを実行する Mac などの記録エージェントに提供します。次に、録画エージェントは特定の合図に基づいて 2 つのフィードを混合し、結合したフィードをシンジケーションサーバーに送信します。シンジケーションサーバーは、ビデオを任意の数の許可された Mac、iPod、または iPhone に Podcast としてワイヤレスで配信します。

Serlet 氏はまた、シンジケーションサーバーには、ストリーム A および/または B に 1 つ以上の操作を適用して、トランジション、エフェクト、タイトル、グラフィックス、オーディオ、ナレーション、アバター、アニメーション、など。

たとえば、アプリケーションによって出力されたコンテンツストリーム (たとえば、ストリーム B) を背景 (たとえば、フルスクリーンモード) として表示し、その背景の上に小さなピクチャインピクチャ (PIP) ウィンドウを重ねてビデオカメラの出力を表示することができます (たとえば、、ストリームA）」と彼は書いた。「ストリーム B のスライドが所定の時間間隔 (たとえば 15 秒) 変化しない場合 (たとえば、「トリガーイベント」)、ストリーム A を操作できます (たとえば、ディスプレイ上で全画面に拡大縮小)。仮想ズーム (例: Ken Burns 効果) またはその他の効果をストリーム A に適用して、環境 (例: 教室、講堂、講堂) 内のインストラクターまたは他のオブジェクト (例: 聴衆) をクローズアップすることができます。スタジオ）。"

また、Apple 幹部は、たとえばキャプチャシステムを使用して、プレゼンテーションを行う講師の活動パターンやプレゼンテーションを見ている聴衆の反応のパターンなど、トリガーイベントを実際のプレゼンテーション環境からキャプチャできることも説明しました。

「インストラクターは、特定のジェスチャーや動作（例：ビデオカメラで撮影）をしたり、特定の単語、コマンドやフレーズを話したり（例：音声断片としてマイクで撮影）、または話す前に長い休止を取ることができます。これらすべてが可能です。操作をトリガーするために使用できるイベントをストリーム A に生成します」と彼は書いています。

「例示的なシナリオの 1 つでは、デフォルトで講師のビデオを全画面で表示できます。しかし、講師がプレゼンテーションのスライドを読むために聴衆に背を向けていることをキャプチャシステムが検出した場合、そのようなアクションが検出される可能性があります。」ビデオストリーム内で、ストリーム A またはストリーム B に 1 つ以上の操作を適用するために使用されます。これには、インストラクターが読み上げているスライドが視聴者に全画面で表示されるようにストリーム B をズームするなどがあります。

サーレット氏は、提出書類全体を通じて、「イベント検出器」によってイベントとして捕捉および検出できるプレゼンテーションポインター (レーザーポインターなど) の動きなど、他のいくつかの潜在的なトリガーイベントの例を概説しました。たとえば、スライドに対するレーザーポインタの方向は、インストラクターがスライドの特定の領域について話していることを示すことができます。したがって、一実施形態では、操作は、スライドを視聴者に表示することであってもよい。

「レーザーポインタの動きは、ピクセルデバイス上のレーザーの赤い点を分離し、その動き（セントロイド化など）を追跡できるAVSRソフトウェアまたは他の既知のパターンマッチングアルゴリズムを使用して、ビデオストリーム内で検出できます。」と彼は付け加えた。「赤い点が検出された場合、ビデオまたはアプリケーションストリーム上でスライドを切り替えたり、その他の操作を実行したりできます。あるいは、レーザーポインタは、起動時に信号 (無線周波数、赤外線など) を発し、それを適切な機器が受信できます。」キャプチャシステム内の受信機 (例: ワイヤレストランシーバー) であり、1 つまたは複数の操作を開始するために使用されます。

他のいくつかの実装では、ストリーム内の状態変化の検出を使用して、何がストリームからキャプチャされ、最終的なメディアファイルまたはポッドキャストで表示されるかを決定します。たとえば、インストラクターが新しいスライドに移行すると、インストラクターのカメラフィードからスライドに戻る可能性があります。新しいスライドがインストラクターによって提示されると、そのスライドを含むアプリケーションストリームがデフォルト設定として最初に表示され、その後、第 1 の所定の時間が経過すると、インストラクターを表示するビデオストリームにそれぞれ切り替わります。他の実装形態では、第２の所定の時間が経過した後、ストリームをデフォルト構成に戻すことができる。

Serlet 氏は、次世代ポッドキャストのコンセプトをさらに一歩進めて、キャプチャシステムには、環境内を移動するインストラクターを追跡できるビデオカメラが含まれる可能性があると続けました。カメラは、人間のオペレーターによって、または既知の位置検出技術を使用して自動的に移動させることができます。カメラの位置情報は、ストリーム上の操作をトリガーしたり、何がキャプチャされて最終的なメディアファイルやポッドキャストに表示されるかを決定したりするために使用できます。

Serletのコンセプトは、Apple従業員が最近の特許出願で提案した少なくとも3つのPodcast拡張機能のうちの1つであることに注意すべきであるが、現時点ではどれも実現していない。その他には以下が含まれます：パーソナライズされたオンデマンドのポッドキャストそしてポッドマップ。