「教室での講義やその他のプレゼンテーションのポッドキャストは通常、講師のビデオフィードとプレゼンテーション中のスライド(またはその他のコンテンツ)の間でフォーカスを切り替えるために手動で編集する必要があります」とAppleのソフトウェアエンジニアリング担当シニアバイスプレジデントのBertrand Serlet氏は書いています。 15ページのファイリングに記載されています。 「毎日多くのプレゼンテーションが行われる学校や企業では、ポッドキャストの編集には専任の人員が必要であり、法外な費用がかかる場合があります。」
この問題を解決するために、Serlet 氏は、プレゼンターのライブ カメラ フィードを Keynote または PowerPoint プレゼンテーションと自動的にマージして、視聴者がプレゼンターのスライドを視聴できるようにする、面白くてダイナミックなポッドキャストを形成できる自動コンテンツ キャプチャおよび処理システムを提案しています。プレゼンターとしても。
出願書類で概要が説明されている一例では、コンテンツ キャプチャ システムは、ビデオ ストリーム (ストリーム A) と基調講演ストリーム (ストリーム B) を、専用のポッドキャスト作成ソフトウェアを実行する Mac などの記録エージェントに提供します。次に、録画エージェントは特定の合図に基づいて 2 つのフィードを混合し、結合したフィードをシンジケーション サーバーに送信します。シンジケーション サーバーは、ビデオを任意の数の許可された Mac、iPod、または iPhone に Podcast としてワイヤレスで配信します。
Serlet 氏はまた、シンジケーション サーバーには、ストリーム A および/または B に 1 つ以上の操作を適用して、トランジション、エフェクト、タイトル、グラフィックス、オーディオ、ナレーション、アバター、アニメーション、など。
たとえば、アプリケーションによって出力されたコンテンツ ストリーム (たとえば、ストリーム B) を背景 (たとえば、フル スクリーン モード) として表示し、その背景の上に小さなピクチャ イン ピクチャ (PIP) ウィンドウを重ねてビデオ カメラの出力を表示することができます (たとえば、 、ストリームA)」と彼は書いた。 「ストリーム B のスライドが所定の時間間隔 (たとえば 15 秒) 変化しない場合 (たとえば、「トリガー イベント」)、ストリーム A を操作できます (たとえば、ディスプレイ上で全画面に拡大縮小)。仮想ズーム (例: Ken Burns 効果) またはその他の効果をストリーム A に適用して、環境 (例: 教室、講堂、講堂) 内のインストラクターまたは他のオブジェクト (例: 聴衆) をクローズアップすることができます。スタジオ)。"
また、Apple 幹部は、たとえばキャプチャ システムを使用して、プレゼンテーションを行う講師の活動パターンやプレゼンテーションを見ている聴衆の反応のパターンなど、トリガー イベントを実際のプレゼンテーション環境からキャプチャできることも説明しました。
「インストラクターは、特定のジェスチャーや動作(例:ビデオカメラで撮影)をしたり、特定の単語、コマンドやフレーズを話したり(例:音声断片としてマイクで撮影)、または話す前に長い休止を取ることができます。これらすべてが可能です。操作をトリガーするために使用できるイベントをストリーム A に生成します」と彼は書いています。
「例示的なシナリオの 1 つでは、デフォルトで講師のビデオを全画面で表示できます。しかし、講師がプレゼンテーションのスライドを読むために聴衆に背を向けていることをキャプチャ システムが検出した場合、そのようなアクションが検出される可能性があります。」ビデオ ストリーム内で、ストリーム A またはストリーム B に 1 つ以上の操作を適用するために使用されます。これには、インストラクターが読み上げているスライドが視聴者に全画面で表示されるようにストリーム B をズームするなどがあります。
サーレット氏は、提出書類全体を通じて、「イベント検出器」によってイベントとして捕捉および検出できるプレゼンテーション ポインター (レーザー ポインターなど) の動きなど、他のいくつかの潜在的なトリガー イベントの例を概説しました。たとえば、スライドに対するレーザー ポインタの方向は、インストラクターがスライドの特定の領域について話していることを示すことができます。したがって、一実施形態では、操作は、スライドを視聴者に表示することであってもよい。
「レーザーポインタの動きは、ピクセルデバイス上のレーザーの赤い点を分離し、その動き(セントロイド化など)を追跡できるAVSRソフトウェアまたは他の既知のパターンマッチングアルゴリズムを使用して、ビデオストリーム内で検出できます。」と彼は付け加えた。 「赤い点が検出された場合、ビデオまたはアプリケーション ストリーム上でスライドを切り替えたり、その他の操作を実行したりできます。あるいは、レーザー ポインタは、起動時に信号 (無線周波数、赤外線など) を発し、それを適切な機器が受信できます。」キャプチャ システム内の受信機 (例: ワイヤレス トランシーバー) であり、1 つまたは複数の操作を開始するために使用されます。
他のいくつかの実装では、ストリーム内の状態変化の検出を使用して、何がストリームからキャプチャされ、最終的なメディア ファイルまたはポッドキャストで表示されるかを決定します。たとえば、インストラクターが新しいスライドに移行すると、インストラクターのカメラ フィードからスライドに戻る可能性があります。新しいスライドがインストラクターによって提示されると、そのスライドを含むアプリケーション ストリームがデフォルト設定として最初に表示され、その後、第 1 の所定の時間が経過すると、インストラクターを表示するビデオ ストリームにそれぞれ切り替わります。他の実装形態では、第2の所定の時間が経過した後、ストリームをデフォルト構成に戻すことができる。
Serlet 氏は、次世代ポッドキャストのコンセプトをさらに一歩進めて、キャプチャ システムには、環境内を移動するインストラクターを追跡できるビデオ カメラが含まれる可能性があると続けました。カメラは、人間のオペレーターによって、または既知の位置検出技術を使用して自動的に移動させることができます。カメラの位置情報は、ストリーム上の操作をトリガーしたり、何がキャプチャされて最終的なメディア ファイルやポッドキャストに表示されるかを決定したりするために使用できます。
Serletのコンセプトは、Apple従業員が最近の特許出願で提案した少なくとも3つのPodcast拡張機能のうちの1つであることに注意すべきであるが、現時点ではどれも実現していない。その他には以下が含まれます:パーソナライズされたオンデマンドのポッドキャストそしてポッドマップ。