ビデオの画像サマリー

著者らは特許

G06F17/30 - 情報検索;そのためのデータベース構造
H04N21/8549 - 映像の要約,例.映画予告編,の作成

の所有者の特許 JP2016517641:

トムソン ライセンシングThomson Licensing

 

さまざまな実施形態は画像サマリー(コミックブック又はナレーティブアブストラクションとも呼ばれる)の提供に関する。一実施形態では、ビデオの第1の部分とビデオの第2の部分にアクセスする。第1の部分の加重を決定し、第2の部分の加重を決定する。第1の数字と第2の数字を決定する。第1の数字は、ビデオの画像サマリーにおいて、第1の部分のいくつの画像を使うか特定する。第1の数字は一以上であり、第1の部分の加重に基づき決まる。第2の数字は、ビデオの画像サマリーにおいて、第2の部分のいくつの画像を使うか特定する。第2の数字は1以上であり、第2の部分の加重に基づき決まる。

 

 

ビデオの画像サマリーに関する実施形態を説明する。さまざまな具体的実施形態は、構成可能、きめ細かい、階層的、シーンベースの分析を用いて、ビデオの画像サマリーを生成することに関する。
ビデオは長いことが多く、潜在的なユーザが、そのビデオが何のビデオか判断し、そのビデオを視聴したいか判断することが困難となっている。画像サマリーは、ストーリーブック、コミックブック又は物語要約とも呼ばれるが、これを生成するさまざまなツールがある。画像サマリーは、ビデオの内容を要約又は表現することを意図された一連のスチルショットを提供する。画像サマリーを生成するのに利用可能なツールを改良し、生成される画像サマリーを改良することが、引き続き必要である。
一態様によると、ビデオの第1の部分にアクセスし、ビデオの第2の部分にアクセスする。第1の部分の加重を決定し、第2の部分の加重を決定する。第1の数字と第2の数字を決定する。第1の数字は、ビデオの画像サマリーにおいて、第1の部分のいくつの画像を使うか特定する。第1の数字は1以上であり、第1の部分の加重に基づき決まる。第2の数字は、ビデオの画像サマリーにおいて、第2の部分のいくつの画像を使うか特定する。第2の数字は1以上であり、第2の部分の加重に基づき決まる。
実施形態の詳細は添付した図面と以下の説明に記載されている。実施形態は、1つの具体的な態様で説明したが、様々な態様が可能であることは言うまでもない。例えば、一実施形態は、方法として実行しても、装置として(例えば、一組の動作を実行するように構成された装置として、または一組の動作を実行する命令を記憶した装置として)実施しても、信号で実施してもよい。本発明の他の態様及び特徴は、添付した図面と請求項を参照して以下の詳細な説明を読めば明らかとなるであろう。
ビデオシーケンスの階層構造の一例を示す図である。 注釈を付したスクリプト(script)又はスクリーンプレイ(screenplay)の一例を示す図である。 画像サマリーを生成するプロセスの一例を示すフロー図である。 画像サマリーを生成するシステムの一例を示すブロック図である。 画像サマリーを生成するプロセスへのユーザインタフェースの一例を示すスクリーンショットである。 画像サマリーの出力ページの一例を示すスクリーンショットである。 画像サマリーの画像をシーンにアロケートするプロセスの一例を示すフロー図である。 所望のページ数に基づき画像サマリーを生成するプロセスの一例を示すフロー図である。 構成ガイドからのパラメータに基づき画像サマリーを生成するプロセスの一例を示すフロー図である。
画像サマリーは、高速ビデオ検索、メディアバンクプレビュー又はメディアライブラリプレビュー、及びユーザ生成及び/又は非ユーザ生成コンテンツの管理(検索、読み出しなど)を含む多くの環境やアプリケーションにおいて有利に用いることができる。メディア消費のデマンドが増大しているので、画像サマリーを使える環境やアプリケーションが増えると期待される。
画像サマリー生成ツールは完全に自動化でき、構成用のユーザ入力を使うこともできる。各々には長所も短所もある。例えば、完全に自動化されたソリューションの結果はすぐに得られるが、広い範囲の消費者を引きつけられないかも知れない。対照的に、ユーザ設定可能ソリューションで複雑なインターラクションを許せば、フレキシビリティとコントロールが得られるが、初めての消費者にはフラストレーションとなるかも知れない。本願ではさまざまな実施形態を提供し、これには自動的なオペレーションとユーザ設定可能なオペレーションとのバランスを試みる実施形態が含まれる。一実施形態では、コンシューマは、出力画像サマリーに求めるページ数の簡単な入力を指定することにより、画像サマリーをカスタマイズできる。
図1を参照するに、ビデオシーケンス110の階層構造100を示す。ビデオシーケンス110は一連のシーンを含み、図1は、ビデオシーケンス110の初めのシーン1 112と、シーン1 112に続くシーン2 114と、ビデオシーケンス110の両端から特定されていない距離にあるシーンであるシーンi 116と、ビデオシーケンス110の最後のシーンであるシーンM 118とを示している。
シーンi 116は一連のショットを含み、階層構造100は、シーンi 116の初めのショット1 122と、シーンi 116の両端から指定されていない距離にあるショットであるショットj 124と、シーンi 116の最後のショットであるショットK 126とを含む。
ショットj 124は一連のピクチャを含む。これらのピクチャは、画像サマリーを形成するプロセスにおいて、ハイライトピクチャ(ハイライトフレームと呼ばれることも多い)として一般的に選択される。階層構造100はハイライトピクチャとして選択された3つのピクチャを示し、これには第1のハイライトピクチャ132、第2のハイライトピクチャ134、及び第3のハイライトピクチャ136が含まれる。典型的な一実施形態では、ピクチャをハイライトピクチャとして選択すると、そのピクチャは画像サマリーにも含まれる。
図2を参照するに、注釈を付したスクリプト又はスクリーンプレイ(annotated script, or screenplay)200を示す。スクリプト200は、典型的スクリプトのさまざまなコンポーネントと、コンポーネント間の関係とを示している。スクリプトはさまざまな形式で提供でき、これには例えばワープロ文書が含まれる。
スクリプト又はスクリーンプレイ(script or screenplay)は、スクリプト化が映画やテレビ番組のために書いた作品であると定義されることが多い。スクリプトでは、各シーンは、例えば「誰が」(キャラクタ)、「何を」(状況)、「いつ」(時刻)、「どこで」(アクションの場所)、及び「なぜ」(アクションの目的)を確定するように記載される。スクリプト200は一つのシーンのものであり、次のコンポーネントと、その定義と説明とを含む。
1.シーンヘディング:シーンヘディングは新しいシーンの開始を示すために記載され、1ライン上にタイプされ、幾つかの単語は省略され、すべての単語が大文字にされる。具体的に、シーンが生じる時刻の前に、シーンのロケーションがリストされている。内部(interior)はINTと省略され、例えばある構造物の内部を指す。外部(exterior)はEXTと省略され、例えば屋外を指す。
スクリプト200は、シーンのロケーションを外部でありJones牧場のキャビンの前であると特定するシーンヘディング210を含む。シーンヘディング210は、日没の時刻も特定している。
2.シーン説明:シーン説明はシーンの説明であり、左マージンから右マージンまでページにわたってタイプされている。キャラクタ名は、説明中で最初に使われた時にすべて大文字で表示される。シーン説明は、一般的には、スクリーン上に何が現れるかを説明し、これを示すため「On VIDEO」の言葉が前置きされる。
スクリプト200は、「On VIDEO」との言葉が示しているように、ビデオ上に何が現れるかを説明するシーン説明220を含む。シーン説明220は3つの部分を含む。シーン説明220の第1の部分では、Tom Jonesが紹介され、彼の年齢(「22歳」)、外見(「外気にさらされて年老いて見える顔」)、背景(「屋外での生活」)、ロケーション(「フェンスの上」)、及び現在のアクティビティ(「水平線を見ている」)が説明される。
シーン説明220の第2の部分では、Tomの一時点での精神状態(「頭上を飛んでいる鳥のように心がさまよう」)が説明される。シーン説明220の第3の部分は、Jackの手伝いの申し出に応じたアクション(「こちらを見て立ち上がる」)を説明している。
3.話しているキャラクタ:話しているキャラクタの名前を示すにはすべて大文字を使う。
スクリプト200は3人の話しているキャラクタの表示(speaking character indication)230を含む。第1と第3の話しているキャラクタの表示230はTomが話していることを示す。第2の話しているキャラクタの表示230は、Jackが話していること、またはJackがオフスクリーン(「O.S.」)であること、すなわちスクリーンには映っていないことを示す。
4.モノローグ:キャラクタが話しているテキストは、ページ上のそのキャラクタ名(これは上述のようにすべて大文字になっている)の下にセンタリングされている。
スクリプト200は、4つのモノローグセクションを含み、これらはモノローグインジケータ240により示されている。第1と第2のセクションはTomの第1のスピーチのものであり、Tomの犬の問題とその問題に対するTomのリアクションを説明している。第3のモノローグセクションはJackの手伝いの申し出(「君のために犬をしつけようか?」)である。第4のモノローグセクションはTomの回答(「え、しつけてくれる?」)である。
5.ダイアローグインジケーション:ダイアローグインジケーションは、キャラクタのモノローグが始まる前に、または始まる時に、キャラクタの見え方や話し方を説明する。このダイアローグインジケーションは、キャラクタ名の下に、またはモノローグ中の別のライン上に、カッコに入れてタイプされる。
スクリプト200は2つのダイアローグインジケーション250を含む。第1のダイアローグインジケーション250はTomが「鼻を鳴らす(snorts)」ことを示す。第2のダイアローグインジケーション250は、Tomが「驚くほど感謝している様子」を示す。
6.ビデオトランジション:ビデオトランジションは説明するまでもなく、ビデオのトランジションを示す。
スクリプト200は、表示されるシーンの終わりにビデオトランジション260を含む。ビデオトランジション260はフェードアウトして暗くなり、次いでフェードインして次のシーン(図示せず)になる。
図3は、画像サマリーを生成するプロセス300の一例を示すフロー図である。プロセス300は、ユーザ入力の受け取り(310)を含む。ユーザ入力の受け取りは任意的オペレーションである。例えば、パラメータは一定であってもよく、ユーザによる選択を要しないからである。しかし、ユーザ入力は、さまざまな実施形態では、次のもののうち一以上を含む:
(i)画像サマリーが望ましいビデオを特定する情報であって、例えば、ビデオファイル名、ビデオ解像度、及びビデオモードを含むもの、
(ii)ビデオに対応するスクリプトを特定する情報であって、例えばスクリプトファイル名を含むもの、
(iii)所望の画像サマリー出力を記述する情報であって、例えば、その画像サマリーに望ましい最大ページ数、画像サマリーのページサイズ、及び/又は画像サマリーのページのフォーマット情報(例えば、画像サマリー中のピクチャ間のギャップサイズ)を含むもの、
(iv)画像サマリーを生成するのに用いるビデオの範囲、
(v)シーン加重に用いるパラメータであって、例えば、(i)加重に関して本願で説明するすべてのパラメータ、(ii)加重で強調する主要キャラクタ名(例えば、James Bond)、(iii)加重で強調する主要キャラクタ数の値、(iv)加重で強調するハイライトアクションやオブジェクトのリスト(例えば、ユーザは映画のカーチェイスに主に関心を持っているかも知れない)。
(vi)画像サマリーで使えるページをビデオのさまざまな部分(例えば、シーン)に割り当てるのに用いるパラメータであって、例えば、画像サマリーに望ましい最大ページ数を記述する情報など、
(vii)ビデオ中のピクチャを評価するのに用いるパラメータであって、例えば、画質の尺度を選択するパラメータなど、及び/又は
(viii)画像サマリーに含めるシーンからピクチャを選択するのに用いるパラメータであって、例えば、ショット当たりで選択すべきピクチャ数など。
プロセス300は、互いに対応するスクリプトとビデオを同期するステップ(320)を含む。例えば、典型的な実施形態では、ビデオとスクリプトは両方とも一つの映画のものである。同期オペレーション320の少なくとも一実施形態では、スクリプトを、すでにビデオと同期している字幕と同期させる。さまざまな実施形態は、スクリプトのテキストを字幕と相関させることにより同期を行う。スクリプトはこうして、字幕を通して、ビデオ(ビデオタイミング情報を含む)と同期される。一以上のかかる実装は、例えば、文献M. Everingham, J. Sivic, and A. Zisserman著「‘Hello! My name is ... Buffy.’ Automatic Naming of Characters in TV Video」(Proc. British Machine Vision Conf., 2006 (the “Everingham” reference))に記載された動的時間ワーピング(dynamic time warping)法などの既知の手法を用いてスクリプト・字幕同期を行う。文献Everinghamの内容は、動的時間ワーピングの説明を含むがそれに限定されないすべての目的においてその全体をここに参照援用する。
同期オペレーション320により、同期されたビデオが出力として提供される。同期されたビデオは、元のビデオと、スクリプトとの同期を何らかの方法で示す付加情報とを含む。さまざま実装では、例えば、スクリプトのさまざまな部分に対応するピクチャのビデオタイムスタンプを決定し、次いでそのビデオタイムスタンプをスクリプトの対応部分に挿入することにより、ビデオタイムスタンプを用いる。
同期オペレーション320からの出力は、さまざまな実施形態では、例えば上記の通り、改変(例えば、注釈)していない元のビデオと、注釈されたスクリプトである。他の実装は、スクリプトの改変に替えて、またはそれに加えて、ビデオを改変する。さらに別の実装では、ビデオもスクリプトも改変しないが、別に同期情報を提供する。さらに別の実施形態では、同期そのものを行わない。
プロセス300はビデオの一以上のシーンを加重するステップ(330)を含む。他の実施形態では、ビデオの異なる部分、例えば、ショットやシーングループなどを加重する。さまざまな実施形態では、シーンの加重(weight)の決定に、次の要因のうち一以上を用いる:
1.ビデオの始まりのシーン及び/又はビデオの終わりのシーン:始まり及び/又は終わりのシーンは、さまざまな実施形態では、時間インジケータ、ピクチャ番号インジケータ、又はシーン番号インジケータを用いて示される。
a.Sstartはビデオの始まりのシーンを示す。
b.Sendはビデオの終わりのシーンを示す。
2.主要キャラクタの登場頻度:
a.Crank[j],j=1,2,3,...,N Crank[j]はj番目のキャラクタのビデオにおける登場頻度である。ここでNはビデオにおけるキャラクタの総数である。
b.Crank「j]=AN[j]/TOTAL ここでAN[j]はj番目のキャラクタの登場回数(Appearance Number)であり、
[外1]

である。登場回数(キャラクタ登場)はキャラクタがビデオに出てくる回数である。それゆえ、Crank[j]は、0と1の間の数であり、すべてのキャラクタがビデオに出てくる回数に基づきすべてのキャラクタのランキングを提供する。
キャラクタ登場は、例えばスクリプト検索など、さまざまな方法で決定できる。例えば、図2のシーンにおいて、「Tom」という名前はシーン説明220に2回、話しているキャラクタ230として2回出てくる。「Tom」という名前をカウントすることにより、例えば、(i)スクリプトにおける「Tom」という言葉の登場により決まる、Tomがシーン中に現れることを反映して1回、(ii)例えば、「Tom」が、話しているキャラクタ230テキスト中に登場する回数により決まる、他のキャラクタによるモノローグと干渉しないモノローグ数を反映して2回、(iii)「Tom」がシーン説明220テキストに登場する回数を反映して2回、(iv)「Tom」がシーン説明220テキスト又は話しているキャラクタ230テキストのいずれかの一部として登場する回数を反映して4回。
c.Crank[j]は降順にソートされる。このように、Crank[1]は最も頻繁に出てくるキャラクタの登場頻度である。 3.シーンの長さ:
a.LEN[i],i=1,2,...,Mはi番目のシーンの長さであり、一般的にはピクチャ数で測られる。ここで、Mはスクリプトで規定されたシーンの総数である。
b.LEN[i]は、図4を参照して後で説明する同期ユニット410で計算できる。スクリプトに記述された各シーンは、ビデオのピクチャ期間にマッピングされる。シーンの長さは、例えば、シーンに対応するピクチャ数として定義できる。他の実施形態では、シーンの長さは、例えば、シーンに対応する時間の長さとして定義できる。
c.各シーンの長さは、さまざまな実施形態では、次の式により規格化される:
ここで、
[外2]

である。 4.シーン中のハイライトされるアクション又はオブジェクトのレベル:
a. Lhigh[i],i=1,2,...,Mは、i番目のシーンにおけるハイライトされたアクション又はオブジェクトのレベルとして定義される。ここで、Mはスクリプトで定義されたシーンの総数である。
b.ハイライトされたアクション又はオブジェクトを伴うシーンは、例えば、スクリプト中のハイライト語検出により検出できる。例えば、見る、向く、走る、上る、キスなどのさまざまなハイライトアクションワード(又はワードグループ)を検出することにより、又は、例えば、ドア、テーブル、水、車、銃、オフィスなどのさまざまなハイライトオブジェクトワードを検出することによる。
c.少なくとも一実施形態では、Lhigh[i]は単純に、例えば、i番目のシーン説明に現れるハイライトワードの数により定義できる。これは次式によりスケールされる:
少なくとも一実施形態では、開始シーン及び終了シーンを除き、他のすべてのシーン加重(シーン「i」の加重として示す)は次式により計算される:
ここで、
−SHOW[j][i]は、ビデオのj番目の主要キャラクタの、シーン「i」における登場回数である。これはシーン「i」に出てくるAN[j]の部分である。SHOW[j][i]は、シーンをスキャンして、AN[j]を決定するために行ったのと同じタイプのカウントを行うことによりできる。
−W[j],j=1,2,...,N,α及びβは加重パラメータである。これらのパラメータはベンチマークデータセットによるデータトレーニングにより、所望の結果が得られるように、確定できる。あるいは、加重パラメータはユーザにより設定されてもよい。一実施形態では、
である。
さまざまなかかる実施形態において、画像サマリーにおける開始シーンと終了シーンの比重(representation)を大きくするため、SstartとSendに最高の加重が与えられる。こうする理由は、ビデオのナレーションでは一般的に開始シーンと終了シーンが重要だからである。かかる実施形態では、開始シーンと終了シーンの加重は次式で計算される:
プロセス300は、画像サマリーピクチャをビデオのシーン間で割り当てするステップ(340)を含む。さまざまな実施形態において、ユーザはユーザ入力オペレーション310において、ビデオ(例えば、映画コンテンツ)から生成される画像サマリーの最大長さ(すなわち、最大ページ数であり、PAGESと呼ばれる)を設定できる。変数PAGESは、次式を用いて画像サマリーハイライトピクチャの最大数Thighlightに変換される。
ここで、NUMFPは、画像サマリーの各ページにアロケートされたピクチャ(フレームとも呼ばれる)の平均数であり、これは少なくとも一実施形態では5に設定され、ユーザによる(例えば、ユーザ入力オペレーション310における)インターラクティブオペレーションにより設定することもできる。
その入力を用いて、少なくとも一実施形態では、i番目のシーンにアロケートされる(画像サマリー用のハイライトピクチャ選択をするための)ピクチャの割り当て(picture budget)を次式で決定する。
この式は、シーンの総加重の割合に基づいて利用可能ピクチャの一部をアロケートし、次いで、シーリング関数を用いて切り上げする。割り当てオペレーションの終わりに向けて、すべてのシーン割り当てを、Thighlightを超えずに切り上げることができないことが予想される。かかる場合、さまざまな実施形態では、例えば、Thighlightを超え、他の実施形態では、例えば、切り下げを始める。
さまざま実施形態では、ビデオのシーン以外の部分を加重する。かかる多くの実施形態では、オペレーション340は、画像サマリーピクチャをビデオの(必ずしもシーンではない)加重部分に割り当てるオペレーションと置き換えることが多い。
プロセス300は、シーン中の、より一般的にはビデオ中のピクチャを評価するステップ(350)を含む。さまざまな実施形態では、各シーン「i」について、そのシーン中の各ピクチャについてアピール品質(Appealing Quality)を計算する。
1.AQ[k],k=1,2,...,Tiは、i番目のシーン中の各画像のアピール品質を示す。ここでTiはi番目のシーンの総ピクチャ数である。
2.アピール品質は、PSNR(Peak Signal Noise Ratio)、シャープネスレベル、カラー調和レベル(例えば、ピクチャの色が互いによく調和しているか評価する主観的分析)、及び/又は美的レベル(例えば、色、レイアウトなどの主観的評価)などの画質係数に基づき計算できる。
3.少なくとも一実施形態では、AQ[k]はピクチャのシャープネスレベルと定義され、例えば、次の関数を用いて計算される:
ここで、
−PIXedgesはピクチャ中のエッジピクセルの数であり、
−PIXtotalはピクチャ中の総ピクセル数である。
プロセス300は、画像サマリー用のピクチャを選択するステップ(360)を含む。オペレーション360はハイライトピクチャの選択と呼ばれることも多い。さまざまな実施形態では、各シーン「i」について、次のオペレーションを行う:
−AQ[k],k=1,2,...,Tiが降順にソートされ、トップFBug[i]個のピクチャがシーンiのハイライトピクチャとして選択され、最終的画像サマリーに含められる。
−もし(i)AQ[m]=AQ[n]であれば、より一般的にはAQ[m]がAQ[n]の閾値内にあり、かつ(ii)ピクチャmとピクチャnが同じショットにあれば、ピクチャmとピクチャnの一方のみが最終的画像サマリーに選択される。これにより、同じショットのピクチャは、画質が同様であり、両方とも最終的画像サマリーに含まれない。その替わり、他のピクチャが選択される。しばしば、そのシーンに含まれる追加的ピクチャ(すなわち、含まれる最後のピクチャ)は、別のショットのものである。例えば、(i)シーンが3つのピクチャ「1」、「2」及び「3」に割り当てられ、(ii)AQ[1]がAQ[2]の閾値内にあり、それゆえ(iii)ピクチャ「2」は含まれないが、ピクチャ「4」は含まれるとき、(iv)ピクチャ4はピクチャ2とは異なるショットのものである場合が多い。
他の実施形態では、シーン(または割り当てが行われる他のビデオ部分)のどのピクチャを画像サマリーに含めるか決定するさまざまな方法が行われる。一実施形態では、各ショットからアピール品質が最も高いピクチャ(すなわち、AQ[1])を取り、FBug[i]にピクチャが残っていれば、残っているピクチャのうちアピール品質が最も高いものが選択される。
プロセス300は、画像サマリーを提供するステップ(370)を含む。さまざまな実施形態では、提供するステップ(370)は画像サマリーをスクリーン上に表示するステップを含む。他の実施形態では、格納及び/又は送信用に画像サマリーを提供する。
図4を参照するに、システム400のブロック図を示す。システム400は画像サマリーを生成するシステムの一例である。システム400を用いて、例えば、プロセス300を実行できる。
システム400は入力としてビデオ404、スクリプト406及びユーザ入力408を受け取る。これらの入力の供給は、例えば、ユーザ入力オペレーション310に対応する。
ビデオ404とスクリプト406は互いに対応している。例えば、典型的な実施形態では、ビデオ404とスクリプト406は両方とも一つの映画のものである。ユーザ入力408は、以下に説明する一以上のさまざまなユニットの入力を含む。
システム400は、スクリプト406とビデオ404とを同期する同期ユニット410を含む。同期ユニットの少なくとも一実施形態では、同期オペレーション320を行う。
同期ユニット410は、同期されたビデオを出力として提供する。同期されたビデオは、元のビデオ404と、スクリプト406との同期を何らかの方法で示す付加情報とを含む。上記の通り、さまざま実施形態では、例えば、スクリプトのさまざまな部分に対応するピクチャのビデオタイムスタンプを決定し、次いでそのビデオタイムスタンプをスクリプトの対応部分に挿入することにより、ビデオタイムスタンプを用いる。他の実施形態では、ピクチャではなく、シーン、ショットのビデオタイムスタンプを決定し、挿入する。例えば、(i)本技術分野で知られたさまざまな方法で、(ii)本願で説明するさまざまな方法で、又は(iii)スクリプトを読みビデオを見ているオペレータにより、スクリプトの部分とビデオの部分との間の対応関係を決定することができる。
同期ユニット410からの出力は、さまざまな実施形態では、例えば上記の通り、改変(例えば、注釈)していない元のビデオと、注釈されたスクリプトである。他の実装は、スクリプトの改変に替えて、またはそれに加えて、ビデオを改変する。さらに別の実装では、ビデオもスクリプトも改変しないが、別に同期情報を提供する。さらに別の実施形態では、同期そのものを行わない。言うまでもなく、同期ユニット410からの出力のタイプに応じて、さまざまな実施形態では、元のスクリプト406をシステム400の他のユニット(例えば、以下に説明する加重ユニット420など)に提供する必要はない。
システム400は、加重ユニット420を含み、これは入力として、(i)スクリプト406、(ii)ビデオ404と同期ユニット410からの同期情報、及び(iii)ユーザ入力408を受け取る。加重ユニット420は、例えば、これらの入力を用いて加重オペレーション330を行う。さまざまな実施形態では、ユーザは、例えば、ユーザ入力408を用いて、最初と最後のシーンが最高加重を有するか否か指定する。加重ユニット420は、出力として、分析されている各シーンのシーン加重を提供する。幾つかの実施形態では、ユーザは、映画の一部のみの、例えば、その映画の最初の10分間のみの画像サマリーを準備することを望むことがある。このように、すべてのビデオで必ずしもすべてのシーンが分析されるわけではない。
システム400は、入力として(i)加重ユニット420からシーン加重を、そして(ii)ユーザ入力408を受け取る割り当てユニット(budgeting unit)430を含む。割り当てユニット430は、例えば、これらの入力を用いて割り当て(budgeting)オペレーション340を行う。さまざまな実施形態では、ユーザは、例えば、ユーザ入力408を用いて、割り当てオペレーション340の割り当て計算(budget calculation)でシーリング関数(あるいは、例えばフロア関数)を使うか、指定できる。さらに他の実施形態では、ユーザは、シーン加重に基づき画像サマリーのピクチャをシーンに比例してアサインするのではない非線形方程式を含む、さまざまな割り当て式(budgeting formulas)を指定できる。例えば、幾つかの実施形態では、加重が大きいシーンにはますます大きなパーセンテージを与える。
割り当てユニット430は、出力として、すべてのシーンのピクチャ割り当て(picture budget)(すなわち、各シーンにアロケートされたピクチャ数)を提供する。他の実施形態では、例えば、すべてのシーンのページ割り当てや各ショットの割り当て(ピクチャやページなど)異なる割り当て出力を提供する。
システム400は、評価ユニット440を含み、これは入力として、(i)ビデオ404と同期ユニット410からの同期情報、及び(ii)ユーザ入力408を受け取る。評価ユニット440は、例えば、これらの入力を用いて評価オペレーション350を行う。さまざまな実施形態では、ユーザは、例えば、ユーザ入力408を用いて、どのタイプのアピール品質係数(Appealing Quality factors)(例えば、PSNR、シャープネスレベル、カラー調和レベル、美的レベル)を用いるか、及び具体的な式や利用可能な式の選択さえも指定できる。
評価ユニット440は、出力として、対象としている一以上のピクチャの評価を提供する。さまざまな実施形態では、対象としているすべてのピクチャの評価を提供する。しかし、他の実施形態では、例えば、各ショットの最初のピクチャのみの評価を提供する。
システム400は選択ユニット450を含み、これは入力として、(i)ビデオ404と同期ユニット410からの同期情報、(ii)評価ユニット440からの評価、(iii)割り当てユニット430からの評価、及び(iv)ユーザ入力408を受け取る。選択ユニット450は、例えば、これらの入力を用いて選択オペレーション360を行う。さまざまな実施形態により、ユーザは、例えば、ユーザ入力408を用いて、各ショットからベストピクチャを選択するか指定する。
選択ユニット450は出力として画像サマリーを提供する。選択ユニット450は、例えば、提供オペレーション370を行う。さまざまな実施形態では、ストレージデバイス、送信デバイス、又はプレゼンテーションデバイスに画像サマリーが提供される。さまざまな実施形態では、データファイルとして、または送信されるビットストリームとして、出力が提供される。
システム400はプレゼンテーションデバイス460を含み、これは入力として例えば選択ユニット450、ストレージデバイス(図示せず)、又は例えば画像サマリーを含むブロードキャストストリームを受信するレシーバ(図示せず)から、画像サマリーを受け取る。プレゼンテーションユニット460は、例えば、テレビジョン、コンピュータ、ラップトップ、タブレット、セルラー電話、その他の通信デバイスや処理デバイスを含む。プレゼンテーションユニット460は、さまざまな実施形態では、図5と図6にそれぞれ示すように、ユーザインタフェース及び/又はスクリーンディスプレイを提供する。
システム400の要素は、例えば、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実施できる。例えば、一以上の処理デバイスは、実行する機能のために適切にプログラミングされれば、システム400を実施するのに用いることができる。
図5を参照するに、ユーザインタフェーススクリーン500を示す。ユーザインタフェーススクリーン500は画像サマリーを生成するツールから出力される。このツールは、図5では「Movie2Comic」と表示されている。ユーザインタフェーススクリーン500は、プロセス300の実施形態の一部として用いることができ、システム400の実施形態を用いて生成できる。
スクリーン500はビデオセクション505とコミックブック(画像サマリー)セクション510とを含む。スクリーン500は、ソフトウェアの進行のインジケーションを提供するプログレスフィールドも含む。スクリーン500のプログレスフィールド515は、ソフトウェアが現在ページレイアウトを表示していることを示している「Display the page layout...」と言う更新を表示している。プログレスフィールド515はソフトウェアの進行に応じて表示される更新を変更する。
ビデオセクション505により、ユーザは、さまざまなビデオ情報アイテムを指定して、ビデオとインターラクトできる。これには次のものが含まれる:
−解像度フィールド520を用いたビデオ解像度の指定、
−幅フィールド522と高さフィールドとを用いたビデオ中のピクチャの幅と高さの指定、
−モードフィールド526を用いたビデオモードの指定、
−ファイル名フィールド528を用いたビデオのソースファイル名の指定、
−ブラウズボタン530を用いた利用可能ビデオファイルのブラウズと、オープンボタン532を用いたビデオファイルのオープン、
−ピクチャ番号フィールド534を用いた、(別のウィンドウに)表示するピクチャ番号の指定、
スライダバー536を用いた(別のウィンドウにおける)表示するビデオピクチャの選択、
−ナビゲーションボタングルーピング538を用いた(別のウィンドウに表示された)ビデオ内のナビゲーション。
コミックブックセクション510により、ユーザは、画像サマリーのさまざまな情報を指定して、画像サマリーとインターラクトできる。
−読み出し設定フィールド550を用いた、新しい画像サマリーを生成するか(「No」)、又は以前生成された画像サマリーを再利用するか(「Yes」)の表示(例えば、画像サマリーがすでに生成されている場合、ソフトウェアはその構成を読み出して、以前の計算を繰り返さなくても、以前生成された画像サマリーを見せられる)。
−アニメフィールド(cartoonization field)552を用いた画像サマリーをアニメーションのように見えるように生成するかの指定、
−開始範囲フィールド554と終了範囲フィールド556とを用いた、画像サマリーの生成に用いるビデオの範囲の指定、
−MaxPagesフィールド558を用いた、画像サマリーの最大ページ数の指定、
−ページ幅フィールド560とページ高さフィールド562とを用いた画像サマリーページのサイズの指定(両者はピクセル数で指定される(他の実施形態では他の単位が用いられる))、
−水平ギャップフィールド564と垂直ギャップフィールド566とを用いた、画像サマリーページ上のピクチャ間の間隔の指定(両者はピクセル数で指定される(他の実施形態では他の単位が用いられる))、
−分析ボタン568を用いた、画像サマリーを生成するプロセスの開始、
−キャンセルボタン570を用いた、画像サマリー生成プロセスの放棄と、ツールのクローズ、
−ナビゲーションボタングルーピング572を用いた(別のウィンドウに表示された)画像サマリー内のナビゲーション。
言うまでもなく、スクリーン500は設定ガイドの実施形態を提供する。スクリーン500により、ユーザは、説明したさまざまなパラメータを指定できる。他の実施形態では、スクリーン500に示したパラメータのすべてを提供していてもいなくても、付加的パラメータを提供する。さまざまな実施形態では、あるパラメータを自動で指定し、及び/又はスクリーン500にデフォルト値を提供する。上記の通り、スクリーン500のコミックブックセクション510により、ユーザは、(i)画像サマリーの生成に用いるビデオの範囲、(ii)生成される画像サマリー中のピクチャの幅、(iii)生成される画像サマリー中のピクチャの高さ、(iv)生成される画像サマリー中の離間したピクチャの水平ギャップ、(v)生成される画像サマリー中の離間したピクチャの垂直ギャップ、又は(vi)生成される画像サマリーの所望のページ数を示す値、のうちの少なくとも1つを指定できる。
図6を参照するに、スクリーンショット600は、図5の説明で触れた「Movie2Comic」ツールの出力から提供される。スクリーンショット600は、ユーザインタフェーススクリーン500に示した使用に応じて生成された一ページの画像サマリーである。例えば:
−スクリーンショット600は500ピクセルのページ幅を有する(ページ幅フィールド560を参照)、
−スクリーンショット600は700ピクセルのページ高さを有する(ページ高さフィールド562を参照)、
−画像サマリーは1ページだけである(MaxPagesフィールド558を参照)、
−スクリーンショット600は8ピクセルのピクチャ間垂直ギャップ602を有する(垂直ギャップフィールド566を参照)、及び
−スクリーンショット600は6ピクセルのピクチャ間水平ギャップ604を有する(水平ギャップフィールド564を参照)。
スクリーンショット600は6つのピクチャを含み、これらはユーザインタフェーススクリーン500で特定されたビデオ(ファイル名フィールド528を参照)のハイライトピクチャである。6つのピクチャは、ビデオに現れる順序で、
−第1のピクチャ605、これは6つのピクチャのうち最大のものであり、スクリーンショット600のトップに配置され、男が敬礼している正面斜視図を示す、
−第2のピクチャ610、これはサイズが第1のピクチャ605の約半分であり、第1のピクチャ605の左手部分の下に、スクリーンショット600の左側に沿って中ほどに配置され、隣の男性と話している女性の顔を示している、
−第3のピクチャ615、これはサイズが第2のピクチャ610と同じであり、第2のピクチャの下に配置され、ビルのフロント部分と象徴的標識を示している、
−第4のピクチャ620、これは最も小さいピクチャであり、サイズが第2のピクチャ610の半分未満であり、第1のピクチャ605の右手側の下に配置され、二人の男が話し合っている影となった画像の正面斜視図を示す、
−第5のピクチャ625、これは第2のピクチャ610より少し小さく、第4のピクチャのサイズの約2倍であり、第4のピクチャ620の下に配置され、墓地の光景を示し、
−第6のピクチャ630、これは第5のピクチャ625と同じサイズであり、第5のピクチャ625の下に配置され、第2のピクチャ610の女性と男性が別の会話で話し合っている他の画像を示し、女性の顔がピクチャのフォーカスになっている。
6つのピクチャ605−630はそれぞれ自動的にサイズ決定されクロッピングされ、関心オブジェクトにピクチャにフォーカスしている。ツールによりユーザは、ピクチャ605−630のどれを用いてもビデオをナビゲートできる。例えば、ユーザがピクチャ605−630の1つをクリックすると、または(ある実施形態では)その上にカーソルを動かすと、ビデオはそのビデオのそのポイントから再生開始される。さまざまな実施形態では、ユーザは巻き戻し、早送り、及び他のナビゲーションオペレーションの利用ができる。
さまざまな実施形態では、(i)ビデオ中のピクチャの時間的順序、(ii)ピクチャにより表されるシーンのシーンランキング、(iii)画像サマリーのピクチャのアピール品質(AQ)、及び/又は(iv)画像サマリーのピクチャのピクセル単位のサイズに従った、またはそれらに基づいた順序で画像サマリーのピクチャを配置する。さらに、画像サマリーのピクチャの(例えば、ピクチャ605−630の)レイアウトは、幾つかの実施形態では最適化される。より一般的には、画像サマリーは、ある実施形態では、欧州特許出願第2207111号に記載した一以上の実施形態により作られる。この出願はここにその全体をすべての目的のために参照援用する。
言うまでもなく、一般的な実施形態では、スクリプトは例えばビデオタイムスタンプで注釈(annotate)されるが、ビデオは改変されない。したがって、ピクチャ605−630は元のビデオから取られ、ピクチャ605−630の1つをクリックすると、元のビデオがそのピクチャから再生開始される。他の実施形態では、スクリプトの改変に加えて、またはそれに替えて、ビデオを改変する。さらに別の実施形態では、ビデオもスクリプトも改変しないが、別の同期情報を提供する。
6つのピクチャ605−630はビデオから取った実際のピクチャである。すなわち、ピクチャは例えばアニメ化フィーチャを用いてアニメーションにされていない。他の実施形態では、しかし、画像サマリーにピクチャを含める前に、そのピクチャをアニメ化する。
図7を参照するに、システム700のフロー図を示す。一般的に言って、プロセス700は画像サマリーにおいてピクチャを異なるシーンにアロケート又は割り当て(budget)する。プロセス700のバリエーションにより、ピクチャをビデオの異なる部分(必ずしもシーンではない部分)に割り当てられる。
プロセス700は第1のシーンと第2のシーンにアクセスするステップ(710)を含む。少なくとも一実施形態では、オペレーション710はビデオの第1のシーンと、そのビデオの第2のシーンにアクセスすることにより行われる。
プロセス700は、第1のシーンの加重を決定するステップ(720)と、第2のシーンの加重を決定するステップ(730)とを含む。加重は、少なくとも一実施形態では、図3のオペレーション330を用いて決定される。
プロセス700は、第1のシーンの加重に基づき第1のシーンに用いるピクチャ数を決定するステップ(740)を含む。少なくとも一実施形態では、オペレーション740は、ビデオの画像サマリーにおいて、第1の部分のピクチャをいくつ使うか特定する第1の数を決定することにより行われる。かかる実施形態では、第1の数字は一以上であり、第1の部分の加重に基づき決まる。ピクチャの数は、少なくとも一実施形態では、図3のオペレーション340を用いて決定される。
プロセス700は、第2のシーンの加重に基づき第2のシーンに用いるピクチャ数を決定するステップ(750)を含む。少なくとも一実施形態では、オペレーション750は、ビデオの画像サマリーにおいて、第2の部分のピクチャをいくつ使うか特定する第2の数を決定することにより行われる。かかる実施形態では、第2の数字は一以上であり、第2の部分の加重に基づき決まる。ピクチャの数は、少なくとも一実施形態では、図3のオペレーション340を用いて決定される。
図8を参照するに、システム800のフロー図を示す。おおまかに言って、プロセス800はビデオの画像サマリーを生成する。プロセス800は、画像サマリーの所望のページ数を示す値にアクセスするステップ(810)を含む。この値は、少なくとも一実施形態では、図3のオペレーション310を用いてアクセスされる。
プロセス800はビデオにアクセスするステップ(820)を含む。プロセス800は、さらに、そのビデオに対して、アクセスされた値に基づいてページカウントを、画像サマリーを生成するステップ(830)を含む。少なくとも一実施形態では、オペレーション830はビデオの画像サマリーを生成することにより行われる。画像サマリーは総ページ数を有し、この総ページ数はその画像サマリーの所望のページ数を示す値(アクセスされた値)に基づく。
図9を参照するに、システム900のフロー図を示す。おおまかに言って、プロセス900はビデオの画像サマリーを生成する。プロセス900は、画像サマリーの設定ガイドのパラメータにアクセスするステップ(910)を含む。少なくとも一実施形態では、オペレーション910は、ビデオの画像サマリーを設定する一以上のパラメータを含む、設定ガイドの一以上のパラメータにアクセスすることにより行われる。この一以上のパラメータは、少なくとも一実施形態では、図3のオペレーション310を用いてアクセスされる。
プロセス900はビデオにアクセスするステップ(920)を含む。プロセス900は、さらに、そのビデオに対して、アクセスされたパラメータに基づいて画像サマリーを生成するステップ(930)を含む。少なくとも一実施形態では、オペレーション930は、ビデオの画像サマリーを生成することにより行われる。画像サマリーは設定ガイドのアクセスされた一以上のパラメータに従う。
プロセス900その他のプロセスのさまざまな実施形態では、ビデオ自体に関連する一以上のパラメータにアクセスするステップを含む。かかるパラメータには、スクリーン500のビデオセクション505を参照して説明したように、例えば、ビデオ解像度、ビデオ幅、ビデオ高さ、及び/又はビデオモード、その他のパラメータなどがある。さまざまな実施形態では、(ビデオの画像サマリーに、またはその他の態様に関連する)アクセスされたパラメータは、例えば、(i)システムにより自動的に、(ii)ユーザ入力により、及び/又は(iii)ユーザ入力スクリーン(例えば、スクリーン500など)のデフォルト値により提供される。
プロセス700は、さまざまな実施形態では、プロセス300の選択されたオペレーションを実行するシステム400を用いて行われる。同様に、プロセス800と900は、さまざまな実施形態では、プロセス300の選択されたオペレーションを実行するシステム400を用いて行われる。
さまざまな実施形態では、画像サマリーには、すべてのシーンを表現するほど十分なピクチャは無い。他の実施形態では、理論的には十分なピクチャがあるが、加重が大きいシーンにはより多くのピクチャが与えられるとなると、こうした実施形態では、画像サマリーにおいてすべてのシーンを表現する前に、利用可能ピクチャが足りなくなる。したがって、これらの実施形態の多くのもののバリエーションでは、加重が大きいシーンにピクチャをアロケート(allocate)するフィーチャ(feature)を含む。そのように、実施形態において、(画像サマリーにおいて)利用可能なピクチャが不足したとき、そういう場合には加重が大きいシーンが表されている。かかる実施形態では、シーン加重の降順でシーンを処理し、そのため加重がより大きいすべてのシーンに(画像サマリーの)ピクチャがアロケートされるまで、(画像サマリーの)ピクチャをシーンにアロケートしない。
画像サマリーにすべてのシーンを表す「十分な」ピクチャがないさまざまな実施形態では、生成される画像サマリーではビデオの一以上のシーンのピクチャを用い、その一以上のシーンは、それを含むビデオのシーン間を差別化するランキングに基づいて決定される。ある実施形態では、生成される画像サマリーがビデオの一以上の部分のピクチャを用いるように、及び一以上の部分を含むビデオ部分間を差別化するランキングに基づき決定されるように、このフィーチャをシーン以外のビデオ部分に適用する。幾つかの実施形態では、画像サマリーにおいて(ビデオなどの)第1の部分を表すか、その第1の部分の加重を、ビデオの他の部分の加重と比較することにより、決定する。ある実施形態では、部分は例えばショットである。
言うまでもなく、幾つかの実施形態では、(i)画像サマリーにおいてシーンを表すか判断し、(ii)表すシーンからいくつのピクチャを画像サマリーに含めるか判断するため、(シーンなどの)ランキングを用いる。例えば、幾つかの実施形態では、画像サマリーのすべての位置が埋まるまで、加重(シーンを差別化するランキング)の降順でシーンを処理する。かかる実施形態では、それにより、シーンが加重の降順で処理されるので、加重に基づきどのシーンを画像サマリーにおいて表すか判断する。かかる実施形態では、例えば、シーンの加重を用いて、表される各シーンからいくつのピクチャを画像サマリーに含めるか判断して、シーンに割り当てられるピクチャ数を決定する。
上記の実施形態のバリエーションでは、画像サマリー中のピクチャ数が与えられると、すべてのシーンが画像サマリーにおいて表し得るか、最初に判断する。(画像サマリーに)利用可能ピクチャが無いため答えが「no」であれば、かかる実施形態では、画像サマリーにおいてより多くのシーンを表せるようにするように、アロケーション方式を変更する(例えば、各シーンにピクチャを1つだけアロケートする)。このプロセスはシーン加重を変更するのと同様の結果を生じる。再び、(画像サマリーに)利用可能ピクチャが無いため答えが「no」であれば、他の実施形態では、シーン加重に閾値を用いて、加重が低いシーンは画像サマリーにおいて考慮されないようにする。
さまざまな実施形態では選択されたピクチャを画像サマリーに単にコピーする点に留意されたい。しかし、他の実施形態では、選択されたピクチャを画像サマリーに挿入する前に、選択されたピクチャに一以上のさまざまな処理手法を行う。かかる処理手法には、例えば、クロッピング、サイズ変更、スケーリング、アニメ化(例えば、「アニメ(cartoonization)」効果の適用)、フィルタリング(例えば、ローパスフィルタやノイズフィルタ)、カラー強調や修正、及び光レベル強調や修正などがある。選択されたピクチャは、それが画像サマリーに挿入される前に処理されたとしても、画像サマリーにおいて「利用」されると考え得る。
ユーザが画像サマリーの所望のページ数やピクチャ数を指定できるさまざまな実施形態を説明した。幾つかの実施形態では、しかし、ユーザ入力無しにページ数やピクチャ数を決定する。他の実施形態では、ユーザはページ数やピクチャ数を指定できるが、ユーザが値を指定しなければ、ユーザ入力無しに決定を行う。ユーザ入力無しにページ数やピクチャ数を決定するさまざまな実施形態では、例えば、ビデオ(例えば、映画)の長さやビデオ中のシーン数に基づき数字が設定される。2時間の長さのビデオの場合、(さまざまな実施形態における)画像サマリーの一般的なページ数は約30ページである。1ページに6つのピクチャがあれば、かかる実施形態における一般的なピクチャ数は約180である。
実施形態を説明した。本開示では、これらの実施形態のバリエーションを想定している。図中及び実施形態中の要素の多くは任意的であることにより、多数のバリエーションが得られる。例えば:
−実施形態では、ユーザ入力オペレーション310とユーザ入力408は任意的である。例えば、ある実施形態には、ユーザ入力オペレーション310とユーザ入力408は含まれない。かかる実施形態では、すべてのパラメータは一定であり、ユーザはパラメータを設定できない。(ここで、及び本願のこの他の部分で)ある実施形態ではあるフィーチャが任意的であると言っているが、それは、幾つかの実施形態はそのフィーチャを必要としないということ、別の実施形態はそのフィーチャを含まないということ、及びさらに別の実施形態はそのフィーチャを利用可能なオプションとして提供し、ユーザがそのフィーチャを使うか決定できるということである。
−ある実施形態では、同期オペレーション320と同期ユニット410は任意的である。幾つかの実施形態では、画像サマリーを生成するツールがスクリプトとビデオを受け取った時、そのスクリプトとビデオはすでに同期しているので、同期は行わない。他の実施形態では、スクリプト無しでシーン分析をするので、スクリプトとビデオの同期は行わない。スクリプトを用いないスクリプトを使わないかかるさまざまな実施形態では、替わりに、(i)クローズドキャプションテキスト、(ii)字幕テキスト、(iii)音声認識ソフトウェアを用いてテキストに変換されたオーディオ、(iv)例えば、ハイライトオブジェクトやキャラクタを識別するためビデオピクチャに対して行われたオブジェクト認識、又は(v)同期に利用できる事前に生成された情報を提供するメタデータのうち一以上を分析する。
−ある実施形態では、評価オペレーション350と評価ユニット440は任意的である。幾つかの実施形態では、ビデオ中のピクチャは評価しない。かかる実施形態では、ピクチャのアピール品質(Appealing Quality)以外の一以上の基準に基づき、選択オペレーション360を行う。
−プレゼンテーションユニット460はある実施形態では任意的である。前述の通り、さまざまな実施形態では、画像サマリーをプレゼンテーションすることなく、記憶又は送信用に画像サマリーを提供する。
図や実施形態の一以上の要素を、無くさずに、修正することにより多くのバリエーションが得られる。例えば:
−加重オペレーション330と加重ユニット420は、例えば、次のように、多数の異なる方法でシーンを加重(weight)できる:
1.シーンの加重は例えばシーン中のピクチャ数に基づいてもよい。かかる実施形態では、シーンにピクチャ数に比例した加重をアサインする。このように、加重は、例えば、シーン中のピクチャ数(LEN[i])をビデオ中の総ピクチャ数で割ったものに等しい。
2.シーンの加重は、シーン中のハイライトされたアクション又はオブジェクトのレベルに比例してもよい。このように、幾つかの実施形態では、加重は、シーン「i」のハイライトされたアクションまたはオブジェクト(Lhigh[i])をビデオのハイライトされたアクションまたはオブジェクトの総レベル(すべての「i」にわたるLhigh[i]の和)で割ったものに等しい。
3.シーンの加重は、シーン中の一以上のキャラクタの登場回数(Appearance Number)に比例してもよい。このように、かかる実施形態では、シーン「i」の加重はSHOW[j][i],forj=1...Fの和に等しい。ここで、Fは例えば3(ビデオのトップ3の主要キャラクタのみが考慮されることを示す)又はその他の数が選択または設定される。Fの値は、実施形態やビデオコンテンツが異なれば設定も異なる。例えば、James Bond映画では、画像サマリーがJames Bondと主な悪役にフォーカスするように、Fは比較的小さい数に設定される。
4.上記の例のバリエーションでは、シーン加重のスケーリングを提供する。例えば、かかる実施形態では、シーン「i」の加重は(gamma[i]*SHOW[j][i]),forj=1...Fの和に等しい。「gamma[i]」はスケーリング値(すなわち、加重)であり、例えば、主要キャラクタ(例えば、James Bond)の登場をより強調するために用い得る。
5.「加重」は異なる実施形態では異なるタイプの値で表し得る。例えば、さまざまな実施形態では、「加重」はランキング、ランキングの逆数(逆順)、または計算されたメトリック(metric)やスコア(例えば、LEN[i])である。さらに、さまざまな実施形態では、加重は規格化されないが、他の実施形態では、加重は規格化され、その結果、加重は0と1の間である。
6.シーンの加重(weighting)は、他の実施形態について説明した加重ストラテジの一以上の組み合わせを用いて行うことができる。組み合わせは、例えば、合計、積、比率、差、シーリング、フロア、平均、メジアン、モードなどであり得る。
7.他の実施形態では、シーンのビデオにおける位置にかかわらず、そのシーンを加重するので、最初と最後のシーンに大きな加重をアサインしない。
8.また別のさまざまな実施形態では、異なる方法でシーン分析と加重を行う。例えば、幾つかの実施形態では、スクリプトの異なる又は追加された部分を検索する(例えば、アクションやオブジェクトのハイライトワードのシーン説明に加えてすべてのモノローグを検索する)。また、さまざまな実施形態では、シーン分析と加重を行うとき、スクリプト以外のアイテムを検索する。かかるアイテムには、例えば、(i)クローズドキャプションテキスト、(ii)字幕テキスト、(iii)音声認識ソフトウェアを用いてテキストに変換されたオーディオ、(iv)例えば、ハイライトオブジェクト(又はアクション)とキャラクタ登場を特定するためにビデオピクチャに行ったオブジェクト認識、又は(v)シーン分析を行うときに用いるために事前に生成された情報を提供するメタデータなどを含む。
9.さまざまな実施形態では、シーンとは異なるピクチャのセットに加重の概念を適用する。(例えば、ショートビデオを含む)さまざまな実施形態では、(シーンではなく)ショットが加重され、ハイライトピクチャの割り当ては、ショット加重に基づいてショットにアロケートされる。他の実施形態では、加重される単位はシーンより大きく(例えば、シーンがグループ化され、又はショットがグループ化される)、又はショットより小さい(例えば、個々のピクチャはそれの「アピール品質」に基づいて加重される)。さまざまな実施形態では、シーンやショットはさまざまな属性に基づきグループ化される。例としては、(i)長さに基づきシーンやショットをグループ化する(例えば、隣接する短いシーンをグループ化する)、(ii)同じタイプのハイライトアクションやオブジェクトを有するシーンやショットをグループ化する、又は(iii)同じ主要キャラクタを有するシーンやショットをグループ化する。
−割り当てオペレーション340と割り当てユニット430は、画像サマリーピクチャをさまざまな方法でシーン(又はビデオのその他の部分)にアロケート又はアサインできる。かかる実施形態では、例えば、加重が大きいシーンは不釣り合いに大きく(又は小さく)する非線形アサインメント(assignment)に基づきピクチャをアサインする。他の実施形態では、単純に、ショット毎に一ピクチャをアサインする。
−評価オペレーション350と評価ユニット440は、例えば、ピクチャ中のキャラクタ及び/又はシーン中のピクチャ位置に基づき、ピクチャを評価できる(例えば、シーン中の最初のピクチャとシーンの最後のピクチャは高い評価を受けられる)。他の実施形態では、ショットやシーン全体を評価して、各ピクチャではなくショットやシーン全体に1つの評価(典型的には数字)を生成する。
−選択オペレーション360と選択ユニット450は、ピクチャを、他の基準を用いて画像サマリーに含めるハイライトピクチャとして選択できる。かかる実施形態では、ピクチャの質に関わらず、各ショットの最初又は最後のピクチャをハイライトピクチャとして選択する。
−プレゼンテーションユニット460はさまざまなプレゼンテーションデバイスで実施できる。かかるプレゼンテーションデバイスは、例えば、テレビジョン(「TV」)(ピクチャーインピクチャ(「PIP」機能を有する又は有しないもの)、コンピュータディスプレイ、ラップトップディスプレイ、パーソナルデジタルアシスタント(「PDA」)ディスプレイ、セルラー電話ディスプレイ、及びタブレット(例えば、iPad)ディスプレイを含む。プレゼンテーションデバイスは、異なる実施形態では、主又は副スクリーンである。さらに他の実施形態では、異なる又は付加的な感覚プレゼンテーションを提供するプレゼンテーションデバイスを用いる。ディスプレイデバイスは一般的にはビジュアルプレゼンテーションを提供する。しかし、他のプレゼンテーションデバイスは、例えば、(i)スピーカを用いた聴覚的プレゼンテーション、又は(ii)振動パターンを提供する振動デバイスや他の触覚的感覚インジケーション(タッチベースのもの)を提供するデバイスを用いる触覚プレゼンテーションを提供する。
−説明した実施形態の多くの要素はさらに別の実施形態を生じるために順序替えや再配置してもよい。例えば、プロセス300の多くのオペレーションは、システム400の説明で示唆したように、再配置できる。さまざまな実施形態では、ユーザオペレーションを、プロセス300の一以上の他のロケーションに、例えば、加重オペレーション330、割り当てオペレーション340、評価オペレーション350、選択オペレーション360のうちの一以上のすぐ前に動かしても良い。さまざまな実施形態では、評価オペレーション350を、プロセス300の一以上の他のロケーションに、例えば、加重オペレーション330又は割り当てオペレーション340のうちの一以上のすぐ前に動かしても良い。
説明した実施形態のバリエーションでは、さらに別のフィーチャが付加される。かかるフィーチャの一例は、ネタ(crucial story points)が不注意でばれないようにする「ネタバレ禁止(no spoilers)」フィーチャである。ビデオのネタは、例えば、誰が殺人犯か、又はどうやって救助するか、どうやって逃れるかということを含む。さまざまな実施形態の「ネタバレ禁止」フィーチャは、例えば、どのシーンの、またはその替わりに例えばクライマックス、結末、フィナーレ、またはエピローグのショットのハイライトも含めないことにより行われる。これらのシーン又はショットは、例えば、(i)ビデオの最後の(例えば)10分間のシーンやショットはすべて除外すること、又は(ii)除外されるシーン及び/又はショットを特定するメタデータにより判断できる。このメタデータは、例えば、レビュアー、コンテンツプロデューサ、又はコンテンツプロバイダにより提供される。
さまざまな実施形態では、階層的細粒構造の一以上のレベルに加重をアサインする。この構造は例えば、シーン、ショット、ピクチャを含む。さまざまな実施形態では、本願で説明したように、一以上の方法でシーンを加重する。追加的又は代替的に、さまざまな実施形態では、本願で説明した一以上の方法を用いてショット及び/又はピクチャを加重する。ショット及び/又はピクチャの加重は、次の一以上の方法で行える:
(i)ピクチャのアピール品質(AQ)はピクチャの黙示的加重を提供できる(例えば、プロセス300のオペレーション350を参照)。与えられたピクチャの加重は、ある実施形態では、そのピクチャのAQの実際の値である。他の実施形態では、加重はAQの実際の値に基づき(等しくはなく)、例えば、AQをスケーリング又は規格化したものである。
(ii)他の実施形態では、与えられたピクチャの加重は、AQ値の順序リストのAQ値のランキングに等しい、又はそれに基づく(例えば、AQ値をランク付けする、プロセス300のオペレーション360を参照)。
(iii)AQはショットの加重も与える。どのショットの実際の加重も、さまざまな実施形態では、そのショットの構成ピクチャのAQ値に等しい(又はそれに基づく)。例えば、ショットはその中のピクチャの平均AQに等しい、又はその中のすべてのピクチャの最高AQに等しい加重を有する。
(iv)他の実施形態では、与えられたショットの加重は、AQ値の順序リストのショットの構成ピクチャのランキングに等しい、又はそれに基づく(例えば、AQ値をランク付けする、プロセス300のオペレーション360を参照)。例えば、AQ値が高いピクチャは、順序リスト(これはランキングである)中の高いところに現れ、「ランキングが高い」ピクチャを含むショットは、最終的な画像サマリー中に表される(又はより多くのピクチャで表される)確率が高い。これは、追加的規則が、最終的画像サマリーに含まれ得るショットからのピクチャ数を制限したとしても、本当である。どのショットの実際の加重も、さまざまな実施形態では、順序AQリストにおけるそのショットの構成ピクチャの位置に等しい(又はそれに基づく)。例えば、ショットは、そのショットのピクチャの(順序AQリストにおける)平均位置に等しい(又はそれに基づく)、又はそのショットのすべてのピクチャの最高位置に等しい(又はそれに基づく)加重を有する。
本願では、多くの独立なシステムや製品を提供する。例えば、本願は元のビデオ及びスクリプトで始まる、画像サマリーを生成するシステムを説明する。しかし、本願は他の多数のシステムも説明している。例えば:
−システム400の各ユニットは別個かつ独立なエンティティ及び発明である。よって、例えば、同期システムは例えば同期ユニット410に対応し、加重システムは加重ユニット420に対応し、割り当てシステムは割り当てユニット430に対応し、評価システムは評価ユニット440に対応し、選択システムは選択ユニット450に対応し、プレゼンテーションシステムはプレゼンテーションユニット460に対応し得る。
−さらに、少なくとも1つの加重及び割り当てシステムは、シーン(又はビデオのその他の部分)を加重して、加重に基づきシーン(又はビデオのその他の部分)間にピクチャの割り当てをアロケートする機能を含む。加重及び割り当てシステムの一実施形態は、加重ユニット420と割り当てユニット430とにより構成される。
−さらに、少なくとも1つの評価及び選択システムは、ビデオ中のピクチャを評価し、その評価に基づいて、画像サマリーに含めるあるピクチャを選択する機能を含む。評価及び選択システムの一実施形態は、評価ユニット440と選択ユニット450とにより構成される。
−さらに、少なくとも1つの割り当て及び選択システムは、ビデオ中のシーンにピクチャ割り当て(picture budget)をアロケートし、次いで、画像サマリーに含めるあるピクチャを(割り当てに基づいて)選択する機能を含む。割り当て及び選択システムの一実施形態は、割り当てユニット430と選択ユニット450とにより構成される。割り当て及び選択システムのさまざまな実施形態では、評価ユニット440により実行されるのと同様な評価機能も含まれる。
本願で説明した実施形態は一以上のさまざまな利点を有する。かかる利点には、例えば次のものが含まれる:
−画像サマリーを生成するプロセスを提供する。該プロセスは、(i)ユーザ入力に適合し、(ii)ビデオ中の各ピクチャを評価することにより粒度が細かい、(iii)シーン、ショット、及び個別ピクチャを分析することにより階層的である、
−シーン、ショット及びハイライトピクチャを含む階層的で粒度が細かい構成の異なるレベルに加重をアサインする、
−例えば、ビデオ中でのシーンの位置、主要キャラクタの登場頻度、シーンの長さ、シーン中のハイライトされたアクション又はオブジェクトのレベル/量などの一以上のフィーチャを考慮することにより、異なる重要度レベル(加重)をシーン(又はその他のビデオ部分)に対して特定する、
−画像サマリーのハイライトピクチャを選択する際にピクチャの「アピール品質(appealing quality)」を考慮する、
−シーン、ショット及びハイライトピクチャを確定するナレーション特性(narration property)を保つ。ここで、「ナレーション特性」を保つとは、画像サマリーの一般的な視聴者がその画像サマリーを見るだけでそのビデオのストーリーを理解できるように、画像サマリーにおいてビデオのストーリーを保存することを言う、
−例えば、ハイライトアクション/ワードの存在や主要キャラクタの存在を考慮することにより、加重又はランキングを決定する時、シーン、ショット又はピクチャが以下に「面白い」かに関する要因を考慮する、
−画像サマリーを生成するのにシーン、ショット及び個々のピクチャを分析する階層的プロセスにおいて次の要因の一以上を用いる:(i)開始シーンと終了シーンの優遇、(ii)主要キャラクタの登場頻度、(iii)シーンの長さ、(iv)シーン中のハイライトアクション又はオブジェクトのレベル、又は(v)ピクチャの「アピール品質」係数。
本願は、異なるさまざまな実施形態環境で利用でき、異なるさまざまな目的に利用できる実施形態を提供する。限定ではないが、幾つかの例には次のものが含まれる:
−実施形態は、DVDの自動シーン選択メニューや過度の(「OTT」)ビデオアクセスに利用される。
−実施形態は疑似トレイラー生成に用いられる。例えば、画像サマリーは広告として提供される。画像サマリーの各ピクチャは、ピクチャのクリックにより、そのピクチャから始まるビデオのクリップをユーザに提供する。クリップの長さはさまざまな方法で決定できる。
−実施形態は例えばappとしてパッケージされ、(さまざまな映画やテレビシリーズなどの)ファンは、エピソードの、シーズンの、又はシリーズ全体のサマリーなどを生成できる。ファンは、例えば、関連ビデオを選択し、又はシーズンあるいはシリーズのインジケータを選択する。これらの実施形態は、例えば、ユーザが、各番組をつぶさに見ることなく、数日で番組の全シーズンを「見る」ことを欲するときに有用である。これらの実施形態は、前のシーズンをレビューするのに、又は前に見たことを思い出させるのにも有用である。これらの実施形態は、エンターテイメントダイアリーとして用いることができ、ユーザは見たコンテンツを追跡することができる。
−完全に構成されたスクリプト無しに(例えば、クローズドキャプションのみで)動作する実施形態は、テレビ信号を調べて処理することにより、テレビジョンで動作可能である。テレビ信号はスクリプトを含まないが、かかる実施形態は追加的情報(例えば、スクリプト)を必要としない。かかる実施形態は、見たすべての番組の画像サマリーを自動的に生成するように設定できる。これらの実施形態は、例えば、(i)エンターテイメントダイアリーの生成、又は(ii)親が自分の子供がテレビで見たものを追跡するのに有用である。
−実施形態は、上記のようにテレビで動作してもしなくても、電子番組ガイド(「EPG」)番組記述を改善するのに用いられる。例えば、幾つかのEPGディスプレイは映画又はシリーズエピソードの3行テキスト記述のみを表示する。さまざまな実施形態では、その替わりに、潜在的な視聴者に対して番組の要点を示す、対応する関連ダイアローグとともにピクチャ(又はクリップ)の自動的抜粋を提供する。かかる実施形態は、番組の放送前の、プロバイダーにより提供される番組に関するバルクラン(bulk−run)であり、結果として得られる抜粋はEPGを通して利用できる。
本願は複数の図面を提供し、それには図1の階層構造、図2のスクリプト、図4のブロック図、図3及び7−8のフロー図、及び図5−6のスクリーンショットが含まれる。各図は、さまざまな実施形態を開示している。
−例えば、ブロック図は、装置又はシステムの機能ブロックの相互接続を示す。しかし、言うまでもなく、ブロック図はプロセスフローの記述も提供する。一例として、図4は、図4のブロックの機能を実行するフロー図も表す。例えば、加重ユニット420のブロックは、シーン加重を行うオペレーションも表し、割り当てユニット430のブロックはシーン割り当てを行うオペレーションも表す。図4の他のブロックはこのフロープロセスを説明では同様に解釈される。
−例えば、フロー図はフロープロセスを示す。しかし、言うまでもなく、フロー図は、そのフロープロセスを実行するシステム又は装置の機能ブロック間の相互接続も提供する。例えば、図3を参照して、同期オペレーション320のブロックは、ビデオ及びスクリプトを同期する機能を実行するブロックも表す。図3の他のブロックはこのシステム/装置の説明では同様に解釈される。さらに、図7−8は、各システム又は装置を同様に記述すると解釈できる。
−例えば、シーンショットはユーザに表示されるスクリーンを示す。しかし、言うまでもなく、スクリーンショットは、ユーザとインターラクトするフロープロセスも示す。例えば、図5は、ユーザに画像サマリーを構成するテンプレートを提示し、ユーザからの入力を受け、次いで画像サマリーを構成し、場合によってはプロセスを繰り返し、画像サマリーをリファインするプロセスも示す。さらに、図6は、各フロープロセスを同様に記述すると解釈できる。
このように、多数の実施形態が提供される。しかし、留意点として、説明した実施形態の変形も想定でき、本開示の範囲内に入ると考えられる。また、説明した実施形態の特徴と態様は他の実施形態にも適合できる。
さまざまな実施形態では、「画像(images)」及び/又は「ピクチャ(pictures)」に言及した。「画像」及び「ピクチャ」との用語は、本文献を通して交換可能に使われ、広義語であることを意図している。「画像」又は「ピクチャ」は例えば、フレーム又はフィールドの全部又は一部であってもよい。「ビデオ(video)」との用語は一連の画像(又はピクチャ)を指す。画像又はピクチャは、例えば、さまざまなビデオコンポーネントやその組み合わせを含み得る。かかるコンポーネント又はその組み合わせは、例えば、輝度、クロミナンス、(YUV又はYCbCr又はYPbPr)のY,(YUVのU),(YUVの)V,(YCbCrの)Cb,(YCbCrの)Cr,(YPbPr)のPb,(YPbPrの)Pr,(RGBの)赤,(RGBの)緑,(RGBの)青,S−Video,及びこれらのコンポーネントのネガティブ又はポジティブを含む。「画像」又は「ピクチャ」は、追加的に又は代替的に、さまざまな異なるタイプのコンテンツを含み、これには、例えば、典型的な2次元ビデオ、エクスポージャマップ、2次元ビデオピクチャのディスパリティマップ、2次元ビデオピクチャに対応する奥行きマップ、又はエッジマップなどを含む。
本原理の「一実施形態」等と言う場合、本発明の少なくとも1つの実施形態に含まれるその実施形態に関して説明する具体的な特徴、構造、特性などを意味する。それゆえ、本明細書を通していろいろなところに記載した「一実施形態において」等と言った場合、必ずしもすべてが同じ実施形態を参照するものではない。
また、本願とその特許請求の範囲において、様々な情報を「判断(determining)」する旨を記載した。情報の判断には、例えば、その情報の推定、その情報の計算、その情報の予測、またはその情報のメモリからの読み出しのうちの一以上が含まれ得る。
さらに、本願とその特許請求の範囲において、様々な情報を「アクセス(accessing)」する旨を記載した。情報へのアクセスは、例えば、情報の受け取り、情報の読み出し(例えば、メモリからの読み出し)、情報の記憶、情報の処理、情報の送信、情報の移動、情報のコピー、情報の削除、情報の計算、情報の決定、情報の予測、又は情報の推定などの一以上を含み得る。
言うまでもなく、例えば、「A/B」、「A及び/又はB」、および「AとBの少なくとも一方」のうちの「及び/又は」および「少なくとも一方」などと言うとき、第1のオプション(A)のみを選択する場合、第2のオプション(B)のみを選択する場合、又は両方のオプション(AとB)を選択する場合を含むものとする。別の例として、例えば、「A、B、及び/又はC」、および「A、B、及びCの少なくとも一方」、及び「A、B、またはCの少なくとも一方」などと言うとき、第1のオプション(A)のみを選択する場合、第2のオプション(B)のみを選択する場合、第3のオプション(C)のみを選択する場合、第1と第2のオプション(AとB)のみを選択する場合、第2と第3のオプション(BとC)を選択する場合、第1と第3のオプション(AとC)を選択する場合、又は3つすべてのオプション(AとBとC)を選択する場合を含むものとする。本技術分野及び関連技術分野の当業者には明らかなように、これは多数の場合にも拡張できる。
また、多くの実施形態は、例えば、ポストプロセッサやプリプロセッサなどのプロセッサに実装できる。本願で説明したプロセッサは、さまざまな実施形態では、例えば、集合的に、プロセス、機能又はオペレーションを実行するように構成された複数のプロセッサ(サブプロセッサ)を含む。例えば、システム400は、集合的にシステム400のオペレーションを実行するように構成された複数のサブプロセッサを用いて実施できる。
ここで説明した実施形態は、方法またはプロセス、装置、またはソフトウェアプログラム、データストリーム、又は信号として実施できる。1つの形式の実施形態の場合で説明した(例えば、方法としてのみ説明した)場合であっても、説明した機能の実施形態は他の形式(例えば、装置やプログラム)でも実施できる。装置は例えば適切なハードウェア、ソフトウェア、及びファームウェアで実施可能である。上記の方法は、例えばプロセッサ等の装置で実施可能である。プロセッサとは、処理装置一般を指し、例えばコンピュータ、マイクロプロセッサ、集積回路、プログラマブル論理デバイスなどを指す。
プロセッサは、エンドユーザ間での情報通信を行う、コンピュータ、ラップトップ、セルラー電話、タブレット、ポータブル/パーソナル・デジタル・アシスタント(PDA)などのデバイス、及びその他の通信デバイスも含む。
ここに説明した様々なプロセスと特徴の実施形態は、異なるいろいろな装置やアプリケーションで実施できる。かかる装置の例には、エンコーダ、デコーダ、ポストプロセッサ、プリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、テレビジョン、セットトップボックス、ルータ、ゲートウェイ、モデム、ラップトップ、パーソナルコンピュータ、タブレット、セルラー電話、PDA、その他の通信デバイスが含まれる。言うまでもなく、上記の機器は可動なものであってもよいし、移動体に組み込まれていてもよい。
また、上記の方法は、プロセッサによって実行される命令で実施することができる。かかる命令(及び/又は、一実施形態で生成されるデータ値)は、例えば集積回路、ソフトウェア担体その他の記憶デバイス、例えば、ハードディスク、コンパクトディスク(CD)、光ディスク(例えば、デジタルバーサタイルディスクやデジタルビデオディスクと呼ばれることが多いDVDなど)、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)に記憶できる。上記の命令は、プロセッサ読み取り可能媒体上に化体されたアプリケーションプログラムであってもよい。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又はこれらの組み合わせであってもよい。命令は、例えば、オペレーティングシステム、アプリケーション、又はこれらの組み合わせに見いだすことができる。それゆえ、プロセッサは、プロセスを実行するように構成されたデバイス、及びプロセスを実行する命令を記憶したプロセッサ読み取り可能媒体(記憶デバイスなど)を含むデバイスの両方として特徴付けられる。さらに、プロセッサ読み取り可能媒体は、命令に加えて、又は命令の替わりに、実施形態により生成されたデータ値を記憶することができる。
当業者には言うまでもないが、実施形態は、例えば記憶または送信され得る情報を担うようフォーマットされた種々の信号を生成することもできる。情報には、例えば、方法を実行する命令や、説明した実施形態により生成されるデータが含まれ得る。例えば、信号は、データとして書き込み又は読み出しのシンタックスの規則を担うようにフォーマットされてもよいし、又はデータとしてそのシンタックス規則を用いて生成された実際のシンタックス値を担うようにフォーマットされてもよい。かかる信号は、(例えば、無線周波数のスペクトルを用いた)電磁波やベースバンド信号などとしてフォーマットし得る。フォーマット化には、例えば、データストリームの符号化、符号化したデータストリームによるキャリアの変調が含まれる。信号が担う情報は例えばアナログ情報やデジタル情報であってもよい。知られているように、信号は様々な異なる有線リンクまたは無線リンクで送信できる。信号はプロセッサ読み取り可能媒体に記憶してもよい。
実施形態を説明した。しかし、言うまでもなく様々な修正を行うことができる。例えば、別の実施形態の要素を組み合わせ、補充し、修正し、または削除して、他の実施形態を形成してもよい。また、当業者には言うまでもないが、開示した構成やプロセスを他の構成やプロセスで置き換えてもよく、その結果の実施形態が少なくとも実質的に同じ機能を果たし、少なくとも実質的に同じように、開示した実施形態と実質的に同じ結果を達成する。したがって、本願ではこれらの実施形態及びその他の実施形態を想定している。







  1. ビデオの第1の部分と前記ビデオの第2の部分とにアクセスするステップと、
    前記第1の部分の加重を決定するステップと、
    前記第2の部分の加重を決定するステップと、
    前記ビデオの画像サマリーにおいて前記第1の部分のいくつのピクチャを使うか特定する第1の数を決定するステップであって、前記第1の数は1以上であり、前記第1の部分の加重に基づいて決定される、ステップと、
    前記ビデオの画像サマリーにおいて前記第2の部分のいくつのピクチャを使うか特定する第2の数を決定するステップであって、前記第2の数は1以上であり、前記第2の部分の加重に基づいて決定される、ステップと、を有する方法。

  2. 前記第1の数を決定するステップは、さらに、前記画像サマリーの中の総ページ数の値に基づく、請求項1に記載の方法。

  3. 前記画像サマリーの中の総ページ数の値はユーザが提供した値である、
    請求項2に記載の方法。

  4. 前記第1の部分の中の第1のピクチャと前記第1の部分の中の第2のピクチャにアクセスするステップと、
    前記第1のピクチャの一以上の特徴に基づき前記第1のピクチャの加重を決定するステップと、
    前記第2のピクチャの一以上の特徴に基づき前記第2のピクチャの加重を決定するステップと、
    前記第1のピクチャの加重と前記第2のピクチャの加重とに基づいて、前記画像サマリーで用いられる前記第1の部分の前記第1の数のピクチャの一部となる前記第1のピクチャと前記第2のピクチャのうち一以上を選択するステップと、をさらに有する、
    請求項1に記載の方法。

  5. 前記第1のピクチャと前記第2のピクチャのうち一以上を選択するステップは、加重が小さいピクチャを選択する前に加重が大きいピクチャを選択するステップを有する、
    請求項4に記載の方法。

  6. 前記第1のピクチャと前記第2のピクチャのうち一以上を選択するステップは、前記第1の部分においてショットごとに一以下のピクチャを選択するステップを有する、
    請求項4に記載の方法。

  7. 前記第1のピクチャの一以上の特徴は、信号対雑音比、シャープネスレベル、カラー調和レベル又は美的レベルを含む、請求項4に記載の方法。

  8. 前記画像サマリーに含まれる前記ビデオの一以上のピクチャを選択するステップと、
    前記画像サマリーを提供するステップとをさらに有する、請求項1に記載の方法。

  9. 前記画像サマリーを提供するステップは、(i)画像サマリーを提示するステップ、(ii)前記画像サマリーを記憶するステップ、又は(iii)前記画像サマリーを送信するステップのうち一以上を有する、請求項8に記載の方法。

  10. 前記第1の数を決定するステップは、(i)前記第1の部分の加重、及び(ii)加重されたすべての部分の総加重との割合に基づく、請求項1に記載の方法。

  11. 前記第1の数を決定するステップは、(i)前記画像サマリーの中の総ページ数に対するユーザが提供した値と、(ii)前記第1の部分の加重と加重されたすべての部分の総加重との比率との積に基づく、請求項10に記載の方法。

  12. 前記第1の数を決定するステップは、前記画像サマリーの中の総ページ数に対するユーザが提供した値に基づく、請求項1に記載の方法。

  13. 前記第1の部分の加重は、前記第2の部分の加重より大きく、前記第1の数は少なくとも前記第2の数と同じ大きさである、請求項1に記載の方法。

  14. 前記第1の部分の加重を決定するステップは、前記ビデオに対応するスクリプトからの入力に基づく、請求項1に記載の方法。

  15. 前記第1の部分の加重を決定するステップは、(i)前記ビデオの一以上の主要キャラクタの前記第1の部分における登場率(prevalence)、(ii)前記第1の部分の長さ、(iii)前記第1の部分にあるハイライト数、又は(iv)前記ビデオにおける前記第1の部分の位置のうち一以上に基づく、請求項1に記載の方法。

  16. 前記ビデオの一以上の主要キャラクタの前記第1の部分における登場率は、前記ビデオの主要キャラクタの前記第1の部分における登場回数に基づく、
    請求項15に記載の方法。

  17. 主要キャラクタは前記ビデオにわたる登場頻度がより高いことにより示され、
    第1の主要キャラクタの前記第1の部分における登場率は、(i)前記第1の主要キャラクタの前記ビデオにわたる登場頻度と、(ii)前記第1の主要キャラクタの前記第1の部分における登場回数とをかけることにより、少なくとも部分的に決定される、
    請求項16に記載の方法。

  18. 前記第1の主要キャラクタの前記ビデオにわたる登場頻度は、前記第1の主要キャラクタの前記ビデオにわたる登場回数をすべてのキャラクタの前記ビデオにわたる登場総数で割ったものに基づく、請求項17に記載の方法。

  19. ハイライトはハイライトアクション又はハイライトオブジェクトの一以上を含む、
    請求項15に記載の方法。

  20. 前記ビデオの部分はシーン、ショット、シーンのグループ、又はショットのグループである、請求項1に記載の方法。

  21. 前記第1の部分の加重はユーザ入力に基づく、請求項1に記載の方法。

  22. 前記第1の部分の加重を前記ビデオの他の部分の各加重と比較することにより、前記第1の部分を前記画像サマリーに表すか決定するステップをさらに有する、
    請求項1に記載の方法。

  23. 前記ビデオの画像サマリーを設定するための一以上のパラメータを含む設定ガイドから一以上のパラメータにアクセスするステップと、
    前記ビデオの画像サマリーを生成するステップであって、前記画像サマリーは前記設定ガイドからアクセスされた一以上のパラメータに従うステップとをさらに有する、
    請求項1に記載の方法。

  24. 請求項1乃至23いずれか一項に記載の方法を実行するように構成された装置。

  25. (i)ビデオの第1の部分と前記ビデオの第2の部分とにアクセスして、(ii)前記第1の部分の加重を決定し、(iii)前記第2の部分の加重を決定するように構成された加重ユニットと、
    (i)前記第1の部分からいくつのピクチャを前記ビデオの画像サマリーに用いるか特定する第1の数であって、前記第1の数は1以上であり、前記第1の部分の加重に基づいて決定される第1の数を決定し、(ii)前記第2の部分からいくつのピクチャを前記ビデオの画像サマリーに用いるか特定する第2の数であって、前記第2の数は1以上であり、前記第2の部分の加重に基づいて決定される第2の数を決定するように構成されたピクチャ割り当てユニットと、
    請求項24に記載の装置。

  26. ビデオの第1の部分と前記ビデオの第2の部分とにアクセスする手段と、
    前記第1の部分の加重を決定する手段と、
    前記第2の部分の加重を決定する手段と、
    前記ビデオの画像サマリーにおいて前記第1の部分のいくつのピクチャを使うか特定する第1の数を決定する手段であって、前記第1の数は1以上であり、前記第1の部分の加重に基づいて決定される、手段と、
    前記ビデオの画像サマリーにおいて前記第2の部分のいくつのピクチャを使うか特定する第2の数を決定する手段であって、前記第2の数は1以上であり、前記第2の部分の加重に基づいて決定される、手段と、を有する、請求項24に記載の装置。

  27. 請求項1乃至23いずれか一項に記載の方法を集合的に実行するように構成された一以上のプロセッサを有する、請求項24に記載の装置。

  28. 一以上のプロセッサに請求項1乃至23いずれか一項に記載の方法を集合的に実行させる命令を記憶したプロセッサ読み取り可能媒体。




 

 

Patent trol of patentswamp
類似の特許
ビデオの画像サマリ // JP2016517640
さまざまな実施は、コミックブック又は物語抽象とも呼ばれる、画像サマリを提供することに関する。ある特定の実施では、構成ガイドからの1つ又は複数のパラメータがアクセスされる。構成ガイドは、ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む。ビデオはアクセスされる。ビデオの画像サマリが生成される。画像サマリは、構成ガイドからの1つ又は複数のアクセスされたパラメータに従う。
様々な実施形態において、メディアプラットフォームの先取り設定に基づいて、推薦されるメディアコンテンツを先取りするための方法及びシステムが提供される。推薦されるメディアコンテンツについての推薦メディアレコードが受信される。推薦メディアレコードは、推薦プロファイルの推薦基準に基づいて生成される。推薦メディアレコードはメディアプラットフォームに関連する。メディアプラットフォームは、メディアプラットフォームの先取り設定に基づいて、推薦メディアレコードに関連する推薦されるメディアコンテンツをメディアプラットフォームに自動的にどのようにダウンロードするかを決定し、デフォルトの先取り設定は、推薦されるメディアコンテンツをメディアプラットフォームに自動的にダウンロードする結果をもたらし、カスタマイズされた先取り設定は、カスタマイズされた先取り設定に基づいて、推薦されるメディアコンテンツを自動的にダウンロードする結果をもたらす。推薦されるメディアコンテンツをダウンロードする仕方を決定すると、メディアプラットフォームの先取り設定に基づいて、推薦されるメディアコンテンツがダウンロードされる。
本技法の1つの態様によれば、方法は、1つまたは複数の画像キャプチャデバイスから、1つまたは複数のビデオを受信することを含む。この方法はさらに、1つまたは複数のビデオから、人のビデオループを生成することを含む。ビデオループは、商業地区における人を示す。この方法はまた、ビデオループから、動作クリップを生成することを含む。動作クリップは、商業地区において、人によって実行された疑わしい動作を含む。この方法はさらに、ビデオループおよび動作クリップを含む、人の行動サマリを生成することを含む。
【選択図】図1
【課題】異なるグループの同期を調整し、マルチカメラメディアクリップを作成するメディア編集アプリケーションを提供する。
【解決手段】アプリケーションは、マルチレビューメディアクリップを作成するために同じイベントのいくつかのメディアクリップの選択を受け取る。メディアメディアクリップと共に記憶されクリップのソースを特定するメタデータに基づいて、アプリケーションは、クリップを少なくとも2つの異なるグループ(静止画像及びビデオ)に自動的に割り当てる。グループごとに、タイムスタンプ又は日時などのタイミングメタデータを使用して、アプリケーションは、クリップをタイムラインに沿って順序付けし、最初に異なるクリップを同期させ、異なるグループに割り当てられたクリップのメタデータを比較する。
【選択図】図1
ネットワークにおいて、少なくとも1つの映像サービスプロバイダ1のユーザに対する映像コンテンツBを自動的に要約するためのプロセスであって、そのような映像サービスプロバイダ1のユーザによって生成された少なくとも2つの映像マッシュアップAに関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショットC、D、E、Fを含む、監視するステップと、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットCを識別するステップと、前記識別されたショットの少なくとも1つを備えた映像要約S1、S2を編集するステップと、を備えた、プロセス。
一般に、本開示は、ビジュアル・キュー検出に基づく閲覧者の反応推定によるビデオ・インデクシング・システムのための方法及びシステムを提供する。本方法は、ユーザにより生成されたビジュアル・キューを検出する検出ステップであって、ビジュアル・キューは、ユーザがビデオを閲覧したことに応じて生成される、検出ステップと、ビジュアル・キューをユーザに関連付けられた感情空間にマッピングするステップと、マッピングに基づいてユーザの感情事象を推定するステップと、メタデータによりビデオをインデクシングするインデクシング・ステップであって、メタデータは、推定された感情事象及び推定された感情事象に関連付けられたタイミング・データを含む、インデクシング・ステップと、を含み得る。本方法は、ビデオ・インデクスに基づく、ビデオの要約、分割、及び検索をさらに含み得る。
本発明は、視聴覚オブジェクトの要約を提供するための方法に関する。方法は、視聴覚オブジェクトから情報を取得するステップと(101)、前記視聴覚オブジェクトを特定するステップと(102)、視聴覚オブジェクトに関連する、取得した情報の時間インデックスを決定するステップと(103)、そして、特定された視聴覚オブジェクトのある部分の要約を提供するステップであって、部分は、先頭と特定された視聴覚オブジェクトの決定された時間インデックスの間に含まれる、提供するステップとを含む。
ここに開示する手順、システム、及び教示は、ゲートウェイデバイスを通してアクセスされたコンテンツをモニタリングできるゲートウェイデバイスで実施できる。アクセスされたコンテンツの画面内容が取得され、捕捉された画面内容から、アクセスされたコンテンツのログが生成される。異なる時点においてリモートコントロールを用いてログ中をナビゲートしてコンテンツのキャプチャされた画面内容を見るユーザに、ログが表示され得る。
動画をデコーディングするための第1デコーダー及び第1デコーダーを制御する制御部を有する装置の多重動画再生方法であって、制御部により、第1デコーダーが使用中であるか否かを判断する段階と、第1デコーダーが使用中の場合、第2デコーダーとして制御部が動画をデコーディングして動画クリップを生成する段階と、動画クリップを記憶部に保存する段階と、プレビュー要請イベントの検出に応答して記憶部に保存された動画クリップを同時再生する段階と、を有する。
【選択図】図3
芯が、伸縮性フィラメントであり、かつポリトリメチレンテレフタラート系ステープル繊維を第二のステープル繊維と組み合わせた鞘によって取り囲まれたコアスパン糸。このコアスパン糸を使用して布地が作られる。このコアスパン糸から生産される布地は、高伸縮性であり、かつ高い寸法安定性、低い成長、および高い回復率を有する。
To top