ビデオの画像サマリ

 

さまざまな実施は、コミックブック又は物語抽象とも呼ばれる、画像サマリを提供することに関する。ある特定の実施では、構成ガイドからの1つ又は複数のパラメータがアクセスされる。構成ガイドは、ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む。ビデオはアクセスされる。ビデオの画像サマリが生成される。画像サマリは、構成ガイドからの1つ又は複数のアクセスされたパラメータに従う。

 

 

ビデオの画像サマリに関係する実施が記述される。様々な個別の実施は、構成可能な、ファイン−グレーン(fine-grain)の、階層的な、シーンベースの分析を使用して、ビデオの画像サマリを作成することに関係する。
ビデオはしばしば、長くなり得るものであり、潜在的なユーザが、ビデオに何が含まれるかを決定すること、および、ユーザがビデオを見たいかどうかを決定することを困難にする。様々なツールが、さらにはストーリーブック、またはコミックブック、または物語抽象(narrative abstraction)と呼ばれる、画像サマリを作成するために存在する。画像サマリは、ビデオのコンテンツを要約する、または表すことが意図された、一連の静止ショットを提供する。画像サマリを作成するための利用可能なツールを改善すること、および、作成される画像サマリを改善し続ける必要がある。
一般的な特徴によると、構成ガイドからの1つまたは複数のパラメータがアクセスされる。上記構成ガイドは、ビデオの画像サマリを構成するための1つまたは複数のパラメータを含む。上記ビデオはアクセスされる。上記ビデオに対する上記画像サマリが生成される。上記画像サマリは、上記構成ガイドからの上記1つまたは複数のアクセスされたパラメータに従う。
1つまたは複数の実施の詳細は、添付の図面および下記の記述で説明される。1つの個別の様式で記述される場合でさえ、実施は、様々な様式で構成または実施され得るということが明確であるはずである。例えば実施は、方法として行われ得るものであり、または、例えば、動作群を行うように構成される装置、もしくは、動作のセットを行うための命令を記憶する装置などの装置として実施され得るものであり、または、信号で実施され得る。他の特徴および特性は、その付随する図面および特許請求の範囲との連関で考えられる、その後に続く詳細な記述から明らかとなろう。
ビデオシーケンスに対する階層的構造の例を示す図である。 注釈付きスクリプト、または脚本の例を示す図である。 画像サマリを生成するためのプロセスの一例のフロー線図を示す図である。 画像サマリを生成するためのシステムの一例のブロック線図を示す図である。 画像サマリを生成するためのプロセスに対するユーザインターフェイスの一例のスクリーンショットを示す図である。 画像サマリからの出力ページの一例のスクリーンショットを示す図である。 画像サマリ内のピクチャをシーンに割り振るためのプロセスの一例のフロー線図を示す図である。 希望するページ数に基づき画像サマリを生成するためのプロセスの一例のフロー線図を示す図である。 構成ガイドからのパラメータに基づき画像サマリを生成するためのプロセスの一例のフロー線図を示す図である。
画像サマリは有利には、例えば、高速ビデオブラウジング、メディアバンクプレビューイング、または、メディアライブラリプレビューイングを含み、ユーザ生成された、および/または、ユーザ生成されないコンテンツを管理する(検索する、索出する、その他)、多くの環境およびアプリケーションで使用され得る。メディア消費に対する需要が増大していると、画像サマリを使用し得る環境およびアプリケーションは、増えることが予想される。
画像サマリ生成ツールは、完全自動であり、または、構成のためのユーザ入力を可能とし得る。各々は、その利点および欠点を有する。例えば、完全自動な解決策からの結果は、迅速に提供されるが、消費者の多くには魅力的でない場合がある。しかしながら対照的に、ユーザ構成可能な解決策との複雑な対話は、柔軟性および制御を可能とするが、初心者の消費者を挫折させる場合がある。様々な実施が、自動的な動作およびユーザ構成可能な動作のバランスをとることを試行する実施を含めて、この出願で提供される。1つの実施は、消費者に、出力画像サマリに対して希望するページ数の単純な入力を指定することにより、画像サマリをカスタマイズする能力を提供する。
図1を参照すると、階層的構造100が、ビデオシーケンス110に対して提供されている。ビデオシーケンス110は、一連のシーンを含み、図1は、ビデオシーケンス110を始めるシーン1 112、シーン1 112の後に続くシーン2 114、ビデオシーケンス110の2つの終了からの不特定の距離でのシーンであるシーンi 116、および、ビデオシーケンス110内の最後のシーンであるシーンM 118を例示する。
シーンi 116は、一連のショットを含み、階層的構造100は、シーンi 116を始めるショット1 122、シーンi 116の2つの終了からの不特定の距離でのショットであるショットj 124、および、シーンi 116内の最後のショットであるショットKi 126を例示する。
ショットj 124は、一連のピクチャを含む。これらのピクチャの1つまたは複数は、典型的には、画像サマリを形成するプロセスで、ハイライトピクチャ(しばしばハイライトフレームと呼ばれる)として選択される。階層的構造100は、第1のハイライトピクチャ132、第2のハイライトピクチャ134、および、第3のハイライトピクチャ136を含む、ハイライトピクチャとして選択されている3つのピクチャを例示する。典型的な実施では、ハイライトピクチャとしてのピクチャの選択は、さらには、画像サマリに含まれているピクチャを結果として生じさせる。
図2を参照すると、注釈付きスクリプト、または脚本200が提供されている。スクリプト200は、典型的なスクリプトの様々なコンポーネントを、コンポーネント間の関係性と同じように良好に例示する。スクリプトは、例えばワープロ文書を含む、種々の形式で提供され得る。
スクリプトまたは脚本は頻繁に、映画またはテレビ番組に対する脚本家により書かれた作品として定義される。スクリプトでは、各々のシーンは典型的には、例えば、「誰」(キャラクタまたは複数のキャラクタ)、「何」(状況)、「いつ」(時刻)、「どこ」(動作の場)、および、「なぜ」(動作の目的)を定義するように記述される。スクリプト200は、単一のシーンに対するものであり、後に続くコンポーネントを、それらのコンポーネントに対する典型的な定義および解説とともに含む。
1.シーン見出し:シーン見出しは、新しいシーン開始を示すように書かれ、一部のワードが短縮され、すべてのワードが大文字にされた状態で、1行でタイプされる。具体的には、シーンの場所は、シーンが生じる時刻の前に記録される。屋内はINT.と短縮され、例えば構造の内側を指す。屋外はEXT.と短縮され、例えば屋外を指す。
スクリプト200は、屋外、Jones牧場の小屋の前方であるとして、シーンの場所を識別するシーン見出し210を含む。シーン見出し210はさらには、日没として時刻を識別する。
2.シーン描写:シーン描写は、左の余白から右の余白に向かってページの間にタイプされる、シーンの描写である。キャラクタの名は、それらが描写で使用される最初にすべて大文字で表示される。シーン描写は典型的には、何がスクリーン上に出現するかを記述し、これを指し示すためのワード「ビデオ上で」により前置きをされ得る。
スクリプト200は、ワード「ビデオ上で」により指し示されるように、何がビデオ上に出現するかを記述するシーン描写220を含む。シーン描写220は、3つの部分を含む。シーン描写220の第1の部分は、Tom Jonesを紹介し、彼の歳(「22」)、外見(「風化させられた顔」)、背景(「屋外での生活」)、場所(「塀の上に」)、および、現時の活動(「地平線を見る」)を与える。
シーン描写220の第2の部分は、一時点でのTomの心の状態(「心は、何羽かの鳥が頭上を飛ぶようにさまよう」)を記述する。シーン描写220の第3の部分は、Jackの助力の申し出への応答での動作(「私たちを見て、立ち上がる」)を記述する。
3.話すキャラクタ:話しているキャラクタの名を指すためにすべて大文字が使用される。
スクリプト200は、3つの話すキャラクタ指示230を含む。第1および第3の話すキャラクタ指示230は、Tomが話しているということを示す。第2の話すキャラクタ指示230は、Jackが話しているということ、およびさらには、Jackはオフスクリーン(「O.S.」)である、すなわち、スクリーンに現れないということを示す。
4.独白:キャラクタが話しているテキストが、上述されたように、ページ中央のすべて大文字であるキャラクタの名の下に置かれる。
スクリプト200は、独白インジケータ240により指し示される独白の4つのセクションを含む。第1および第2のセクションは、Tomの犬に関する問題、および、それらの問題へのTomの反応を記述する、Tomの第1の独話に対するものである。独白の第3のセクションは、Jackの助力の申し出(「彼をあなたのためにトレーニングして欲しいですか?」)である。独白の第4のセクションは、Tomの返答(「ああ、してくれますか?」)である。
5.会話指示:会話指示は、キャラクタの独白が始まる前に、またはそれが始まる際に、キャラクタが見る、または話す様子を記述する。この会話指示は、キャラクタ名より下で、または、独白の内部の別個のライン上で、括弧内にタイプされる。
スクリプト200は、2つの会話指示250を含む。第1の会話指示250は、Tomが「鼻を鳴らす」ということを示す。第2の会話指示250は、Tomが「感謝の驚きの表情」を有するということを示す。
6.ビデオ遷移:ビデオ遷移は、解説不要であり、ビデオ内の遷移を示す。
スクリプト200は、表示されたシーンの終了でビデオ遷移260を含む。ビデオ遷移260は、次第に黒へ、および次いで、次のシーン(示されない)に対するフェードインを含む。
図3は、画像サマリを生成するためのプロセス300の一例のフロー線図を示す。プロセス300は、ユーザ入力(310)を受信することを含む。ユーザ入力を受信することは、例えば、パラメータは固定され得るものであり、ユーザによる選択を必要としない場合があるので、任意の動作である。しかしながらユーザ入力は、様々な実施では、
(i)例えばビデオファイル名、ビデオ解像度、および、ビデオモードを含む、画像サマリが望まれるビデオを識別する情報、
(ii)例えばスクリプトファイル名を含む、ビデオに対応するスクリプトを識別する情報、
(iii)例えば、画像サマリに対して望まれるページの最大数、画像サマリ内のページのサイズ、および/もしくは、画像サマリのページに対するフォーマット設定情報(例えば、画像サマリ内のピクチャ間の間隙に対するサイズ)を含む、望まれる画像サマリ出力を記述する情報、
(iv)画像サマリを生成する際に使用されることになるビデオの範囲、
(v)例えば、(i)重み付けとの関連によってこの出願で考察されるパラメータの任意のもの、(ii)重み付けで強調するための主要キャラクタの名(例えば、James Bond)、(iii)重み付けで強調するためのメインキャラクタの数に対する値、(iv)重み付けで強調するためのハイライト動作もしくは対象のリスト(例えばユーザは主として、ムービー内のカーチェイスに関心を引き起こされる場合がある)などの、シーン重み付けで使用されるパラメータ、
(vi)例えば、画像サマリに対して望まれるページの最大数を記述する情報などの、ビデオの様々な部分(例えば、シーン)に対して、画像サマリ内の利用可能なページを割り当てる(budget)際に使用されるパラメータ、
(vii)例えば、ピクチャ品質の尺度を選択するパラメータなどの、ビデオ内のピクチャを評価する際に使用されるパラメータ、ならびに/または、
(viii)例えば、ショットごとに選択されることになるピクチャの数などの、画像サマリに含めるためにシーンからピクチャを選択する際に使用されるパラメータ
の、1つまたは複数を含む。
プロセス300は、相互に対応するスクリプトおよびビデオを同期させること(320)を含む。例えば典型的な実施では、ビデオおよびスクリプトは、両方とも単一のムービーに対するものである。同期させる動作320の少なくとも1つの実施は、スクリプトを、すでにビデオと同期させられているサブタイトルと同期させる。様々な実施は、同期を、スクリプトのテキストをサブタイトルと相関させることにより行う。スクリプトはそのことにより、サブタイトルによって、ビデオタイミング情報を含むビデオと同期させられる。1つまたは複数のそのような実施は、例えば、M.Everingham、J.Sivic、および、A.Zisserman、「’Hello! My name is ... Buffy.’ Automatic Naming of Characters in TV Video」、Proc. British Machine Vision Conf.、2006(「Everingham」参照)に記述されているような動的タイムウォーピング方法などの、知られている技法を使用して、スクリプト−サブタイトル同期を行う。Everingham参照のコンテンツは、ここに参照によりそれらの全体で、動的タイムウォーピングの考察を含む、ただしそれに制限されない、すべての目的のために組み込まれている。
同期させる動作320は、同期させられるビデオを出力として提供する。同期させられるビデオは、元のビデオを、何らかの様式でスクリプトとの同期を示す追加的な情報も含む。様々な実施は、例えば、スクリプトの様々な部分に対応するピクチャに対するビデオタイムスタンプを決定し、次いで、それらのビデオタイムスタンプを、スクリプトの対応する部分に挿入することにより、ビデオタイムスタンプを使用する。
同期させる動作320からの出力は、様々な実施では、変更(例えば、注釈)、および、例えば上述されたような、注釈付きスクリプトを伴わない、元のビデオである。他の実施は、スクリプトを変更する代わりに、またはそれへの追加で、ビデオをまさに変更する。さらに他の実施は、ビデオまたはスクリプトのいずれも変更するのではなく、同期させる情報を別個に提供する。さらに、さらなる実施は、同期を行うことさえない。
プロセス300は、ビデオ内の1つまたは複数のシーンに重み付けすること(330)を含む。他の実施は、例えばショット、または、シーンのグループなどの、ビデオの異なる部分に重み付けする。様々な実施は、シーンの重みを決定する際に、後に続く要素の1つまたは複数を使用する。
1.ビデオ内の開始するシーン、および/または、ビデオ内の終了するシーン:開始および/または終了シーンは、様々な実施では、タイムインジケータ、ピクチャ番号インジケータ、または、シーン番号インジケータを使用して示される。
a.Sstartは、ビデオ内の開始するシーンを示す。
b.Sendは、ビデオ内の終了するシーンを示す。
2.メインキャラクタの出現頻度:
a.Crank[j]、j=1、2、3、…、Nであり、Crank[j]は、ビデオ内の第jのキャラクタの出現頻度であり、ただしNは、ビデオ内のキャラクタの総合的な数である。
b.Crank[j]=AN[j]/TOTALであり、ただしAN[j]は、第jのキャラクタの出現数であり、

である。出現数(キャラクタ出現)は、キャラクタがビデオ内にあるということの回数である。Crank[j]の値は、したがって、0から1の間の数であり、すべてのキャラクタのランク付けを、それらがビデオ内に出現する回数に基づき提供する。
キャラクタ出現は、例えば、スクリプトを検索することによってなど、様々な方途で決定され得る。例えば図2のシーンでは、名「Tom」は、シーン描写220内に2回、および、話すキャラクタ230として2回、出現する。名「Tom」の発生を計数することにより、私たちは例えば、(i)スクリプト内のワード「Tom」の何らかの出現により決定されるような、Tomがシーン内に出現するという事実を反映するための、1回の発生、(ii)例えば、「Tom」が、話すキャラクタ230のテキストのように出現する回数により決定されるような、別のキャラクタの介在する独白を伴わない独白の数を反映するための、2回の発生、(iii)「Tom」がシーン描写220のテキスト内に出現する回数を反映するための、2回の発生、または、(iv)「Tom」が、シーン描写220のテキスト、もしくは、話すキャラクタ230のテキストのいずれかの一部として出現する回数を反映するための、4回の発生を累算し得る。
c.Crank[j]は、降順の順で分類される。したがってCrank[1]は、最も頻繁に発生するキャラクタに対する出現頻度である。
3.シーンの長さ:
a.LEN[i]、i=1、2、…、Mは、典型的にはピクチャの数で測定される、第iのシーンの長さであり、ただしMは、スクリプト内で定義されるシーンの総合的な数である。
b.LEN[i]は、図4との関連によって、後述される同期ユニット410で算出され得る。スクリプト内に記述される各々のシーンは、ビデオ内のピクチャの期間にマッピングされることになる。シーンの長さは、例えば、シーンに対応するピクチャの数として定義され得る。他の実施は、シーンの長さを、例えば、シーンに対応するタイムの長さとして定義する。
c.各々のシーンの長さは、様々な実施では、後に続く公式により正規化される。
LEN[i]=LEN[i]/Video_Len、i=1、2、…、M、
ただし、

である。
4.シーン内のハイライトされる動作または対象のレベル:
a.Lhigh[i]、i=1、2、…、Mは、第iのシーン内のハイライトされる動作または対象のレベルとして定義され、ただしMは、スクリプト内で定義されるシーンの総合的な数である。
b.ハイライトされる動作または対象を伴うシーンは、例えば、スクリプトでのハイライトワード検出により検出され得る。例えば、例えば見る、転ずる、走る、登る、キスする等の、様々なハイライト動作ワード(または、ワードのグループ)を検出することによるものであり、または、例えばドア、テーブル、水、カー、銃、オフィス等の、様々なハイライト対象ワードを検出することによるものである。
c.少なくとも1つの実施形態ではLhigh[i]は、例えば、下記式によりスケール化される、第iのシーンのシーン描写に出現するハイライトワードの数により単純に定義され得る。
high[i]=Lhigh[i]/maximum(Lhigh[i]、i=1、2、…、M)
少なくとも1つの実施では、開始シーンおよび終了シーンを除いて、すべての他のシーン重み(シーン「i」に対する重みとして示される)は、下記式により算出される。

ただし、
− SHOW[j][i]は、ビデオの第jのメインキャラクタの、シーン「i」に対する出現数である。これは、シーン「i」で発生するAN[j]の一部である。SHOW[j][i]は、シーンを走査し、AN[j]を決定するために行われるのと同じタイプの計数を行うことにより算出され得る。
− W[j]、j=1、2、…、N、α、および、βは、重みパラメータである。これらのパラメータは、所望される結果が達せられるように、ベンチマークデータセットからのデータトレーニングによって定義され得る。あるいは重みパラメータは、ユーザによりセットされ得る。1つの個別の実施形態では、
W[1]=5、W[2]=3、および、W[j]=0、j=3、…、Nであり、
α=0.5であり、
β=0.1である。
様々なそのような実施では、SstartおよびSendは、画像サマリ内の開始シーンおよび終了シーンの表現を増やすために、最も高い重みを与えられる。これは、開始シーンおよび終了シーンが典型的にはビデオのナレーションにおいて重要であるので行われる。開始シーンおよび終了シーンの重みは、1つのそのような実施に対して、下記のように算出される。
SCEWeight[1]=SCEWeight[M]
=maximum(SCEwieght[i]、i=2、3、…、M−1)+1
プロセス300は、ビデオ内のシーンの中で画像サマリのピクチャを割り当てること(340)を含む。様々な実施が、ユーザが、ユーザ入力動作310で、ビデオ(例えば、ムービーコンテンツ)から生成される画像サマリの最大長さ(すなわち、PAGESと呼ばれる、ページの最大数)を構成することを可能とする。変数PAGESは、下記式を使用して、画像サマリのハイライトピクチャの最大数Thighlightに変換される。
highlight=PAGES*NUMFp
ただしNUMFpは、画像サマリの各々のページに割り振られるピクチャ(しばしばフレームと呼ばれる)の平均数であり、少なくとも1つの実施形態では5に設定され、さらには、(例えば、ユーザ入力動作310で)ユーザ対話式動作により設定され得る。
その入力を使用して、少なくとも1つの実施は、下記式から、第iのシーンに割り振られることになる、(画像サマリのハイライトピクチャ選択のための)ピクチャ割り当て数を決定する。

この式は、利用可能なピクチャの端数を、シーンの総合的な重みの端数に基づいて割り振り、次いで、天井関数を使用して切り上げる。割り当て動作の終了に向かって、Thighlightを超過することなくすべてのシーン割り当て数を切り上げることは可能でない場合があるということが予想されるべきである。そのような事例では、様々な実施は、例えばThighlightを超過し、他の実施は、例えば切り捨てることを始める。
様々な実施は、シーン以外のビデオの一部に重み付けするということを想起されたい。多くのそのような実施では、動作340は頻繁に、ビデオの重み付け部分(必ずしもシーンではない)の中で画像サマリのピクチャを割り当てる動作によって置き換えられる。
プロセス300は、シーン内の、または、より一般的にはビデオ内のピクチャを評価すること(350)を含む。様々な実施では、各々のシーン「i」に対して、魅力的品質(Appealing Quality)が、下記のように、シーン内のあらゆるピクチャに対して算出される。
1.AQ[k]、k=1、2、…、Tiは、第iのシーン内の各々の画像の魅力的品質を示し、Tiは、第iのシーン内のピクチャの総数である。
2.魅力的品質は、例えば、PSNR(ピーク信号ノイズ比(Peak Signal Noise Ratio))、鮮鋭度レベル、色彩調和レベル(例えば、ピクチャの色が相互に良好に調和するかどうかを算定するための主観分析)、および/または、美的レベル(例えば、色、レイアウト、その他の主観評価)などの画質要素に基づき算出され得る。
3.少なくとも1つの実施形態ではAQ[k]は、例えば下記関数を使用して算出される、ピクチャの鮮鋭度レベルとして定義される。
AQ[k]=PIXedges/PIXtotal
ただし、
− PIXedgesは、ピクチャ内のエッジ画素数であり、
− PIXtotalは、ピクチャ内の画素の総数である。
プロセス300は、画像サマリに対してピクチャを選択すること(360)を含む。この動作360はしばしば、ハイライトピクチャの選択と言われる。様々な実施では、各々のシーン「i」に対して、下記動作が行われる。
− AQ[k]、k=1、2、…、Tiは、降順の順でソートされ、トップのFBug[i]ピクチャが、最終的な画像サマリに含まれるように、シーン「i」に対してハイライトピクチャとして選択される。
− (i)AQ[m]=AQ[n]ならば、または、より一般的には、AQ[m]がAQ[n]の閾値以内であるならば、ならびに、(ii)ピクチャmおよびピクチャnが同じショット内にあるならば、ピクチャmおよびピクチャnの1つのみが、最終的な画像サマリのために選択されることになる。これは、同様の品質のものである、同じショットからのピクチャが、両方は最終的な画像サマリに含まれないということを確実にする助けとなる。代わりに、別のピクチャが選択される。しばしば、そのシーンに対して含まれる追加的なピクチャ(すなわち、含まれる最後のピクチャ)は、異なるショットからのものになる。例えば、(i)シーンが3つのピクチャ、ピクチャ「1」、「2」、および、「3」を割り当てられ、(ii)AQ[1]がAQ[2]の閾値以内であり、したがって、(iii)ピクチャ「2」が含まれるのではなく、ピクチャ「4」が含まれるならば、(iv)ピクチャ4はピクチャ2とは異なるショットからのものであるという場合が、しばしばある。
他の実施は、シーン(または、割り当てが適用されたビデオの他の部分)からどのピクチャを画像サマリに含めるべきかを決定する、種々の方法論の任意のものを行う。1つの実施は、最も高い魅力的品質(すなわち、AQ[1])を有する、各々のショットからのピクチャをとり、FBug[i]内に残存するピクチャが存するならば、ショットに関わらず、最も高い魅力的品質を伴う残存するピクチャが選択される。
プロセス300は、画像サマリを提供すること(370)を含む。様々な実施では、提供すること(370)は、画像サマリをスクリーン上に表示することを含む。他の実施は、記憶および/または送信のために画像サマリを提供する。
図4を参照すると、システム400のブロック線図が示されている。システム400は、画像サマリを生成するためのシステムの例である。システム400は、例えばプロセス300を行うために使用され得る。
システム400は、入力として、ビデオ404、スクリプト406、および、ユーザ入力408を受け付ける。これらの入力の提供は、例えばユーザ入力動作310に対応し得る。
ビデオ404およびスクリプト406は、相互に対応する。例えば典型的な実施では、ビデオ404およびスクリプト406は、両方とも単一のムービーに対するものである。ユーザ入力408は、下記で解説されるように、種々のユニットの1つまたは複数に対する入力を含む。
システム400は、スクリプト406およびビデオ404を同期させる同期ユニット410を含む。同期ユニットの少なくとも1つの実施は、同期させる動作320を行う。
同期ユニット410は、同期されたビデオを出力として提供する。同期されたビデオは、元のビデオ404も、何らかの様式でスクリプト406との同期を示す追加的な情報も含む。前述のように、様々な実施は、例えば、スクリプトの様々な部分に対応するピクチャに対するビデオタイムスタンプを決定し、次いで、それらのビデオタイムスタンプを、スクリプトの対応する部分に挿入することにより、ビデオタイムスタンプを使用する。他の実施は、ピクチャに対してよりむしろ、シーンまたはショットに対してビデオタイムスタンプを決定および挿入する。スクリプトの一部分とビデオの一部分との間の対応を決定することは、例えば、(i)当技術分野で知られている様々な様式で、(ii)この出願で記述される様々な様式で、または、(iii)スクリプトを読み出しビデオを見る人のオペレータにより、行われ得る。
同期ユニット410からの出力は、様々な実施では、変更(例えば、注釈)、および、例えば上述されたような、注釈付きスクリプトを伴わない、元のビデオである。他の実施は、スクリプトを変更することの代わりに、またはそのことへの追加で、ビデオを変更する。さらに他の実施は、ビデオまたはスクリプトのいずれも変更するのではなく、同期させる情報を別個に提供する。さらに、さらなる実施は、同期を行うことさえない。明確であるはずであるように、同期ユニット410からの出力のタイプに依存して、様々な実施は、元のスクリプト406を、システム400の他のユニット(例えば、下記で記述される重み付けユニット420など)に提供する必要はない。
システム400は、重み付けユニット420を含み、その重み付けユニット420は、入力として、(i)スクリプト406、(ii)同期ユニット410からのビデオ404および同期情報、ならびに、(iii)ユーザ入力408を受信する。重み付けユニット420は、例えば、これらの入力を使用して重み付け動作330を行う。様々な実施は、ユーザが、例えば、ユーザ入力408を使用して、第1および最後のシーンが、最も高い重みを有することになる、またはそうではないか否かを指定することを可能とする。
重み付けユニット420は、出力として、分析されている各々のシーンに対するシーン重みを提供する。一部の実施ではユーザは、例えばムービーの第1の10分のみなどの、ムービーの一部分のみの画像サマリを用意することを希望し得るということに留意されたい。したがって、すべてのシーンが必ずしも、あらゆるビデオにおいて分析されるわけではない。
システム400は、割り当てユニット430を含み、その割り当てユニット430は、入力として、(i)重み付けユニット420からのシーン重み、および、(ii)ユーザ入力408を受信する。割り当てユニット430は、例えば、これらの入力を使用して割り当て動作340を行う。様々な実施は、ユーザが、例えば、ユーザ入力408を使用して、天井関数(または、例えば床関数)が、割り当て動作340の割り当て算出で使用されるか否かを指定することを可能とする。さらに他の実施は、ユーザが、画像サマリのピクチャを、シーン重みに基づきシーンに比例的に割り当てない非線形式を含む、種々の割り当て式を指定することを可能とする。例えば一部の実施は、より高く重み付けされるシーンに、ますますより高いパーセンテージを与える。
割り当てユニット430は、出力として、あらゆるシーンに対するピクチャ割り当て数(すなわち、あらゆるシーンに割り振られるピクチャの数)を提供する。他の実施は、例えば、あらゆるシーンに対するページ割り当て、または、各々のショットに対する割り当て数(例えば、ピクチャまたはページ)などの、異なる割り当て出力を提供する。
システム400は、評価ユニット440を含み、その評価ユニット440は、入力として、(i)同期ユニット410からのビデオ404および同期情報、ならびに、(ii)ユーザ入力408を受信する。評価ユニット440は、例えば、これらの入力を使用して評価動作350を行う。様々な実施は、ユーザが、例えば、ユーザ入力408を使用して、何のタイプの魅力的品質要素が使用されることになるか(例えば、PSNR、鮮鋭度レベル、色調和レベル、美的レベル)、およびさらには、特定の式、または、利用可能な式の中の選択を指定することを可能とする。
評価ユニット440は、出力として、考えの下にある1つまたは複数のピクチャの評価を提供する。様々な実施は、考えの下にあるあらゆるピクチャの評価を提供する。しかしながら他の実施は、例えば、各々のショット内の第1のピクチャのみの評価を提供する。
システム400は、選択ユニット450を含み、その選択ユニット450は、入力として、(i)同期ユニット410からのビデオ404および同期情報、(ii)評価ユニット440からの評価、(iii)割り当てユニット430からの割り当て、ならびに、(iv)ユーザ入力408を受信する。選択ユニット450は、例えば、これらの入力を使用して選択動作360を行う。様々な実施は、ユーザが、例えば、ユーザ入力408を使用して、あらゆるショットからの最良なピクチャが選択されることになるか否かを指定することを可能とする。
選択ユニット450は、出力として、画像サマリを提供する。選択ユニット450は、例えば、提供する動作370を行う。画像サマリは、様々な実施では、記憶装置に、送信装置に、または、提示装置に提供される。出力は、様々な実施では、データファイル、または、送信されるビットストリームとして提供される。
システム400は、提示ユニット460を含み、その提示ユニット460は、入力として、例えば、選択ユニット450、記憶装置(図示せず)、または、例えば画像サマリを含むブロードキャストストリームを受信する受信器(図示せず)から、画像サマリを受信する。提示ユニット460は、例えば、テレビジョン、コンピューター、ラップトップ、タブレット、セル電話、または、何らかの他の通信装置もしくは処理装置を含む。様々な実施での提示ユニット460は、それぞれ下記の図5および6で示されるような、ユーザインターフェイスおよび/またはスクリーンディスプレイを提供する。
システム400の要素は、例えば、ハードウェア、ソフトウェア、ファームウェア、または、それらの組み合わせにより実施され得る。例えば、行われることになる機能に対する適切なプログラミングを伴う1つまたは複数の処理装置が、システム400を実施するために使用され得る。
図5を参照すると、ユーザインターフェイススクリーン500が提供されている。ユーザインターフェイススクリーン500は、画像サマリを生成するためのツールから出力される。ツールは、図5では「Movie2Comic」と名付けられている。ユーザインターフェイススクリーン500は、プロセス300の実施の部分として使用され得るものであり、システム400の実施を使用して生成され得る。
スクリーン500は、ビデオセクション505およびコミックブック(画像サマリ)セクション510を含む。スクリーン500はさらには、ソフトウェアの進行の指示を提供する進行フィールド515を含む。スクリーン500の進行フィールド515は、「ページレイアウトを表示する…」と記す更新を表示して、ソフトウェアが今ページレイアウトを表示しているということを示している。進行フィールド515は、ソフトウェアの進行に従って、表示される更新を変化させることになる。
ビデオセクション505は、ユーザが、
− 解像度フィールド520を使用して、ビデオ解像度を指定すること、
− 幅フィールド522および高さフィールド524を使用して、ビデオ内のピクチャの幅および高さを指定すること、
− モードフィールド526を使用して、ビデオモードを指定すること、
− ファイル名フィールド528を使用して、ビデオに対するソースファイル名を指定すること、
− ブラウズボタン530を使用して、利用可能なビデオファイルをブラウズし、開くボタン532を使用して、ビデオファイルを開くこと、
− ピクチャ番号フィールド534を使用して、(別個のウィンドウで)表示するためのピクチャ番号を指定すること、
− スライダバー536を使用して、(別個のウィンドウで)表示するためのビデオピクチャを選択すること、ならびに、
− ナビゲーションボタングルーピング538を使用して、(別個のウィンドウで表示される)ビデオ内をナビゲートすること
を含めて、ビデオ情報の様々な項目を指定すること、および、ビデオと対話することを可能とする。
コミックブックセクション510は、ユーザが、
− 読み出し構成フィールド550を使用して、新しい画像サマリが生成されることになるかどうか(「いいえ」)、または、以前に生成された画像サマリが再使用されることになるかどうか(「はい」)を示すこと(例えば、画像サマリがすでに生成されているならば、ソフトウェアは、以前の計算を2度繰り返すことなく、構成を読み出して、以前に生成された画像サマリを示すことが可能である。)、
− 漫画化(cartoonization)フィールド552を使用して、画像サマリが、アニメーション化された見かけを伴って生成されることになるかどうかを指定すること、
− 始まる範囲フィールド554および終了する範囲フィールド556を使用して、画像サマリの生成で用いるビデオの範囲を指定すること、
− MaxPagesフィールド558を使用して、画像サマリに対するページの最大数を指定すること、
− ページ幅フィールド560およびページ高さフィールド562を使用して、画像サマリページのサイズを指定することであって、それらのフィールドの両方は画素の数で指定される(他の実施は、他の単位を使用する)、画像サマリページのサイズを指定すること、
− 水平間隙フィールド564および垂直間隙フィールド566を使用して、画像サマリページ上のピクチャ間の間隔を指定することであって、それらのフィールドの両方は画素の数で指定される(他の実施は、他の単位を使用する)、画像サマリページ上のピクチャ間の間隔を指定すること、
− 分析ボタン568を使用して、画像サマリを生成することのプロセスを起動すること、
− 取消ボタン570を使用して、画像サマリを生成することのプロセスを放棄し、ツールを閉じること、ならびに、
− ナビゲーションボタングルーピング572を使用して、(別個のウィンドウで表示される)画像サマリをナビゲートすること
を含めて、画像サマリに対する様々なまとまりの情報を指定すること、および、画像サマリと対話することを可能とする。
スクリーン500は、構成ガイドの実施を提供するということが明確であるはずである。スクリーン500は、ユーザが、様々な考察されるパラメータを指定することを可能とする。他の実施は、追加的なパラメータを、スクリーン500に示されたパラメータのすべてを提供しながら、またはそれらを提供せずに、提供する。様々な実施はさらには、決まったパラメータを自動的に指定し、および/または、デフォルト値をスクリーン500で提供する。上記で検討されたように、スクリーン500のコミックブックセクション510は、ユーザが、少なくとも、(i)画像サマリを生成する際に使用されるビデオからの範囲、(ii)生成される画像サマリ内のピクチャの幅、(iii)生成される画像サマリ内のピクチャの高さ、(iv)生成される画像サマリ内のピクチャを分離するための水平間隙、(v)生成される画像サマリ内のピクチャを分離するための垂直間隙、または、(vi)生成される画像サマリの希望されるページ数を示す値の、1つまたは複数を指定することを可能とする。
図6を参照すると、スクリーンショット600が、図5の考察で述べられた「Movie2Comic」ツールの出力から提供されている。スクリーンショット600は、ユーザインターフェイススクリーン500で示される仕様に従って生成される1ページ画像サマリである。例えば、
− スクリーンショット600は、500画素のページ幅を有し(ページ幅フィールド560を確認されたい)、
− スクリーンショット600は、700画素のページ高さを有し(ページ高さフィールド562を確認されたい)、
− 画像サマリは、1ページのみを有し(MaxPagesフィールド558を確認されたい)、
− スクリーンショット600は、8画素のピクチャ間の垂直間隙602を有し(垂直間隙フィールド566を確認されたい)、
− スクリーンショット600は、6画素のピクチャ間の水平間隙604を有する(水平間隙フィールド564を確認されたい)。
スクリーンショット600は、6つのピクチャを含み、それらのピクチャは、ユーザインターフェイススクリーン500で識別されるビデオからのハイライトピクチャである(ファイル名フィールド528を確認されたい)。6つのピクチャは、ビデオ内の出現の順に、
− 6つのピクチャの最も大きいものであり、スクリーンショット600の上部に沿って位置設定され、敬礼する男性の前方の遠近図を示す、第1のピクチャ605、
− 第1のピクチャ605の約半分のサイズであり、第1のピクチャ605の左手の一部の下の、スクリーンショット600の左手側に沿った中ほどに位置設定され、女性の顔を、彼女が彼女の隣の男性と話し合うように示す、第2のピクチャ610、
− 第2のピクチャ610と同じサイズであり、第2のピクチャ610の下に位置設定され、建物および図像標示の前方の一部分を示す、第3のピクチャ615、
− 最も小さいピクチャであり、第2のピクチャ610の半分のサイズよりも少なく、第1のピクチャ605の右手側の下に位置設定され、相互に話し合う2人の男性の、影で暗くされた画像の前方の遠近図を提供する、第4のピクチャ620、
− 第2のピクチャ610より多少小さく、第4のピクチャ620の約2倍のサイズであり、第4のピクチャ620の下に位置され、共同墓地の景色を示す、第5のピクチャ625、ならびに、
− 第5のピクチャ625と同じサイズであり、第5のピクチャ625の下に位置され、異なる会話において相互に話し合う、第2のピクチャ610からの女性および男性の別の画像を示し、再び女性の顔にピクチャの焦点を合わせた、第6のピクチャ630
である。
6つのピクチャ605〜630の各々は、自動的にサイズ設定され、ピクチャの焦点を関心の対象に合わせるようにクロッピングされる。ツールはさらには、ユーザが、ピクチャ605〜630の任意のものを使用してビデオをナビゲートすることを可能とする。例えばユーザが、ピクチャ605〜630の1つの上でクリックする、または、(決まった実施では)その上方にカーソルを置くとき、ビデオは、ビデオのその点から再生することを始める。様々な実施ではユーザは、巻き戻す、高速で進める、および、他のナビゲーション動作を使用することが可能である。
様々な実施は、画像サマリのピクチャを下記の順に、すなわち、(i)ビデオ内のピクチャの時間的な順、(ii)ピクチャにより表されるシーンのシーンランク付け、(iii)画像サマリのピクチャの魅力的品質(AQ)格付け、および/もしくは、(iv)画素での、画像サマリのピクチャのサイズに基づく順に配置する。さらに、画像サマリのピクチャ(例えば、ピクチャ605〜630)のレイアウトは、いくつもの実施では最適化される。より一般的には画像サマリは、決まった実施では、欧州特許出願第2207111号に記述されている実施の1つまたは複数に従って作り出され、その特許出願は、ここに参照によりその全体で、すべての目的のために組み込まれている。
明確であるべきであるように、典型的な実施ではスクリプトは、例えばビデオタイムスタンプによって注釈付けされるが、ビデオは変更されない。したがって、ピクチャ605〜630が元のビデオからとられ、ピクチャ605〜630の1つをクリックすると、元のビデオはそのピクチャから再生を始める。他の実施は、スクリプトの変更への追加で、またはその代わりに、ビデオを変更する。さらに他の実施は、スクリプトまたはビデオのいずれも変更するのではなく、むしろ、別個の同期させる情報を提供する。
6つのピクチャ605〜630は、ビデオからの実際のピクチャである。すなわちピクチャは、例えば漫画化特性を使用してアニメーション化されていない。他の実施は、しかしながら、画像サマリにピクチャを含める前に、ピクチャをアニメーション化する。
図7を参照すると、プロセス700のフロー線図が示されている。一般的に話せばプロセス700は、画像サマリ内のピクチャを異なるシーンに割り振る、または割り当てる。プロセス700の変形形態は、ピクチャをビデオの異なる部分に割り当てることを可能とし、それら部分は必ずしもシーンではない。
プロセス700は、第1のシーンおよび第2のシーンにアクセスすること(710)を含む。少なくとも1つの実施では動作710は、ビデオ内の第1のシーン、および、ビデオ内の第2のシーンにアクセスすることにより行われる。
プロセス700は、第1のシーンに対する重みを決定すること(720)、および、第2のシーンに対する重みを決定すること(730)を含む。重みは、少なくとも1つの実施では、図3の動作330を使用して決定される。
プロセス700は、第1のシーンに対する重みに基づき、第1のシーンに対して使用するピクチャの量を決定すること(740)を含む。少なくとも1つの実施では動作740は、第1の部分からのピクチャがどれほどビデオの画像サマリで使用されることになるかを識別する、第1の数を決定することにより行われる。いくつものそのような実施では第1の数は、1つまたは複数であり、第1の部分に対する重みに基づき決定される。ピクチャの量は、少なくとも1つの実施では、図3の動作340を使用して決定される。
プロセス700は、第2のシーンに対する重みに基づき、第2のシーンに対して使用するピクチャの量を決定すること(750)を含む。少なくとも1つの実施では動作750は、第2の部分からのピクチャがどれほどビデオの画像サマリで使用されることになるかを識別する、第2の数を決定することにより行われる。いくつものそのような実施では第2の数は、1つまたは複数であり、第2の部分に対する重みに基づき決定される。ピクチャの量は、少なくとも1つの実施では、図3の動作340を使用して決定される。
図8を参照すると、プロセス800のフロー線図が示されている。一般的に話せばプロセス800は、ビデオに対する画像サマリを生成する。プロセス800は、画像サマリに対するページの希望される数を示す値にアクセスすること(810)を含む。値は、少なくとも1つの実施では、図3の動作310を使用してアクセスされる。
プロセス800は、ビデオにアクセスすること(820)を含む。プロセス800は、ビデオに関して、アクセスされる値に基づくページ計数を有する画像サマリを生成すること(830)をさらに含む。少なくとも1つの実施では動作830は、ビデオに関する画像サマリを生成することにより行われ、画像サマリはページの総合的な数を有し、ページの総合的な数は、画像サマリに対するページの希望される数を示す、アクセスされる値に基づく。
図9を参照すると、プロセス900のフロー線図が示されている。一般的に話せばプロセス900は、ビデオに対する画像サマリを生成する。プロセス900は、画像サマリに関する構成ガイドからのパラメータにアクセスすること(910)を含む。少なくとも1つの実施では動作910は、ビデオの画像サマリを構成するための1つまたは複数のパラメータを含む構成ガイドからの、1つまたは複数のパラメータにアクセスすることにより行われる。1つまたは複数のパラメータは、少なくとも1つの実施では、図3の動作310を使用してアクセスされる。
プロセス900は、ビデオにアクセスすること(920)を含む。プロセス900は、ビデオに対して、アクセスされるパラメータに基づき画像サマリを生成すること(930)をさらに含む。少なくとも1つの実施では動作930は、ビデオに関する画像サマリを生成することにより行われ、画像サマリは、構成ガイドからの1つまたは複数のアクセスされたパラメータに従う。
プロセス900の、または他のプロセスの様々な実施は、ビデオ自体に関係する1つまたは複数のパラメータにアクセスすることを含む。そのようなパラメータは、例えば、ビデオ解像度、ビデオ幅、ビデオ高さ、および/または、ビデオモードも、スクリーン500のビデオセクション505との関連によってより早期に記述されているような、他のパラメータも含む。様々な実施では、(画像サマリ、ビデオ、または、何らかの他の特徴に関係する)アクセスされるパラメータは、例えば、(i)自動的にシステムにより、(ii)ユーザ入力により、および/または、ユーザ入力スクリーン(例えば、スクリーン500など)内のデフォルト値により提供される。
プロセス700は、様々な実施では、システム400を使用して、プロセス300の選択される動作を実行して行われる。同様にプロセス800および900は、様々な実施では、システム400を使用して、プロセス300の選択される動作を実行して行われる。
様々な実施では、シーンのすべてを表示するための十分なピクチャが画像サマリ内に存在しない。他の実施に対しては、理論的には十分なピクチャが存在する場合があるが、より高い重み付けされたシーンが、より多いピクチャを与えられることを考えると、これらの実施は、画像サマリ内のシーンのすべてを表示する前に、利用可能なピクチャを使い果たす。したがって、これらの実施の多くの変形形態は、(画像サマリ内の)ピクチャを先ずより高い重み付けされたシーンに割り振る特性を含む。そのように、実施が、(画像サマリ内の)利用可能なピクチャを使い果たす場合、より高い重み付けされたシーンが表示されている。多くのそのような実施は、シーンを、シーン重みが減少する順で処理し、したがって、すべてのより高い重み付けされたシーンが、それらに割り振られた(画像サマリ内の)ピクチャを有するまで、(画像サマリ内の)ピクチャをシーンに割り振らない。
画像サマリ内のすべてのシーンを表示すための「十分な」ピクチャを有さない様々な実施では、生成される画像サマリは、ビデオの1つまたは複数のシーンからのピクチャを使用し、1つまたは複数のシーンは、1つまたは複数のシーンを含むビデオのシーン間で区別するランク付けに基づき決定される。決まった実施は、この特性をシーン以外のビデオの部分に適用し、そのことによって、生成される画像サマリは、ビデオの1つまたは複数の部分からのピクチャを使用し、1つまたは複数の部分は、1つまたは複数の部分を含むビデオの部分間で区別するランク付けに基づき決定される。いくつもの実施は、画像サマリ内の(例えば、ビデオの)第1の部分を、第1の部分に対する重みをビデオの他の部分のそれぞれの重みと比較することにより、表示すべきかどうかを決定する。決まった実施では部分は、例えばショットである。
一部の実施は、(例えば、シーンの)ランク付けを使用して、(i)画像サマリ内のシーンを表示すべきかどうかを決定すること、および、(ii)表示されるシーンからのピクチャをどれほど画像サマリに含めるべきかを決定することの両方を行うということが明確であるはずである。例えばいくつもの実施は、画像サマリ内のすべての位置が満たされるまで、シーンを、重みの減少する順(シーン間で区別するランク付け)で処理する。そのような実施は、そのことにより、どのシーンが画像サマリ内で表示されるかを、シーンは、重みの減少する順で処理されるので、重みに基づき決定する。そのような実施はさらには、各々の表示されるシーンからのどれほど多くのピクチャが画像サマリに含まれるかを、例えば、シーンの重みを使用して、シーンに対しての割り当てられるピクチャの数を決定することにより決定する。
上記の実施の一部の変形形態は、初期には、画像サマリ内のピクチャの数を与えられると、すべてのシーンが画像サマリ内で表されることが可能になるか否かを決定する。答えが、(画像サマリ内の)利用可能なピクチャの不足に起因して「いいえ」であるならば、いくつものそのような実施は、画像サマリ内で、より多くのシーンを表示することが可能であるように、割り振り体系を変化させる(例えば、1つのピクチャのみを各々のシーンに割り振る)。このプロセスは、シーン重みを変化させることと同様の結果を作り出す。再び答えが、(画像サマリ内の)利用可能なピクチャの不足に起因して「いいえ」であるならば、一部の他の実施は、シーン重みに関する閾値を使用して、低い重み付けがされたシーンを、画像サマリのすべてで考慮されていることから排除する。
様々な実施は、選択されるピクチャを画像サマリ内に単純にコピーするということに留意されたい。しかしながら他の実施は、選択されるピクチャを画像サマリ内に挿入する前に、選択されるピクチャ上で様々な処理技法の1つまたは複数を行う。そのような処理技法は、例えば、クロッピング、再サイズ設定、スケール化、アニメーション化(例えば、「漫画化」効果を適用すること)、フィルタリング(例えば、低通過フィルタリング、または、ノイズフィルタリング)、色増強または修正、および、光レベル増強または修正を含む。選択されるピクチャはそれでもなお、選択されるピクチャが、画像サマリ内に挿入されることに先行して処理される場合でも、画像サマリで「使用される」と考えられる。
ユーザが、画像サマリに対するページまたはピクチャの希望される数を指定することを可能とする、様々な実施が記述される。いくつもの実施は、しかしながら、ページまたはピクチャの数をユーザ入力なしで決定する。他の実施は、ユーザが、ページまたはピクチャの数を指定することを可能とするが、ユーザが値を提供しないならば、これらの実施は、決定をユーザ入力なしでする。ページまたはピクチャの数をユーザ入力なしで決定する様々な実施では、数は、例えば、ビデオ(例えば、ムービー)の長さ、または、ビデオ内のシーンの数に基づきセットされる。2時間のランレングスを有するビデオに対しては、画像サマリに対する(様々な実施での)ページの典型的な数は、近似的に30ページである。ページごとに6つのピクチャが存在するならば、そのような実施でのピクチャの典型的な数は、近似的に180である。
いくつかの実施が記述されている。これらの実施の変形形態が、この開示により企図される。いくつかの変形形態が、図での、および実施での要素の多くは、様々な実施では任意であるという事実により得られる。例えば、
− ユーザ入力動作310およびユーザ入力408は、決まった実施では任意である。例えば決まった実施では、ユーザ入力動作310およびユーザ入力408は含まれない。いくつものそのような実施は、パラメータのすべてを固定し、ユーザがパラメータを構成することを可能としない。個別の特性が、決まった実施では任意であるということを(ここで、および、この出願内のどこか他の所で)明言することにより、一部の実施は特性を要することになり、他の実施は特性を含まないことになり、さらに他の実施は、特性を、利用可能なオプションとして提供し、(例えば)ユーザが、その特性を使用すべきかどうかを決定することを可能とすることになるということが理解される。
− 同期動作320および同期ユニット410は、決まった実施では任意である。いくつもの実施は、スクリプトおよびビデオが、画像サマリを生成するツールにより受信されるときに、スクリプトおよびビデオはすでに同期させられているので、同期を行う必要はない。他の実施は、それらの実施はシーン分析をスクリプトなしで行うので、スクリプトおよびビデオの同期を行わない。スクリプトを使用しない様々なそのような実施は、代わりに、(i)クローズキャプションテキスト、(ii)サブタイトルテキスト、(iii)ボイス認識ソフトウェアを使用してテキストに変えられたオーディオ、(iv)例えばハイライト対象およびキャラクタを識別するために、ビデオピクチャ上で行われる対象認識、または、(v)同期で有用である、以前に生成された情報を提供するメタデータの、1つまたは複数を使用および分析する。
− 評価動作350および評価ユニット440は、決まった実施では任意である。いくつもの実施は、ビデオ内のピクチャを評価しない。そのような実施は、選択動作360を、ピクチャの魅力的品質以外の1つまたは複数の判定基準に基づき行う。
− 提示ユニット460は、決まった実施では任意である。先に記述されているように、様々な実施は、画像サマリを提示することなく、記憶または送信のために画像サマリを提供する。
いくつかの変形形態が、図での、および実施での1つまたは複数の要素を、排除することなく修正することにより得られる。例えば、
− 重み付け動作330および重み付けユニット420は、例えば以下のものなどの、いくつかの異なる方法でシーンに重み付けし得る。
1.シーンの重み付けは、例えば、シーン内のピクチャの数に基づき得る。1つのそのような実施は、シーン内のピクチャの数に比例する重みを割り当てる。したがって重みは、例えば、ビデオ内のピクチャの総数により割られた、シーン内のピクチャの数(LEN[i])に等しい。
2.シーンの重み付けは、シーン内のハイライトされる動作または対象のレベルに比例し得る。したがって1つのそのような実施では、重みは、ビデオ内のハイライトされる動作または対象の総合的なレベル(すべての「i」に対するLhigh[i]の和)により割られた、シーン「i」に対するハイライトされる動作または対象のレベル(Lhigh[i])に等しい。
3.シーンの重み付けは、シーン内の1つまたは複数のキャラクタの出現数に比例し得る。したがって様々なそのような実施では、シーン「i」に対する重みは、j=1…Fに対するSHOW[j][i]の和に等しく、ただしFは、例えば、3(ビデオのトップの3つのメインキャラクタのみが考えられるということを示す)、または何らかの他の数であるように、選定または設定される。Fの値は、異なる実施では、および、異なるビデオコンテンツに対しては、異なって設定される。例えばJames Bondムービーでは、Fは、画像サマリが、James Bondおよび主要敵役に焦点を合わせられるように、比較的小さい数に設定され得る。
4.上記の例の変形形態は、シーン重みのスケール化を提供する。例えば様々なそのような実施では、シーン「i」に対する重みは、j=1…Fに対する(gamma[i]*SHOW[j][i])の和に等しい。「gamma[i]」は、スケール化値(すなわち、重み)であり、例えば、主要キャラクタ(例えば、James Bond)の出現を、より強調するように使用され得る。
5.「重み」は、異なる実施では異なるタイプの値により表され得る。例えば様々な実施では、「重み」は、ランク付け、反対の(逆順)ランク付け、または、算出される測定基準もしくはスコア(例えば、LEN[i])である。さらに、様々な実施では重みは正規化されないが、他の実施では重みは、結果として生じる重みが0から1の間であるように正規化される。
6.シーンの重み付けは、他の実施に対して考察された重み付け戦略の1つまたは複数の組み合わせを使用して行われ得る。組み合わせは例えば、和、積、比、差、天井、床、平均、メディアン、モード、その他であり得る。
7.他の実施は、シーンに、ビデオ内のシーンの位置との関わりなしに重み付けし、したがって、最も高い重みを第1および最後のシーンに割り当てない。
8.様々な追加的な実施は、シーン分析および重み付けを異なる様式で行う。例えば一部の実施は、スクリプトの異なる、または追加的な部分を検索する(例えば、動作または対象に対するハイライトワードを求めて、シーン描写への追加で、すべての独白を検索する)。追加的に、様々な実施は、シーン分析および重み付けを行う際に、スクリプト以外の項目を検索するものであり、そのような項目は例えば、(i)クローズキャプションテキスト、(ii)サブタイトルテキスト、(iii)ボイス認識ソフトウェアを使用してテキストに変えられたオーディオ、(iv)例えばハイライト対象(または動作)およびキャラクタ出現を識別するために、ビデオピクチャ上で行われる対象認識、または、(v)シーン分析を行う際の使用のために以前に生成された情報を提供するメタデータを含む。
9.様々な実施は、重み付けの概念を、シーンとは異なるピクチャのセットに適用する。様々な実施(例えば、短いビデオを必然的に含む)では、(シーンよりむしろ)ショットが重み付けされ、ハイライトピクチャ割り当て数が、ショット重みに基づきショットの中で割り振られる。他の実施では、重み付けされる単位は、シーンより大きく(例えば、シーンはグルーピングされ、または、ショットはグルーピングされる)、または、ショットより小さい(例えば個々のピクチャは、例えばピクチャの「魅力的品質」に基づき重み付けされる)。シーンまたはショットは、様々な実施では、種々の属性に基づきグルーピングされる。一部の例は、(i)シーンもしくはショットを、長さに基づき一体にグルーピングすること(例えば、近接する短いシーンをグルーピングすること)、(ii)同じタイプのハイライトされた動作もしくは対象を有する、シーンもしくはショットを一体にグルーピングすること、または、(iii)同じメインキャラクタを有する、シーンもしくはショットを一体にグルーピングすることを含む。
− 割り当て動作340および割り当てユニット430は、画像サマリピクチャをシーン(または、ビデオの何らかの他の部分)に、様々な様式で割り振り得る、または割り当て得る。いくつものそのような実施は、ピクチャを例えば、より高い重み付けされたシーンに、ピクチャの、非比例的により高い(または、より低い)シェアを与える、非線形割り当てに基づき割り当てる。いくつもの他の実施は単純に、ショットごとに1つのピクチャを割り当てる。
− 評価する動作350および評価ユニット440は、ピクチャを例えば、ピクチャ内に存在するキャラクタ、および/または、シーン内のピクチャの位置に基づき評価し得る(例えば、シーン内の第1のピクチャ、および、シーン内の最後のピクチャは、より高い評価を受け得る)。他の実施は、各々の個々のピクチャに対してよりむしろ、全体のショットまたはシーンに対して、単一の評価(典型的には、数)を提示して、全体のショットまたはシーンを評価する。
− 選択動作360および選択ユニット450は、ピクチャを、画像サマリに含まれることになるハイライトピクチャとして、他の判定基準を使用して選択し得る。いくつものそのような実施は、あらゆるショット内の第1つまたは最後のピクチャを、ハイライトピクチャとして、ピクチャの品質に関わらず選択する。
− 提示ユニット460は、種々の異なる提示装置で実施され得る。そのような提示装置は例えば、テレビジョン(「TV」)(ピクチャインピクチャ(「PIP」)機能性を伴う、または伴わない)、コンピューターディスプレイ、ラップトップディスプレイ、パーソナルディジタルアシスタント(「PDA」)ディスプレイ、セル電話ディスプレイ、および、タブレット(例えば、iPad)ディスプレイを含む。提示装置は、異なる実施では、主要スクリーンまたは2次スクリーンのいずれかである。さらに他の実施は、異なる、または追加的な感覚性の提示を提供する提示装置を使用する。ディスプレイ装置は典型的には、視覚的な提示を提供する。しかしながら、他の提示装置は例えば、(i)例えばスピーカを使用する、聴覚性の提示、または、(ii)例えば、例えば個別の振動性のパターンを提供する、振動装置、もしくは、他の触覚の(タッチベースの)感覚性の指標を提供する装置を使用する、触覚の提示を提供する。
− 記述される実施の要素の多くは、さらにさらなる実施を作り出すために、順に並べ直され得る、または、再配列され得る。例えば、プロセス300の動作の多くは、システム400の考察により示唆されるように再配列され得る。様々な実施は、ユーザ入力動作を、例えば、重み付け動作330、割り当て動作340、評価する動作350、または、選択する動作360の、1つまたは複数のすぐ前などの、プロセス300内の1つまたは複数の他の場所に移す。様々な実施は、評価する動作350を、例えば、重み付け動作330または割り当て動作340の、1つまたは複数のすぐ前などの、プロセス300内の1つまたは複数の他の場所に移す。
記述される実施のいくつもの変形形態は、さらなる特性を追加することを必然的に含む。そのような特性の1つの例は、重大なストーリー点が意図せず漏らされないような、「暴露なし(no spoilers)」特性である。ビデオの重大なストーリー点は、例えば、誰が殺人犯であるか、または、どのように救出もしくは脱出が達成されるかを含み得る。様々な実施の「暴露なし」特性は、例えば、例えばクライマックス、大詰、終局、または、結末の部分である、任意のシーンからの、または代替的に、任意のショットからのハイライトを含まないことにより動作する。これらのシーンまたはショットは、例えば、(i)ビデオの(例えば)最後の10分内のすべてのシーンもしくはショットが除外されるべきであるということを想定することにより、または、(ii)除外されることになるシーンおよび/もしくはショットを識別するメタデータにより決定され得るものであり、メタデータは、例えばレビュア、コンテンツ製作者、または、コンテンツプロバイダにより提供される。
様々な実施は、重みを、階層的なファイン−グレーン構造の1つまたは複数の異なるレベルに割り当てる。構造は例えば、シーン、ショット、および、ピクチャを含む。様々な実施は、シーンに、この出願の全体を通して記述されるような、1つまたは複数の様式で重み付けする。様々な実施は、さらには、または代替的に、ショットおよび/またはピクチャに、さらにはこの出願の全体を通して記述される1つまたは複数の様式を使用して重み付けする。ショットおよび/またはピクチャの重み付けは、例えば、後に続く様式の1つまたは複数で行われ得る。
(i)ピクチャの魅力的品質(AQ)は、ピクチャに対する暗黙の重みを提供し得る(例えば、プロセス300の動作350を確認されたい)。与えられるピクチャに対する重みは、決まった実施では、与えられるピクチャに対するAQの実際の値である。他の実施では重みは、例えば、AQのスケール化された、または正規化されたバージョンなど、AQの実際の値に基づく(その値に等しくない)。
(ii)他の実施では、与えられるピクチャに対する重みは、AQ値の大きさの順に並べられたリスティングでの、AQ値のランク付けに等しい、または、そのランク付けに基づく(例えば、AQ値をランク付けする、プロセス300の動作360を確認されたい)。
(iii)AQはさらには、ショットに対する重み付けを提供する。任意の与えられるショットに対する実際の重みは、様々な実施では、ショットの構成物ピクチャのAQ値に等しい(または、それらの値に基づく)。例えばショットは、ショット内のピクチャの平均AQに等しい、または、ショット内のピクチャの任意のものに対する最も高いAQに等しい重みを有する。
(iv)他の実施では、与えられるショットに対する重みは、AQ値の大きさの順に並べられたリスティングでの、ショットの構成物ピクチャのランク付けに等しい、または、そのランク付けに基づく(例えば、AQ値をランク付けする、プロセス300の動作360を確認されたい)。例えば、より高いAQ値を伴うピクチャは、(ランク付けである)大きさの順に並べられたリスティングで、より高く出現し、それらの「より高いランク付けされた」ピクチャを含むショットは、最終的な画像サマリで表示される(または、より多いピクチャによって表示される)、より高い確率を有する。これは、最終的な画像サマリに含まれ得る、任意の与えられるショットからのピクチャの数を、追加的な規則が制限する場合でさえ真である。任意の与えられるショットに対する実際の重みは、様々な実施では、大きさの順に並べられたAQリスティングでの、ショットの構成ピクチャの位置に等しい(または、それらの位置に基づく)。例えばショットは、ショットのピクチャの(大きさの順に並べられたAQリスティングでの)平均位置に等しい(または、その位置に基づく)、または、ショットのピクチャの任意のものに対する最も高い位置に等しい(または、その位置に基づく)重みを有する。
いくつかの独立したシステムまたは製品が、この出願で提供される。例えばこの出願は、元のビデオおよびスクリプトによって開始する画像サマリを生成するためのシステムを記述する。しかしながら、この出願はさらには、例えば以下のものを含めて、いくつかの他のシステムを記述する。
− システム400のユニットの各々は、別個の、および独立した、エンティティおよび発明として、自立できる。したがって例えば、同期システムは例えば、同期ユニット410に対応し得るものであり、重み付けシステムは重み付けユニット420に対応し得るものであり、割り当てシステムは割り当てユニット430に対応し得るものであり、評価システムは評価ユニット440に対応し得るものであり、選択システムは選択ユニット450に対応し得るものであり、提示システムは提示ユニット460に対応し得る。
− さらに、少なくとも1つの重みおよび割り当てシステムは、シーン(または、ビデオの他の部分)に重み付けすること、および、ピクチャ割り当て数を、シーン(または、ビデオの他の部分)の中で、重みに基づき割り振ることの機能を含む。重みおよび割り当てシステムの1つの実施は、重み付けユニット420および割り当てユニット430からなる。
− さらに、少なくとも1つの評価および選択システムは、ビデオ内のピクチャを評価すること、および、決まったピクチャを、評価に基づき選択して、画像サマリに含めることの機能を含む。評価および選択システムの1つの実施は、評価ユニット440および選択ユニット450からなる。
− さらに、少なくとも1つの割り当ておよび選択システムは、ピクチャ割り当て数を、ビデオ内のシーンの中で割り振ること、および次いで、決まったピクチャを(割り当てに基づき)選択して、画像サマリに含める機能を含む。割り当ておよび選択システムの1つの実施は、割り当てユニット430および選択ユニット450からなる。評価ユニット440により行われるそれと同様の評価機能が、さらには、割り当ておよび選択システムの様々な実施に含まれる。
この出願で記述される実施は、種々の利点の1つまたは複数を提供する。そのような利点は、例えば、
− 画像サマリを生成するためのプロセスを提供することであって、プロセスが、(i)ユーザ入力に適合的である、(ii)ビデオ内の各々のピクチャを評価することによりファイン−グレーン化される、および/または、(iii)シーンと、ショットと、個々のピクチャとを分析することにより階層的である、プロセスを提供すること、
− 重みを、シーン、ショット、および、ハイライトピクチャを含む階層的ファイン−グレーン構造の異なるレベルに割り当てること、
− 例えば、ビデオの内部のシーン位置、メインキャラクタの出現頻度、シーンの長さ、および、シーン内のハイライトされる動作または対象のレベル/分量などの、1つまたは複数の特性を考えることにより、シーン(または、ビデオの他の部分)に対する重要度(重み)の異なるレベルを識別すること、
− 画像サマリに対するハイライトピクチャを選択する際に、ピクチャの「魅力的品質」要素を考えること、
− シーン、ショット、および、ハイライトピクチャの重みを定義する際に、ナレーションプロパティを維持することであって、「ナレーションプロパティ」を維持することが、画像サマリの典型的な視聴者が、画像サマリのみを視聴することにより、それでもビデオのストーリーを理解することが可能であるように、画像サマリでのビデオのストーリーを保つことを指す、ナレーションプロパティを維持すること、
− 例えば、ハイライト動作/ワードの存在、および、メインキャラクタの存在を考えることによってなどで、重みまたはランク付けを決定するときに、どれほどシーン、ショット、または、ピクチャが「関心を引き起こす」ものであるかに関係付けられる要素を考えること、ならびに/あるいは、
− 画像サマリを生成する際に、シーンと、ショットと、個々のピクチャとを分析する階層的プロセスで、下記要素:(i)開始シーンおよび終了シーンを優遇すること、(ii)メインキャラクタの出現頻度、(iii)シーンの長さ、(iv)シーン内のハイライトされる動作もしくは対象のレベル、または、(v)ピクチャに対する「魅力的品質」要素の、1つまたは複数を使用すること
を含む。
この出願は、種々の異なる環境で使用され得る、および、種々の異なる目的に対して使用され得る実施を提供する。一部の例は、制限なしで、以下のことを含む。
− 実施は、DVDまたはオーバーザトップ(「OTT」)ビデオアクセスに対する自動的なシーン選択メニューのために使用される。
− 実施は、擬似予告編生成のために使用される。例えば画像サマリは、宣伝として提供される。画像サマリ内のピクチャの各々は、ユーザに、ピクチャ上でクリックすることにより、そのピクチャで始まるビデオのクリップを提供する。クリップの長さは、様々な様式で決定され得る。
− 実施は、例えばアプリとしてパッケージ化され、(例えば、様々なムービーまたはTVシリーズの)ファンが、1回分の話の、シーズンの、全体のシリーズの、その他の概要を作成することを可能とする。ファンは、関連性のあるビデオを選択し、または、例えばシーズンに対する、もしくはシリーズに対するインジケータを選択する。これらの実施は、例えば、ユーザが、数日にわたるショーの全体のシーズンを、あらゆるショーのあらゆる分を見る必要なく「見る」ことを望むときに有用である。これらの実施はさらには、先行のシーズンをレビューするために、または、自身に、以前に何を見たかを思い出させるために有用である。これらの実施はさらには、ユーザが、ユーザが見たコンテンツのトラックを維持することを可能にする、娯楽日記として使用され得る。
− 完全に構造化されたスクリプトによらずに(例えば、クローズドキャプションのみによって)動作する実施は、テレビジョン上で、TV信号を調査および処理することにより動作し得る。TV信号はスクリプトを有さないが、そのような実施は、追加的な情報(例えば、スクリプト)を有する必要はない。いくつものそのような実施は、視聴されるすべてのショーの画像サマリを自動的に作成するように設定され得る。これらの実施は、例えば、(i)娯楽日記を作成する際に、または、(ii)親が、彼らの子がTVで何を見ていたかを追跡する際に有用である。
− 実施は、上述されたようにTVで動作しようとそうでなかろうと、電子番組ガイド(「EPG」)番組記述を改善するために使用される。例えば一部のEPGは、ムービーまたはシリーズ1回分の話の3ラインテキスト記述のみを表示する。様々な実施は、代わりに、潜在的な視聴者にショーの要旨を与える、対応する妥当な会話を伴うピクチャ(またはクリップ)の自動化された抽出物を提供する。いくつものそのような実施は、プロバイダにより供与されるショー上で、ショーを放送することに先行してバルクラン(bulk-run)され、結果として生じる抽出物は、EPGによって利用可能にされる。
この出願は、図1の階層的構造、図2のスクリプト、図4のブロック線図、図3および7〜8のフロー線図、ならびに、図5〜6のスクリーンショットを含む、多数の図を提供する。これらの図の各々は、種々の実施に対する開示を提供する。
− 例えばブロック線図は確かに、装置またはシステムの機能ブロックの相互接続を記述する。しかしながら、ブロック線図はプロセスフローの記述を提供することも、明確であるべきである。例として、図4はさらには、図4のブロックの機能を行うためのフロー線図を提示する。例えば、重み付けユニット420に対するブロックはさらには、シーン重み付けを行うことの動作を表し、割り当てユニット430に対するブロックはさらには、シーン割り当てを行うことの動作を表す。図4の他のブロックは同様に、このフロープロセスを記述するように解釈される。
− 例えばフロー線図は確かに、フロープロセスを記述する。しかしながら、フロー線図は、フロープロセスを行うためのシステムまたは装置の機能ブロック間の相互接続を提供することも、明確であるべきである。例えば図3との関連によって、同期させる動作320に対するブロックはさらには、ビデオおよびスクリプトを同期させることの機能を行うためのブロックを表す。図3の他のブロックは同様に、このシステム/装置を記述するように解釈される。さらに、図7〜8はさらには、同様の手法で、それぞれのシステムまたは装置を記述するように解釈され得る。
− 例えばスクリーンショットは確かに、ユーザに示されるスクリーンを描写する。しかしながら、スクリーンショットは、ユーザと対話するためのフロープロセスを記述することも、明確であるべきである。例えば図5はさらには、ユーザに、画像サマリを構築するためのひな形を提示すること、入力をユーザから受け付けること、および次いで、画像サマリを構築すること、および場合によっては、プロセスを反復し、画像サマリを精緻化するプロセスを記述する。さらに、図6はさらには、同様の手法で、それぞれのフロープロセスを記述するように解釈され得る。
私たちはこうして、いくつかの実施を提供した。しかしながら、追加的なアプリケーションも、記述された実施の変形形態が、企図され、私たちの開示内にあると考えられるということが留意されるべきである。追加的に、記述された実施の特性および特徴は、他の実施に対して適合され得る。
様々な実施が、「画像」および/または「ピクチャ」に言及する。用語「画像」および「ピクチャ」は、この文書の全体を通して互換的に使用され、広い用語であることが意図される。「画像」または「ピクチャ」は、例えば、フレームの、またはフィールドの、すべてまたは部分であり得る。用語「ビデオ」は、画像(またはピクチャ)のシーケンスを指す。画像またはピクチャは、例えば、様々なビデオコンポーネント、または、それらの組み合わせの任意のものを含み得る。そのようなコンポーネント、または、それらの組み合わせは、例えば、輝度、色度、(YUVまたはYCbCrまたはYPbPrの)Y、(YUVの)U、(YUVの)V、(YCbCrの)Cb、(YCbCrの)Cr、(YPbPrの)Pb、(YPbPrの)Pr、(RGBの)赤、(RGBの)緑、(RGBの)青、S−ビデオ、および、これらのコンポーネントの任意のものの負数または正数を含む。「画像」または「ピクチャ」は、さらには、または代替的に、例えば、典型的な2次元ビデオ、露光マップ、2Dビデオピクチャに対する視差マップ、2Dビデオピクチャに対応するデプスマップ、または、エッジマップを含む、様々な異なるタイプのコンテンツを指す。
現在の原理の「1つの実施形態」または「実施形態」または「1つの実施」または「実施」への言及は、それらの他の変形形態へも、実施形態との接続で記述される、個別の特性、構造、特性等々が、現在の原理の少なくとも1つの実施形態に含まれることを意味する。したがって、明細書の全体を通して様々な場で出現する、フレーズ「1つの実施形態では」または「実施形態では」または「1つの実施では」または「実施では」の出現も、任意の他の変形形態の出現も、必ずしもすべて同じ実施形態を指しているわけではない。
追加的に、この出願、または、その特許請求の範囲は、様々なまとまりの情報を「決定すること」に言及する場合がある。情報を決定することは、例えば、情報を推定すること、情報を算出すること、情報を予測すること、または、情報をメモリから索出することの、1つまたは複数を含み得る。
さらに、この出願、または、その特許請求の範囲は、様々なまとまりの情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、情報を索出すること(例えば、メモリから索出すること)、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移すこと、情報をコピーすること、情報を消去すること、情報を算出すること、情報を決定すること、情報を予測すること、または、情報を推定することの、1つまたは複数を含み得る。
例えば、「A/B」、「Aおよび/またはB」、および、「AおよびBの少なくとも1つ」の事例での、後に続く「/」、「および/または」、および、「の少なくとも1つ」の任意のものの使用は、第1のリスティングされるオプション(A)のみの選択、または、第2のリスティングされるオプション(B)のみの選択、または、両方のオプション(AおよびB)の選択を網羅することが意図されるということが正しく認識されるべきである。さらなる例として、「A、B、および/または、C」、および、「A、B、および、Cの少なくとも1つ」、および、「A、B、または、Cの少なくとも1つ」の事例では、そのようなフレージングは、第1のリスティングされるオプション(A)のみの選択、または、第2のリスティングされるオプション(B)のみの選択、または、第3のリスティングされるオプション(C)のみの選択、または、第1および第2のリスティングされるオプション(AおよびB)のみの選択、または、第1および第3のリスティングされるオプション(AおよびC)のみの選択、または、第2および第3のリスティングされるオプション(BおよびC)のみの選択、または、すべての3つのオプション(AおよびBおよびC)の選択を網羅することが意図される。これは、この、および関係付けられる技術分野での通常の熟練の者により直ちに明らかなように、同じように多くのリスティングされる項目に対して拡張され得る。
追加的に、多くの実施は、例えばポストプロセッサーまたはプリプロセッサーなどのプロセッサーで実施され得る。この出願で考察されるプロセッサーはまさに、様々な実施では、例えばプロセス、機能、または、動作を行うように集団的に構成される、多重のプロセッサー(サブプロセッサー)を含む。例えばシステム400は、システム400の動作を行うように集団的に構成される、多重のサブプロセッサーを使用して実施され得る。
本明細書で記述される実施は、例えば、方法もしくはプロセス、装置、ソフトウェアプログラム、データストリーム、または、信号で実施され得る。実施の単一の形式の文脈で考察されるのみ(例えば、方法としてのみ考察される)の場合でさえ、考察される特性の実施はさらには、他の形式(例えば、装置またはプログラム)で実施され得る。装置は例えば、適切なハードウェア、ソフトウェア、および、ファームウェアで実施され得る。方法は例えば、一般的に例えばコンピューター、マイクロプロセッサ、集積された回路、または、プログラマブル論理装置を含む処理装置を指す、例えばプロセッサーなどの装置で実施され得る。プロセッサーはさらには、例えば、エンドユーザ間の情報の通信を容易にする、コンピューター、ラップトップ、セル電話、タブレット、ポータブル/パーソナルディジタルアシスタント(「PDA」)、および、他の装置などの通信装置を含む。
本明細書で記述される様々なプロセスおよび特性の実施は、種々の異なる機器またはアプリケーションで実施され得る。そのような機器の例は、符号化器、復号器、ポストプロセッサー、プリプロセッサー、ビデオコーダ、ビデオ復号器、ビデオコーデック、ウェブサーバー、テレビジョン、セットトップボックス、ルータ、ゲートウェイ、モデム、ラップトップ、パーソナルコンピューター、タブレット、セル電話、PDA、および、他の通信装置を含む。明確であるはずであるように、機器は、移動可能であり得るものであり、移動可能な乗物に設置される場合さえある。
追加的に方法は、プロセッサーにより行われている命令により実施され得るものであり、そのような命令(および/または、実施により作り出されるデータ値)は、例えば、集積された回路、ソフトウェア搬送波、または、例えばハードディスク、コンパクトディスケット(「CD」)、光学ディスク(例えば、しばしばディジタルバーサタイルディスクまたはディジタルビデオディスクと呼ばれるDVDなど)、ランダムアクセスメモリ(「RAM」)、もしくは、読み出しのみのメモリ(「ROM」)などの他の記憶装置などの、プロセッサー可読メディア上に記憶され得る。命令は、プロセッサー可読メディア上で有形に実施されるアプリケーションプログラムを形成し得る。命令は例えば、ハードウェア、ファームウェア、ソフトウェア、または、組み合わせの状態であり得る。命令は例えば、オペレーティングシステム、別個のアプリケーション、または、2つの組み合わせに見出され得る。プロセッサーは、したがって例えば、プロセスを実行するように構成される装置、および、プロセスを実行するための命令を有するプロセッサー可読メディア(記憶装置など)を含む装置の両方として特性付けられ得る。さらにプロセッサー可読メディアは、命令への追加で、または命令の代わりに、実施により生出されるデータ値を記憶し得る。
当技術分野での熟練の者には明瞭となるように、実施は、例えば記憶または送信され得る情報を搬送するようにフォーマットされた種々の信号を作り出し得る。情報は例えば、方法を行うための命令、または、記述される実施の1つにより作り出されるデータを含み得る。
例えば信号は、データとして、構文を書き記す、もしくは読み出すための規則を搬送するように、または、データとして、構文規則を使用して生成される実際の構文値を搬送するようにフォーマットされ得る。そのような信号は例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、または、ベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化すること、および、搬送波を、符号化されるデータストリームによって変調することを含み得る。信号が搬送する情報は例えば、アナログまたはディジタル情報であり得る。信号は、知られているように、種々の異なる有線リンクまたは無線リンクによって送信され得る。信号は、プロセッサー可読メディア上に記憶され得る。
いくつかの実施が記述された。それでも、様々な修正がされ得るということが理解されよう。例えば異なる実施の要素が、他の実施を作り出すように、組み合わされ、補完され、修正され、または、除去され得る。追加的に、通常の熟練の者は、他の構造およびプロセスが、開示されるものの代わりに使われ得るものであり、結果として生じる実施は、開示される実施と、少なくとも実質的に同じ方法で、少なくとも実質的に同じ機能を実行して、少なくとも実質的に同じ結果を成し遂げることになるということを理解するであろう。したがって、これらおよび他の実施が、この出願により企図される。
SCEWeight[1]=SCEWeight[M]
=maximum(SCEWeight[i]、i=2、3、…、M−1)+1
プロセス300は、ビデオ内のシーンの中で画像サマリのピクチャを割り当てること(340)を含む。様々な実施が、ユーザが、ユーザ入力動作310で、ビデオ(例えば、ムービーコンテンツ)から生成される画像サマリの最大長さ(すなわち、PAGESと呼ばれる、ページの最大数)を構成することを可能とする。変数PAGESは、下記式を使用して、画像サマリのハイライトピクチャの最大数Thighlightに変換される。
いくつかの実施が記述された。それでも、様々な修正がされ得るということが理解されよう。例えば異なる実施の要素が、他の実施を作り出すように、組み合わされ、補完され、修正され、または、除去され得る。追加的に、通常の熟練の者は、他の構造およびプロセスが、開示されるものの代わりに使われ得るものであり、結果として生じる実施は、開示される実施と、少なくとも実質的に同じ方法で、少なくとも実質的に同じ機能を実行して、少なくとも実質的に同じ結果を成し遂げることになるということを理解するであろう。したがって、これらおよび他の実施が、この出願により企図される。
[付記1]
ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む構成ガイドからの1つ又は複数のパラメータにアクセスするステップと、
前記ビデオにアクセスするステップと、
前記ビデオの前記画像サマリを生成するステップであって、前記画像サマリは前記構成ガイドからの前記1つ又は複数のアクセスされたパラメータに従う、前記ステップと、
を有する、方法。
[付記2]
前記1つ又は複数のアクセスされたパラメータは、画像サマリの希望するページ数を指し示す値を含み、
前記生成された画像サマリは総ページ数を有し、前記総ページ数は前記画像サマリ内の前記希望するページ数を指し示す、前記アクセスされた値に基づく、付記1に記載の方法。
[付記3]
前記1つ又は複数のアクセスされたパラメータは、(i)前記画像サマリの生成において使用されるビデオからの範囲、(ii)前記生成された画像サマリ内のピクチャの幅、(iii)前記生成された画像サマリ内のピクチャの高さ、(iv)前記生成された画像サマリ内のピクチャを分離するための水平間隔、(v)前記生成された画像サマリ内のピクチャを分離するための垂直間隔、又は(vi)前記生成された画像サマリの希望するページ数を指し示す値の1つ又は複数を含む、付記1に記載の方法。
[付記4]
前記画像サマリを生成するステップは、
前記ビデオ内の第1のシーン、および前記ビデオ内の第2のシーンにアクセスするステップと、
前記第1のシーンの重みを決定するステップと、
前記第2のシーンの重みを決定するステップと、
前記第1のシーンからのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されるかを識別する第1の数を決定するステップであって、前記第1の数は1以上であり、前記第1のシーンの重みに基づき決定される、前記ステップと、
前記第2のシーンからのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されるかを識別する第2の数を決定するステップであって、前記第2の数は1以上であり、前記第2のシーンの重みに基づき決定される、前記ステップと、
を含む、付記1に記載の方法。
[付記5]
前記1つ又は複数のアクセスされたパラメータは、画像サマリの希望するページ数を指し示す値を含み、
前記第1の数を決定するステップは、前記画像サマリ内の前記希望するページ数を指し示す、前記アクセスされた値にさらに基づく、付記4に記載の方法。
[付記6]
前記構成ガイドからの前記1つ又は複数のアクセスされたパラメータは、ユーザが提供するパラメータを含む、付記1に記載の方法。
[付記7]
前記画像サマリ内の前記希望するページ数を指し示す、前記アクセスされた値は、ユーザが提供する値である、付記2に記載の方法。
[付記8]
前記画像サマリを生成するステップは、
前記第1のシーン内の第1のピクチャおよび前記第1のシーン内の第2のピクチャにアクセスするステップと、
前記第1のピクチャの1つ又は複数の特徴に基づき、前記第1のピクチャの重みを決定するステップと、
前記第2のピクチャの1つ又は複数の特徴に基づき、前記第2のピクチャの重みを決定するステップと、
前記第1のピクチャの重みおよび前記第2のピクチャの重みに基づき、前記画像サマリ内の前記第1のシーンのための前記第1の数のピクチャの一部となる前記第1のピクチャおよび前記第2のピクチャの1つ又は複数を選択するステップと、
をさらに含む、付記4に記載の方法。
[付記9]
前記第1の数を決定するステップは、(i)前記第1のシーンの重みと(ii)重み付けされた全シーンの全重みとの比率に基づく、付記4に記載の方法。
[付記10]
前記第1のシーンの重みが前記第2のシーンの重みよりも重いとき、前記第1の数は、少なくとも前記第2の数と同じ大きさである、付記4に記載の方法。
[付記11]
前記第1のシーンの重みを決定するステップは、前記ビデオに対応するスクリプトからの入力に基づく、付記4に記載の方法。
[付記12]
前記第1のシーンの重みを決定するステップは、(i)前記ビデオからの1又は複数の主要キャラクタの前記第1のシーンにおける出現率、(ii)前記第1のシーンの長さ、(iii)前記第1のシーンにおけるハイライトの数、又は(iv)前記ビデオにおける前記第1のシーンの位置の1つ又は複数に基づく、付記4に記載の方法。
[付記13]
前記第1のシーンの重みを決定するステップは、ユーザ入力に基づく、付記4に記載の方法。
[付記14]
前記生成された画像サマリは、前記ビデオの1つ又は複数の部分からのピクチャを使用し、前記1つ又は複数の部分の少なくとも1つからの前記画像サマリ内で使用されるピクチャの数が前記部分のランク付けに基づき決定される、付記1に記載の方法。
[付記15]
前記生成された画像サマリは、前記ビデオの1つ又は複数の部分からのピクチャを使用し、前記1つ又は複数の部分は、前記1つ又は複数の部分を含む前記ビデオの部分間を区別するランク付けに基づき決定される、付記1に記載の方法。
[付記16]
前記画像サマリを生成するステップは、
前記ビデオ内の第1の部分、および前記ビデオ内の第2の部分にアクセスするステップと、
前記第1の部分の重みを決定するステップと、
前記第2の部分の重みを決定するステップと、
前記第1の部分からのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されるかを識別する第1の数を決定するステップであって、前記第1の数は、1つ又は複数であり、前記第1の部分の重みに基づき決定される、前記ステップと、
前記第2の部分からのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されるかを識別する第2の数を決定するステップであって、前記第2の数は、1つ又は複数であり、前記第2の部分の重みに基づき決定される、前記ステップと、
を含む、付記1に記載の方法。
[付記17]
付記1から16のいずれかに記載の方法の1つ又は複数を実行するよう構成された装置。
[付記18]
(i)ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む構成ガイドからの1つ又は複数のパラメータにアクセスし、(ii)前記ビデオにアクセスし、(iii)前記ビデオの前記画像サマリを生成するように構成された画像サマリ生成部であって、前記画像サマリは、前記構成ガイドからの前記1つ又は複数のパラメータに従う、前記画像サマリ生成部、
を備えた、付記17に記載の装置。
[付記19]
ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む構成ガイドからの1つ又は複数のパラメータにアクセスする手段と、
前記ビデオにアクセスする手段と、
前記ビデオの前記画像サマリを生成する手段であって、前記画像サマリは、前記構成ガイドからの前記1つ又は複数のアクセスされたパラメータに従う、前記手段と、
を備えた、付記17に記載の装置。
[付記20]
付記1から16のいずれかに記載の方法の1つ又は複数を実行するよう全体として構成された1つ又は複数のプロセッサーを備えた、付記17に記載の装置。
[付記21]
1つ又は複数のプロセッサーに付記1から16のいずれかに記載の方法の1つ又は複数を全体として実行させるための命令を格納したプロセッサー読み取り可能な記録媒体。



  1. ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む構成ガイドからの1つ又は複数のパラメータにアクセスするステップと、
    前記ビデオにアクセスするステップと、
    前記ビデオの前記画像サマリを生成するステップであって、前記画像サマリは前記構成ガイドからの前記1つ又は複数のアクセスされたパラメータに従う、ステップと、
    を有する、方法。

  2. 前記1つ又は複数のアクセスされたパラメータは、画像サマリの希望するページ数を指し示す値を含み、
    前記生成された画像サマリは総ページ数を有し、前記総ページ数は前記アクセスされた値に基づく、請求項1に記載の方法。

  3. 前記1つ又は複数のアクセスされたパラメータは、(i)前記画像サマリの生成において使用されるビデオからの範囲、(ii)前記生成された画像サマリ内のピクチャの幅、(iii)前記生成された画像サマリ内のピクチャの高さ、(iv)前記生成された画像サマリ内のピクチャを分離するための水平間隔、(v)前記生成された画像サマリ内のピクチャを分離するための垂直間隔、又は(vi)前記生成された画像サマリの希望するページ数を指し示す値の1つ又は複数を含む、請求項1に記載の方法。

  4. 前記画像サマリを生成するステップは、
    前記ビデオ内の第1のシーン、および前記ビデオ内の第2のシーンにアクセスするステップと、
    前記第1のシーンの重みを決定するステップと、
    前記第2のシーンの重みを決定するステップと、
    前記第1のシーンからのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されるかを識別する第1の数を決定するステップであって、前記第1の数は1以上であり、前記第1のシーンの重みに基づき決定される、ステップと、
    前記第2のシーンからのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されるかを識別する第2の数を決定するステップであって、前記第2の数は1以上であり、前記第2のシーンの重みに基づき決定される、ステップと、
    を含む、請求項1に記載の方法。

  5. 前記1つ又は複数のアクセスされたパラメータは、画像サマリの希望するページ数を指し示す値を含み、
    前記第1の数を決定するステップは、前記画像サマリの希望するページ数を指し示す、前記アクセスされた値にさらに基づく、請求項4に記載の方法。

  6. 前記構成ガイドからの前記1つ又は複数のアクセスされたパラメータは、ユーザが提供するパラメータを含む、請求項1に記載の方法。

  7. 前記画像サマリの希望するページ数を指し示す、前記アクセスされた値は、ユーザが提供する値である、請求項2に記載の方法。

  8. 前記画像サマリを生成するステップは、
    前記第1のシーン内の第1のピクチャおよび前記第1のシーン内の第2のピクチャにアクセスするステップと、
    前記第1のピクチャの1つ又は複数の特徴に基づき、前記第1のピクチャの重みを決定するステップと、
    前記第2のピクチャの1つ又は複数の特徴に基づき、前記第2のピクチャの重みを決定するステップと、
    前記第1のピクチャの重みおよび前記第2のピクチャの重みに基づき、前記画像サマリ内の前記第1のシーンについての前記第1の数のピクチャの一部となる前記第1のピクチャおよび前記第2のピクチャの1つ又は複数を選択するステップと、
    をさらに含む、請求項4に記載の方法。

  9. 前記第1の数を決定するステップは、(i)前記第1のシーンの重みと(ii)重み付けされた全シーンの全重みとの比率に基づく、請求項4に記載の方法。

  10. 前記第1のシーンの重みが前記第2のシーンの重みよりも高いとき、前記第1の数は、少なくとも前記第2の数と同じ大きさである、請求項4に記載の方法。

  11. 前記第1のシーンの重みを決定するステップは、前記ビデオに対応するスクリプトからの入力に基づく、請求項4に記載の方法。

  12. 前記第1のシーンの重みを決定するステップは、(i)前記ビデオからの1又は複数の主要キャラクタの前記第1のシーンにおける出現率、(ii)前記第1のシーンの長さ、(iii)前記第1のシーンにおけるハイライトの数、又は(iv)前記ビデオにおける前記第1のシーンの位置の1つ又は複数に基づく、請求項4に記載の方法。

  13. 前記第1のシーンの重みを決定するステップは、ユーザ入力に基づく、請求項4に記載の方法。

  14. 前記生成された画像サマリは、前記ビデオの1つ又は複数の部分からのピクチャを使用し、前記1つ又は複数の部分の少なくとも1つからの前記画像サマリ内で使用されたピクチャの数が前記部分のランク付けに基づき決定される、請求項1に記載の方法。

  15. 前記生成された画像サマリは、前記ビデオの1つ又は複数の部分からのピクチャを使用し、前記1つ又は複数の部分は、前記1つ又は複数の部分を含む前記ビデオの部分間を区別するランク付けに基づき決定される、請求項1に記載の方法。

  16. 前記画像サマリを生成するステップは、
    前記ビデオ内の第1の部分、および前記ビデオ内の第2の部分にアクセスするステップと、
    前記第1の部分の重みを決定するステップと、
    前記第2の部分の重みを決定するステップと、
    前記第1の部分からのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されているかを識別する第1の数を決定するステップであって、前記第1の数は、1つ又は複数であり、前記第1の部分の重みに基づき決定される、ステップと、
    前記第2の部分からのピクチャがどれだけの数、前記ビデオの前記画像サマリ内に使用されているかを識別する第2の数を決定するステップであって、前記第2の数は、1つ又は複数であり、前記第2の部分の重みに基づき決定される、ステップと、
    を含む、請求項1に記載の方法。

  17. 請求項1乃至16に記載の方法の1つ又は複数を実行するよう構成された装置。

  18. (i)ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む構成ガイドからの1つ又は複数のパラメータにアクセスし、(ii)前記ビデオにアクセスし、(iii)前記ビデオの前記画像サマリを生成するように構成された画像サマリ生成部であって、前記画像サマリは、前記構成ガイドからの前記1つ又は複数のパラメータに従う、画像サマリ生成部、
    を備えた、請求項17に記載の装置。

  19. ビデオの画像サマリを構成するための1つ又は複数のパラメータを含む構成ガイドからの1つ又は複数のパラメータにアクセスする手段と、
    前記ビデオにアクセスする手段と、
    前記ビデオの前記画像サマリを生成する手段であって、前記画像サマリは、前記構成ガイドからの前記1つ又は複数のアクセスされたパラメータに従う、と、
    を備えた、請求項17に記載の装置。

  20. 請求項1乃至16に記載の方法の1つ又は複数を実行するよう全体として構成された1つ又は複数のプロセッサーを備えた、請求項17に記載の装置。

  21. 1つ又は複数のプロセッサーに請求項1乃至16に記載の方法の1つ又は複数を全体として実行させるための命令を格納したプロセッサー読み取り可能な記録媒体。

 

 

Patent trol of patentswamp
類似の特許
様々な実施形態において、メディアプラットフォームの先取り設定に基づいて、推薦されるメディアコンテンツを先取りするための方法及びシステムが提供される。推薦されるメディアコンテンツについての推薦メディアレコードが受信される。推薦メディアレコードは、推薦プロファイルの推薦基準に基づいて生成される。推薦メディアレコードはメディアプラットフォームに関連する。メディアプラットフォームは、メディアプラットフォームの先取り設定に基づいて、推薦メディアレコードに関連する推薦されるメディアコンテンツをメディアプラットフォームに自動的にどのようにダウンロードするかを決定し、デフォルトの先取り設定は、推薦されるメディアコンテンツをメディアプラットフォームに自動的にダウンロードする結果をもたらし、カスタマイズされた先取り設定は、カスタマイズされた先取り設定に基づいて、推薦されるメディアコンテンツを自動的にダウンロードする結果をもたらす。推薦されるメディアコンテンツをダウンロードする仕方を決定すると、メディアプラットフォームの先取り設定に基づいて、推薦されるメディアコンテンツがダウンロードされる。
本技法の1つの態様によれば、方法は、1つまたは複数の画像キャプチャデバイスから、1つまたは複数のビデオを受信することを含む。この方法はさらに、1つまたは複数のビデオから、人のビデオループを生成することを含む。ビデオループは、商業地区における人を示す。この方法はまた、ビデオループから、動作クリップを生成することを含む。動作クリップは、商業地区において、人によって実行された疑わしい動作を含む。この方法はさらに、ビデオループおよび動作クリップを含む、人の行動サマリを生成することを含む。
【選択図】図1
【課題】異なるグループの同期を調整し、マルチカメラメディアクリップを作成するメディア編集アプリケーションを提供する。
【解決手段】アプリケーションは、マルチレビューメディアクリップを作成するために同じイベントのいくつかのメディアクリップの選択を受け取る。メディアメディアクリップと共に記憶されクリップのソースを特定するメタデータに基づいて、アプリケーションは、クリップを少なくとも2つの異なるグループ(静止画像及びビデオ)に自動的に割り当てる。グループごとに、タイムスタンプ又は日時などのタイミングメタデータを使用して、アプリケーションは、クリップをタイムラインに沿って順序付けし、最初に異なるクリップを同期させ、異なるグループに割り当てられたクリップのメタデータを比較する。
【選択図】図1
ネットワークにおいて、少なくとも1つの映像サービスプロバイダ1のユーザに対する映像コンテンツBを自動的に要約するためのプロセスであって、そのような映像サービスプロバイダ1のユーザによって生成された少なくとも2つの映像マッシュアップAに関する情報を監視するステップであって、前記マッシュアップは、前記映像コンテンツの少なくとも1つのショットC、D、E、Fを含む、監視するステップと、前記情報を分析して、前記映像コンテンツの最もポピュラーなショットCを識別するステップと、前記識別されたショットの少なくとも1つを備えた映像要約S1、S2を編集するステップと、を備えた、プロセス。
一般に、本開示は、ビジュアル・キュー検出に基づく閲覧者の反応推定によるビデオ・インデクシング・システムのための方法及びシステムを提供する。本方法は、ユーザにより生成されたビジュアル・キューを検出する検出ステップであって、ビジュアル・キューは、ユーザがビデオを閲覧したことに応じて生成される、検出ステップと、ビジュアル・キューをユーザに関連付けられた感情空間にマッピングするステップと、マッピングに基づいてユーザの感情事象を推定するステップと、メタデータによりビデオをインデクシングするインデクシング・ステップであって、メタデータは、推定された感情事象及び推定された感情事象に関連付けられたタイミング・データを含む、インデクシング・ステップと、を含み得る。本方法は、ビデオ・インデクスに基づく、ビデオの要約、分割、及び検索をさらに含み得る。
本発明は、視聴覚オブジェクトの要約を提供するための方法に関する。方法は、視聴覚オブジェクトから情報を取得するステップと(101)、前記視聴覚オブジェクトを特定するステップと(102)、視聴覚オブジェクトに関連する、取得した情報の時間インデックスを決定するステップと(103)、そして、特定された視聴覚オブジェクトのある部分の要約を提供するステップであって、部分は、先頭と特定された視聴覚オブジェクトの決定された時間インデックスの間に含まれる、提供するステップとを含む。
ここに開示する手順、システム、及び教示は、ゲートウェイデバイスを通してアクセスされたコンテンツをモニタリングできるゲートウェイデバイスで実施できる。アクセスされたコンテンツの画面内容が取得され、捕捉された画面内容から、アクセスされたコンテンツのログが生成される。異なる時点においてリモートコントロールを用いてログ中をナビゲートしてコンテンツのキャプチャされた画面内容を見るユーザに、ログが表示され得る。
動画をデコーディングするための第1デコーダー及び第1デコーダーを制御する制御部を有する装置の多重動画再生方法であって、制御部により、第1デコーダーが使用中であるか否かを判断する段階と、第1デコーダーが使用中の場合、第2デコーダーとして制御部が動画をデコーディングして動画クリップを生成する段階と、動画クリップを記憶部に保存する段階と、プレビュー要請イベントの検出に応答して記憶部に保存された動画クリップを同時再生する段階と、を有する。
【選択図】図3
芯が、伸縮性フィラメントであり、かつポリトリメチレンテレフタラート系ステープル繊維を第二のステープル繊維と組み合わせた鞘によって取り囲まれたコアスパン糸。このコアスパン糸を使用して布地が作られる。このコアスパン糸から生産される布地は、高伸縮性であり、かつ高い寸法安定性、低い成長、および高い回復率を有する。
To top