自動ビデオセグメント化のための方法および装置

 

ビデオを理想のセグメントに動的にフラグメントしてコンテンツ共有を楽にするための方法および装置。例えば、システムはビデオが8秒セグメントに分割されると教示される。結果として生じるビデオは、複数の8秒ビデオとして保存される。ユーザは、興味のあるセグメントを選択し、個々にそれらを共有したり、共有のフィルビデオに結合してもよい。8秒分割に加えて、セグメント境界がコンテンツの属性に基づいて決定される。

 

 

本出願は、2013年3月8日に出願された米国仮出願第61/775,312号の優先権を主張する。
携帯型電子デバイスは、よりユビキタスになりつつある。モバイル電話、音楽プレーヤ、カメラ、タブレット等などのこれらのデバイスは、デバイスの組み合わせを含み、したがって、複数の物を携行することを冗長にする。例えば、AppleのiPhoneまたはSamsungのGalaxy android電話などの現在のタッチスクリーンモバイル電話は、ビデオおよびスチルカメラ、全地球測位ナビゲーションシステム、インターネットブラウザ、テキストおよび電話、ビデオおよび音楽プレーヤその他を含む。これらのデバイスは、データを送信および受信するために、WiFi、有線、および3Gなどのセルラなどの複数のネットワーク上で、しばしばイネーブルされる。
携帯型電子機器における二次的機能の品質は、常に改善してきている。例えば、初期の「カメラ電話」は、固定焦点レンズを有する低解像度のセンサから成り、フラッシュを有しなかった。今日では、多くのモバイル電話が、フル高解像度ビデオ能力、編集ツールおよびフィルタリングツール、および高解像度ディスプレイを含む。この改善された能力により、多くのユーザが、これらのデバイスを彼らの主な写真撮影デバイスとして使用している。そのため、さらにいっそう改善された性能とプロフェッショナルグレードの埋め込み式写真撮影ツールとへの需要がある。また、ユーザは、彼らのコンテンツを、印刷された写真だけよりも多くの手法で他者と共有することを望む。これらの共有の方法は、電子メール、テキスト、またはFacebook、twitter、YouTube(登録商標)等などのソーシャルメディアウェブサイトを含み得る。
ユーザは、ビデオコンテンツを他者と簡単に共有することを望み得る。今日では、ユーザは、YouTubeなどのビデオストレージサイトまたはソーシャルメディアサイトにコンテンツをアップロードしなければならない。しかしながら、ビデオが長すぎる場合、ユーザは、別個のプログラムにおいてコンテンツを編集して、コンテンツをアップロードに向けて準備しなければならない。これらの機能は、モバイルデバイス上では一般的に利用可能ではないため、ユーザは、まず、コンテンツをコンピュータにダウンロードして、編集を実行しなければならない。これは、ユーザのスキルレベルを超えるか、実用的になるまでにあまりに多くの時間と努力を必要とすることが多いため、ユーザは、ビデオコンテンツを共有することを思いとどまらせられることが多い。したがって、現行のカメラおよびモバイル電子デバイスに組み込まれたソフトウェアに伴うこれらの問題を克服することが望ましい。
コンテンツ共有を容易にするために、ビデオを理想的なセグメントに動的に分解するための方法および装置。例えば、ビデオが8秒のセグメントにセグメント化されるシステムが教示される。次いで、結果として得られるビデオは、複数の8秒のビデオとして保存される。次いで、ユーザは、興味のあるセグメントを選択し、それらを個々に共有するか、または、それらを共有のファイルビデオに結合し得る。また、セグメント境界は、コンテンツの属性に基づいて判定され得る。
本発明の一態様によれば、装置は、ビデオデータストリームを生成するためのビデオセンサと、少なくとも1つのビデオデータセグメントを記憶するためのメモリと、前記ビデオデータストリームを所定の時間に最も近い持続期間を有する前記少なくとも1つのビデオデータセグメントにセグメント化するためのプロセッサと、を備える。
本発明の別の態様によれば、ビデオデータを処理するための方法は、ビデオデータを受信するステップと、前記ビデオデータを複数のビデオファイルにセグメント化するステップであって、各ビデオファイルは、所定の時間に最も近い持続期間を有する、ステップと、前記複数のビデオファイルの各々を複数の個々のビデオファイルのうちの1つとして記憶するステップと、を含む。
本開示のこれらのおよび他の態様、機能および利点は、添付の図面と共に読まれるべきである、好適な実施形態の下記の詳細な説明から説明され、または明らかとなるであろう。
同様の参照符号は、図の全体にわたって同様の要素を示す図面において:
モバイル電子デバイスの例示的実施形態のブロック図である。 本発明による、アクティブなディスプレイを有する例示的なモバイルデバイスディスプレイを示す図である。 本開示による、画像安定化およびリフレーミングのための例示的なプロセスを示す図である。 本発明による、キャプチャ初期化を有する例示的なモバイルデバイスディスプレイ400を示す図である。 本開示に従って画像またはビデオキャプチャを起動するための例示的なプロセス500を示す図である。 本発明の一態様に従った自動ビデオセグメント化の例示的実施形態を示す図である。 本発明の一態様に従ってビデオをセグメント化する方法700を示す図である。 本発明の1つの態様に従ったライトボックスアプリケーションを示す図である。 ライトボックスアプリケーション内で実行され得る様々な例示的な動作を示す図である。
本明細書において述べられる例示は、本発明の好適な実施形態を解説するものであり、そのような例示は、いかなる方法においても本発明の範囲を制限するものとして解釈されるべきではない。
図1を参照すると、モバイル電子デバイスの例示的実施形態のブロック図が示されている。描かれたモバイル電子デバイスは、モバイル電話100であるが、本発明は、音楽プレーヤ、カメラ、タブレット、全地球測位ナビゲーションシステム等などの、いかなる数のデバイス上でも等しく実装され得る。モバイル電話は、典型的には、電話呼およびテキストメッセージを送信および受信し、セルラネットワークまたはローカル無線ネットワークのいずれかを通じてインターネットとインターフェースをとり、写真およびビデオを撮影し、オーディオおよびビデオコンテンツを再生し、文書処理、プログラム、またはビデオゲームなどのアプリケーションを実行する機能を含む。多くのモバイル電話は、GPSを含み、ユーザインターフェースの一部としてタッチスクリーンパネルも含む。
モバイル電話は、その他の主な構成要素の各々に結合されるメインプロセッサ150を含む。メインプロセッサ、またはプロセッサは、ネットワークインターフェース、カメラ140、タッチスクリーン170、および他の入力/出力I/Oインターフェース180などの様々な構成要素間で情報を送る。メインプロセッサ150はまた、直接デバイス上での、またはオーディオ/ビデオインターフェースを通じて外部デバイス上での再生のために、オーディオコンテンツおよびビデオコンテンツを処理する。メインプロセッサ150は、カメラ140、タッチスクリーン170、およびUSBインターフェース130などの様々なサブデバイスを制御するように動作する。メインプロセッサ150は、コンピュータと同様に、データを操作するために使用されるモバイル電話内のサブルーチンを実行するようにさらに動作する。例えば、メインプロセッサは、カメラ機能140によって写真が撮影された後に、画像ファイルを操作するために使用され得る。これらの操作は、トリミング、圧縮、色および輝度調整等を含み得る。
セルネットワークインターフェース110は、メインプロセッサ150によって制御され、セルラ無線ネットワーク上で情報を受信および送信するために使用される。この情報は、時分割多重アクセス(TDMA:time division multiple access)、符号分割多重アクセス(CDMA:code division multiple access)または直交周波数分割多重(OFDM:Orthogonal frequency-division multiplexing)などの様々なフォーマットで符号化され得る。情報は、デバイスからセルネットワークインターフェース110を通じて送信および受信される。インターフェースは、情報を送信のための適当なフォーマットに符号化および復号化するために使用される複数のアンテナ符号化器、復調器等から成り得る。セルネットワークインターフェース110は、音声送信もしくはテキスト送信を容易にするために、またはインターネットから情報を送信および受信するために使用され得る。この情報は、ビデオ、オーディオ、およびまたは画像を含み得る。
無線ネットワークインターフェース120、またはwifiネットワークインターフェースは、wifiネットワーク上で情報を送信および受信するために使用される。この情報は、802.11g、802.11b、802.11ac等などの、異なるwifi標準による様々なフォーマットで符号化され得る。インターフェースは、情報を送信のための適当なフォーマットに符号化および復号化し、情報を復調のために復号化するために使用される複数のアンテナ符号化器、復調器等から成り得る。wifiネットワークインターフェース120は、音声送信もしくはテキスト送信を容易にするために、またはインターネットから情報を送信および受信するために使用され得る。この情報は、ビデオ、オーディオ、およびまたは画像を含み得る。
ユニバーサルシリアルバス(USB)インターフェース130は、典型的には、コンピュータまたは他のUSB使用可能なデバイスへ、有線リンク上で情報を送信および受信するために使用される。USBインターフェース120は、情報を送信および受信し、インターネットに接続し、音声通話およびテキスト通話を送信および受信するために使用され得る。また、この有線リンクは、モバイルデバイスのセルネットワークインターフェース110またはwifiネットワークインターフェース120を使用して、USB使用可能なデバイスを別のネットワークへ接続するために使用され得る。USBインターフェース120は、設定情報をコンピュータへ送信および受信するために、メインプロセッサ150によって使用され得る。
メモリ160、またはストレージデバイスは、メインプロセッサ150に結合され得る。メモリ160は、モバイルデバイスの動作に関連し、メインプロセッサ150によって必要とされる特定の情報を記憶するために使用され得る。メモリ160は、ユーザによって記憶および取得されたオーディオ、ビデオ、写真、または他のデータを記憶するために使用され得る。
入力/出力(I/O)インターフェース180は、電話呼、オーディオ記録および再生、または音声作動制御に使用するためのボタン、スピーカ/マイクロフォンを含む。モバイルデバイスは、タッチスクリーンコントローラを通じてメインプロセッサ150に結合されるタッチスクリーン170を含み得る。タッチスクリーン170は、容量性タッチセンサおよび抵抗式タッチセンサのうちの1または複数を使用する、シングルタッチスクリーンまたはマルチタッチスクリーンのいずれかであり得る。スマートフォンは、オン/オフボタン、作動ボタン、音量制御、リンガー制御、およびマルチボタンキーパッドまたはマルチボタンキーボードなどの付加的なユーザ制御も含み得るが、これらに限定されない。
ここで図2を参照すると、本発明によるアクティブなディスプレイ200を有する例示的なモバイルデバイスディスプレイが示されている。例示的なモバイルデバイスアプリケーションは、ユーザが任意のフレーミングで記録し、撮影中にユーザのデバイスを自由に回転することを可能にし、撮影中にデバイスのファインダ(viewfinder)上でオーバーレイにおいて最終的な出力を視覚化し、最終的な出力におけるその配向を最終的に訂正するために動作する。
例示的実施形態によれば、ユーザが撮影を開始する場合、その現在の配向が考慮され、デバイスのセンサに基づく重力のベクトルが水平線を登録するために使用される。デバイスのスクリーンと関連する光学センサとが縦向きであるポートレート210、またはデバイスのスクリーンと関連する光学センサとが横向きであるランドスケープ250などの取り得る配向ごとに、最適なターゲットアスペクト比が選ばれる。はめ込まれた矩形225は、所与の(現在の)配向についての所望の最適なアスペクト比が与えられると、センサの最大境界線に最も良く適合するセンサ全体内で内接させられる。センサの境界線は、訂正のための「充分な空間(breathing room)」を提供するために、若干補充される。このはめ込まれた矩形225は、デバイスの一体化されたジャイロスコープからサンプリングされる、デバイス自体の回転の反対に本質的に回転することによって、回転220、230、240について補償するように変形される。変形された内側の矩形225は、センサ全体から補充を差し引いた利用可能な最大境界の内部に最適に内接させられる。デバイスの最新の配向に応じて、変形された内側の矩形225の寸法は、回転の量に対して、2つの最適なアスペクト比間を補間するように調整される。
例えば、ポートレート配向について選択される最適なアスペクト比が正方形(1:1)であり、ランドスケープ配向について選択される最適なアスペクト比がワイド(16:9)であった場合、内接された矩形は、それが1つの配向から別の配向へ回転されるにつれて、1:1と16:9との間を最適に補間するであろう。内接された矩形は、サンプリングされ、次いで、最適な出力寸法に適合するように変形される。例えば、最適な出力寸法が4:3であり、サンプリングされた矩形が1:1である場合、サンプリングされた矩形は、アスペクトフィルされる(aspect filled)(必要に応じてデータをトリミングし、1:1領域を光学的に完全に広げる)か、またはアスペクトフィットされる(aspect fit)(任意の未使用領域を「レターボクシング(letter boxing)」もしくは「ピラーボクシング(pillar boxing)」により黒く塗りつぶし、1:1領域の内部に光学的に完全に適合させられる)。結局、結果は、訂正中に動的に提供されるアスペクト比に基づいてコンテンツフレーミングが調整する固定されたアスペクトアセットである。そのため、例えば、1:1から16:9のコンテンツから成る16:9ビデオは、(16:9部分中に)光学的に広げられる260と(1:1部分中に)ピラーボクシングにより適合される250との間で変動するであろう。
全ての動作の総計が考慮され、最適な出力アスペクト比の選択において検討される付加的な微調整が実施される。例えば、ユーザが、少数のポートレートコンテンツを有する「大部分がランドスケープ(mostly landscape)」のビデオを記録する場合、出力フォーマットは、(ポートレートセグメントをピラーボクシングする)ランドスケープアスペクト比になる。ユーザが、大部分がポートレートであるビデオを記録する場合には、その反対が当てはまる(ビデオはポートレートとなり、出力矩形の境界に入らないどのようなランドスケープコンテンツもトリミングして、出力を光学的に広げる)。
ここで図3を参照すると、本開示による、画像安定化およびリフレーミングのための例示的なプロセス300が示されている。システムは、起動されているカメラのキャプチャモードに応答して初期化される。この初期化は、ハードウェアボタンもしくはソフトウェアボタンによって、またはユーザアクションに応答して生成される別の制御信号に応答して、起動され得る。いったんデバイスのキャプチャモードが起動されると、ユーザ選択に応答して、モバイルデバイスセンサ320が選ばれる。ユーザ選択は、タッチスクリーンデバイス上での設定を通じて、メニューシステムを通じて、または、どのようにボタンが作動されるかに応答して、行われ得る。例えば、一度押されるボタンは、写真センサを選択し得る一方で、継続的に押下されるボタンは、ビデオセンサを示し得る。また、3秒間など所定の時間の間ボタンを押さえることは、ビデオが選択されており、ボタンが二度目に作動されるまで、モバイルデバイス上でのビデオ記録が継続することを示し得る。
いったん適当なキャプチャセンサが選択されると、システムは、次いで、回転センサからの測定値を要求する320。回転センサは、ジャイロスコープ、加速度計、軸配向センサ、光センサ等であってもよく、これは、モバイルデバイスの位置の水平指標および/または垂直指標を判定するために使用される。測定センサは、定期的な測定値を制御プロセッサへ送信することができ、それによって、モバイルデバイスの垂直配向および/または水平配向を継続的に示す。したがって、デバイスが回転されるにつれて、制御プロセッサは、ディスプレイを継続的に更新し、ビデオまたは画像を継続して一貫性のある水平線を有するように保存することができる。
回転センサがモバイルデバイスの垂直配向および/または水平配向の指標を戻した後に、モバイルデバイスは、ビデオまたは画像のキャプチャされた配向を示す、ディスプレイ上のはめ込まれた矩形を描く340。モバイルデバイスが回転されるにつれて、システムプロセッサは、はめ込まれた矩形を、回転センサから受け取られる回転測定値に継続的に同期させる350。ユーザは、1:1、9:16、16:9、またはユーザによって決定される任意の比などの、好適な最終的なビデオ比または画像比を随意的に示し得る。システムは、モバイルデバイスの配向による異なる比についてのユーザ選択も記憶し得る。例えば、ユーザは、垂直配向において記憶されたビデオについては1:1比を示し、水平配向において記録されたビデオについては16:9比を示し得る。この場合において、システムは、モバイルデバイスが回転されるにつれて、ビデオを継続的にまたはインクリメンタルに拡大縮小し(rescale)得る360。したがって、ビデオは、1:1配向で開始し得るが、撮影中にユーザが垂直配向から水平配向へ回転させることに応答して、16:9配向において終了するように次第に拡大縮小され得る。随意的に、ユーザは、開始時配向または終了時配向がビデオの最終的な比を判定することを示してもよい。
ここで図4を参照すると、本発明による、キャプチャ初期化を有する例示的なモバイルデバイスディスプレイ400が示されている。画像またはビデオをキャプチャするためのタッチトーンディスプレイを描く例示的なモバイルデバイスが示されている。本発明の一態様によれば、例示的なデバイスのキャプチャモードは、多くのアクションに応答して起動され得る。モバイルデバイスのハードウェアボタン410のいずれかが、キャプチャシーケンスを起動するために押し下げられ得る。あるいは、ソフトウェアボタン420が、キャプチャシーケンスを起動するために、タッチスクリーンを通じて作動され得る。ソフトウェアボタン420は、タッチスクリーン上に表示される画像430にオーバーレイされ得る。画像430は、画像センサによってキャプチャされている現在の画像を示すファインダとして動作し得る。前述されたような内接された矩形440も、キャプチャされている画像またはビデオのアスペクト比を示すために、画像上にオーバーレイされ得る。
ここで図5を参照すると、本開示による、画像キャプチャまたはビデオキャプチャを起動するための例示的なプロセス500が示されている。いったんイメージングソフトウェアが起動されると、システムは、画像キャプチャを起動するための指標を待つ。いったん画像キャプチャ指標がメインプロセッサによって受け取られる510と、デバイスは、画像センサから送られたデータを保存し始める520。また、システムは、タイマを起動する。システムは、次いで、画像センサからのデータをビデオデータとしてキャプチャし続ける。キャプチャが終了されたこと530を示すキャプチャ指標からの第2の指標に応答して、システムは、画像センサからのデータを保存することを停止し、タイマを停止する。
システムは、次いで、タイマ値と所定の時間閾値とを比較する540。所定の時間閾値は、例えば、1秒間などの、ソフトウェアプロバイダによって判定されたデフォルト値であってもよく、または、それは、ユーザによって判定される設定可能な設定値であってもよい。タイマ値が所定の時間閾値未満である場合540、システムは、静止画像が望まれたと判定し、ビデオキャプチャの最初のフレームを、jpeg等の静止画像フォーマットで静止画像として保存する560。システムは、別のフレームを静止画像として随意的に選んでもよい。タイマ値が所定の時間閾値よりも大きい場合540、システムは、ビデオキャプチャが望まれたと判定する。システムは、次いで、キャプチャデータを、mpeg等などのビデオファイルフォーマットでビデオファイルとして保存する550。その後、システムは、次いで、初期化モードに戻り、キャプチャモードが再び起動されるのを待ち得る。モバイルデバイスが、静止画像キャプチャとビデオキャプチャとについて異なるセンサを備える場合、システムは、随意的に、静止画像センサからの静止画像を保存し、ビデオ画像センサからのキャプチャデータを保存することを開始し得る。タイマ値が所定の時間閾値と比較される場合、所望のデータが保存される一方で、不要なデータは保存されない。例えば、タイマ値が閾値時間値を超える場合、ビデオデータが保存され、画像データは破棄される。
ここで図6を参照すると、自動ビデオセグメント化の例示的実施形態600が示されている。システムは、秒単位の所定の時間間隔にできるだけ近いセグメントにスライスされるビデオを計算および出力することを目指す自動ビデオセグメント化に向けられる。また、セグメントは、セグメント化されているビデオの属性に応じて、長くなり、または短くなり得る。例えば、話されている単語の途中など、ぎこちない方法でコンテンツを二分することは、望ましくない。9つのセグメント(1〜9)にセグメント化されたビデオを描くタイムライン610が示される。セグメントの各々は、約8秒の長さである。元のビデオは、少なくとも1分4秒の長さを有する。
この例示的実施形態において、各ビデオセグメントについて選ばれる時間間隔は、8秒間である。この最初の時間間隔は、より長くても、もしくは、より短くてもよく、または、随意的に、ユーザによって設定可能であってもよい。8秒のベースタイミング間隔が選ばれたのは、様々なネットワークタイプ上でのダウンロードのための合理的なデータ送信サイズを有する、扱いやすいデータセグメントを現在のところ表すためである。約8秒のクリップは、モバイルプラットフォーム上で試験的に配信されるビデオコンテンツの単一のクリップをエンドユーザがよく調べることを期待するための合理的な平均持続期間を有するであろう。約8秒のクリップは、それが表示するコンテンツのより多くのより良好な視覚的記憶をエンドユーザが理論的に保持することができる、知覚的に記憶しやすい持続期間であり得る。また、8秒間は、現代の西洋音楽の最も一般的なテンポである120BPMにおける8ビートの均等なフレーズ長である。これは大体、最も一般的なフレーズ長(音楽のテーマまたはセクション全体をカプセル化するための持続期間)である4小節(16ビート)の短いフレーズの持続期間である。このテンポは、平均アクティブ心拍数に知覚的にリンクされ、アクションおよび活動を示唆し、覚醒を強化する。さらに、小さい、知られているサイズのクリップを有することは、ビデオ圧縮レートおよび帯域幅が、一般に、メガビット/秒、ただし、8メガビット=1メガバイトなどのおよそ8進数の数で計算されることに基づいて、より簡単な帯域幅計算を容易にし、そのため、ビデオの各セグメントは、1メガビット/秒で符号化される場合には、およそ1メガバイトとなる。
ここで図7を参照すると、本発明による、ビデオをセグメント化する方法700が示されている。ビデオコンテンツを知覚的に良好な編集境界上で理想的な8秒のセグメントに手続き的に分解するために、ビデオコンテンツを分析するための多数のアプローチが、システム内で供給され得る。まず、ビデオコンテンツの本質に関して、それが別のアプリケーションから派生したのか、または現在のモバイルデバイスを使用して記録されたのかについて、最初の判定が行われ得る720。コンテンツが別のソースまたはアプリケーションから派生したものである場合、ビデオコンテンツは、まず、シーンブレイク検出を使用して、明らかな編集境界について分析される725。所望の8秒間隔上の境界または所望の8秒間隔に最も近い境界を強調して、任意の統計的に有意な境界にマークが付される730。ビデオコンテンツが現在のモバイルデバイスを使用して記録された場合、センタデータは、記録中にログが取られ得る735。これは、デバイスの加速度計からの全ての軸上でのデバイスの動作の差分、および/またはデバイスのジャイロスコープに基づく全ての軸上でのデバイスの回転を含み得る。このログが取られたデータは、動き開始、任意の所与のベクトルについての経時的な平均の大きさに対して統計的に有意な差分を見つけるために分析され得る。これらの差分は、所望の8秒間隔に最も近い境界を強調してログが取られる740。
ビデオコンテンツは、編集選択を通知し得る付加的なキューのために、さらに知覚的に分析され得る。デバイスハードウェア、ファームウェアまたはOSが、顔ROI選択を含む、任意の一体化された関心領域(ROI:region of interest)検出を提供する場合、それは、シーン内の任意のROIにマークを付するために利用される745。これらのROIの開始出現または開始消失(すなわち、それらがフレームに出現し、フレームから消失する時に最も近い瞬間)は、所望の8秒間隔に最も近い境界を強調してログが取られ得る。
全体的な振幅についてのオーディオベースの開始検出は、ゼロ交差、ノイズフロアまたは移動平均電力レベルに対して、振幅における統計的に有意な変化(増加または減少)を探す750。統計的に有意な変化は、所望の8秒間隔に最も近いそれらを強調してログが取られる。スペクトルバンド範囲内の振幅に関するオーディオベースの開始検出は、FFTアルゴリズムを使用してオーディオ信号を多数の重複するFFTビンに変形することに依存する。いったん変形されると、各ビンは、それ自体の移動平均に対する振幅における統計的に有意な変化について慎重に分析され得る。全てのビンは、共に平均値が求められ、所望の8秒間隔に最も近いそれらを強調して、全てのバンドにわたって最も統計的に有意な結果が開始としてログが取られる。この方法において、オーディオは、バンドを選択的に強調する/強調しないために、櫛形フィルタを用いて予め処理され得、例えば、通常の人間の発話の範囲におけるバンドは強調され得る一方で、ノイズと同義の高周波バンドは強調されなくてもよい。
コンテンツ内の平均動きの視覚分析は、適当なセグメント化ポイントの確立を支援するために、ビデオコンテンツについて判定され得る755。リアルタイム性能特性について必要とされるような制限されたフレーム解像度およびサンプリング比において、インフレームの平均動きの大きさは、経時的で統計的に有意な変化を探すために、所望の8秒間隔に最も近いそれらを強調して結果のログを取りつつ、判定および使用され得る。また、コンテンツの平均色および平均輝度は、統計的に有意な変化を所望の8秒間隔に最も近いそれらを強調してログを取りつつ、記録されたデータの単純な低解像度分析を使用して判定され得る。
いったん上記分析のうちのいずれかまたは全てが完了すると、最終的なログを取られた出力は、各結果を全体的な平均に重み付けして分析され得る760。分析データのこの後処理のパスは、全ての個々の分析プロセスの重み付けおよび平均された結果に基づいて、最も実行可能な時点を見つける。所望の8秒間隔上のまたは所望の8秒間隔に最も近い、最終的な、最も強い平均点は、分離編集決定のためのモデルを形成する出力として計算される。
後処理ステップ760は、ビデオ上の前述されたマークが付されたポイントのいずれかまたは全てを、好適なセグメント化ポイントのインジケータとして見なし得る。様々な判定要因が、重み付けされ得る。また、8秒間などの好適なセグメント長と極端に異なる判定ポイントは、好適なセグメント長に最も近いものよりも低く重み付けされ得る。
ここで図8を参照すると、本発明の1つの態様によるライトボックスアプリケーション800が示されている。ライトボックスアプリケーションは、ビデオおよびメディア時間ベースの編集を改善するために、リスト駆動型選択プロセスを使用するための方法およびシステムに向けられる。ライトボックスアプリケーションは、垂直配向810と水平配向820との両方において示される。ライトボックスアプリケーションは、セグメント化されたビデオが保存された後に、起動され得る。あるいは、ライトボックスアプリケーションは、ユーザコマンドに応答して、起動され得る。セグメントの各々は、最初は、各々について生成されるプレビューと共に、経時的に一覧表にされる。プレビューは、ビデオセグメントから得られた単一の画像、またはビデオセグメントの一部であり得る。付加的なメディアコンテンツまたはデータが、ライトボックスアプリケーションに付加され得る。例えば、他のソースから受け取られた写真またはビデオは、ユーザが受け取られたコンテンツを共有もしくは編集し、またはこれらの受け取られたコンテンツを新たに生成されるコンテンツと組み合わせることを可能にするために、ライトボックスリストに含まれ得る。したがって、アプリケーションは、ビデオおよびメディア時間ベース編集を、単純なリスト駆動型選択プロセスにする。
ライトボックスアプリケーションは、編集上の決定を共有するための中心点として使用され得る。ライトボックスは、ユーザがコンテンツを素早く簡単に見て、何を残し、何を破棄し、どのように、および、いつ他者と共有するかを決定することを可能にする。ライトボックス機能は、カメラと共に、チャネルブラウジングと共に、または他の場所からメディアをインポートするためのポイントとして、動作し得る。ライトボックスビューは、最近のメディアまたはメディアのグループ化されたセットのリストを含み得る。各アイテム、画像またはビデオは、キャプション、称賛(aduration )、および取り得るグループ数と共に、サムネイルとして表示される。キャプションは、自動的に、またはユーザによって、生成され得る。ユーザにメディアコンテンツの重みおよびペースを提示するように、持続期間は単純化され得る。ライトボックスタイトルバーは、戻る、アイテムをインポートする、またはメニューを開くためのナビゲーションと一緒に、そのアイテム数と共にライトボックスセットのカテゴリを含み得る。
ライトボックスランドスケープビュー820は、メディアアイテムが一方の側に一覧表にされ、随意的に、何らかの即座に評価可能な形式で共有する方法が他方の側に一覧表にされた状態で、異なるレイアウトを提示する。これは、facebook、twitter、もしくは他のソーシャルメディアアプリケーションのリンクまたはプレビューを含み得る。
ここで図9を参照すると、ライトボックスアプリケーション内で実行し得る様々な例示的な動作900が示されている。例えば一体化されたカメラ機能によってキャプチャされ、デバイスの既存のメディアライブラリからインポートされ、おそらくは他のアプリケーションを用いて記録され、もしくは他のアプリケーションによって作成され、もしくはウェブベースのソースからダウンロードされ、または関連するアプリケーション内で直接発行されたコンテンツからキュレートされるメディアは全て、プレビューモードにおいてライトボックス内に収集される905。ライトボックスは、メディアが収集された時間のグルーピングなどの、イベントに基づくグループに分類された単純な垂直のリストにおいてメディアを提示する。各アイテムは、メディアの所与の部分についてのサムネイルまたは簡略化された持続期間を含むリスト行によって表される。任意のアイテムをタップすることによって、メディアは、そのアイテムに直接関連して表示する、展開されたパネルにおいてプレビューされ得る。
ライトボックスアプリケーションは、アイテムをプレビューする、展開されたアイテムビュー910を随意的に有し得る。展開されたアイテムビュー910は、メディアアイテムを処理し、キャプションを付け、それを共有するためのオプションを見せる。閉ボタンをタップすることは、アイテムを閉じ、または、それの下の別のアイテムをタップすることは、そのアイテムを閉じ、別のアイテムを開く。
ライトボックスアプリケーション内で上方または下方へスクロールすることは、ユーザがメディアアイテムをナビゲートすることを可能にする915。ヘッダは、リストの最上部に留まってもよく、または、それは、コンテンツの上に浮かんでもよい。リストの最後までスクロールすることは、他の、より古いリストへのナビゲーションを可能にし得る920。より古いリストの見出しは、ドラッグ中にテンション下で見せられ得る。テンションを超えてドラッグすることは、より古いリストに遷移する。アイテムを押さえ、ドラッグすることは、ユーザが、アイテムを再オーダすること、または、あるアイテムを別のアイテムへドラッグすることによってアイテムを組み合わせることを可能にする925。アイテムを左側へスワイプすることは、そのアイテムをライトボックスから除去する930。アイテムを除去することは、それらを単にライトボックスアプリケーションからでなくデバイスから除去しても、またはデバイスから除去しなくてもよい。アイテムを別のアイテムへドラッグおよびドロップすることは、アイテムを組み合わせてグループにする935ために、またはドラッグされるアイテムを組み合わせてグループにするために使用され得る。アイテムを一緒にピンチすることは、ピンチ範囲内に存在した全てのアイテムを組み合わせてグループにする940。組み合わされたアイテムをプレビューする場合、それらは、連続して再生し、組み合わされたアイテムをプレビューウィンドウの下に展開するためにタップされ得るアイテム数を示す945。通常のライトボックスアイテムは、次いで、展開されたアイテムが行として表示されることを可能にするために、押下げられ得る。
アイテムは、ライトボックスアプリケーション内からそれらをドラッグすることによって操作され得る。アイテムは、任意のアイテム、例えばアイテム上で左側にドラッグすることによって、ライトボックスアプリケーションから除去され得る930。任意のアイテム上で右側にドラッグすることによって、そのアイテムは、即座に公開するようにレベルを上げられることができ950、これは、ユーザが所与のアイテムのメディアを1または多数の共有ロケーション上で共有することを可能にする画面へ遷移する955。プレビューしている場合に共有ボタンをタップすることも、アイテムの共有を可能にし得る。任意のアイテムを押さえることによって、それはドラッグ可能となり、その時点において、そのアイテムは、リスト全体におけるその位置を再編成するために、上方および下方へドラッグされ得る。リストにおける時間は、上から下へ垂直に表される。例えば、最上部のアイテムは、メディアが連続して実行されるべき場合には、時間において最初となる。(単一のイベント見出しの下で維持される)アイテムの任意のグループ全体は、同じジェスチャおよび制御の手段を使用して、単一のリストアイテムとして、まとめてプレビューされる(全てのアイテムから成る単一のプレビューとして、時間順で連続して再生される)ことができ、まとめて削除もしくは公開されることができる。ビデオまたは時間ベースのメディアを含む任意のアイテムをプレビューする場合、再生は、関連するリストアイテム行上で左側から右側へドラッグすることによって制御され得る。時間における現在の位置は、ユーザによって再生中に時間をオフセットするためにドラッグされ得る小さなラインによってマークを付される。ビデオまたは時間ベースのメディアを含む任意のアイテムをプレビューする場合、関連するリストアイテム行上で2本の指で水平にピンチすることによって、元のメディアを最終的な再生出力として調整するために、ピンチおよびドラッグされ得る選択範囲が定義される。画像または静止画像を含む任意のアイテムをプレビューする場合、関連するリストアイテム行上で左側から右側へ、または右側から左側へドラッグすることによって、キャプチャされた任意の付加的な隣接フレームが、選択的に「スクラブされ(scrubbed)」得る。例えば、単一の写真キャプチャ中に、カメラが出力の幾つかのフレームを記録する場合、このジェスチャは、ユーザが最良のフレームを最終的な静止フレームとして繰り返しおよび選択することを可能にし得る。
最近公開された(1または多くの公開先へアップロードされた)アイテムは、ライトボックスリストから自動的に消去される。タイムアウトするアイテム、または7日間など長期間にわたる不活動期間よりも長くライトボックスに存在するアイテムは、ライトボックスリストから自動的に消去される。ライトボックスメディアは、同じライトボックスを組み込む他のアプリケーションが、メディアの同じ現在のプールからの全ての共有を見られるように、デバイス上の中央のユビキタスなストレージロケーションに構築される。これは、マルチメディアアセット編集についてのマルチアプリケーション協調を単純で同期的にする。
上記に図示および議論された要素は、ハードウェア、ソフトウェア、または、これらの組み合わせの様々な形式において実装され得ることが理解されるべきである。好適には、これらの要素は、プロセッサと、メモリと、入力/出力インターフェースとを含み得る、1または複数の適当にプログラムされた汎用デバイス上で、ハードウェアとソフトウェアとの組み合わせにおいて実装される。本説明は、本開示の原理を例示する。したがって、当業者は、本明細書において明示的に説明または図示されていなくても、本開示の原理を具現化し、その範囲内に含まれる様々な構成を考え出すことができることが認識されるであろう。本明細書において記載された全ての例および条件付きの文言は、本技術分野を前進させるために本発明者によって寄与される本開示の原理および概念を読者が理解する際の助けとなるための情報目的を意図され、そのような具体的に記載された例および条件への制限はないものとして解釈されるべきである。さらに、本開示の原理、態様、および実施形態を記載した本明細書における全ての記述、およびそれらの具体的な例は、それらの構造的および機能的な等価物を包含することが意図される。また、そのような等価物は、現在知られている等価物と将来開発される等価物との両方、すなわち、構造に関わらず、同じ機能を実行する任意の開発された要素を含むことが意図される。したがって、例えば、本明細書に添付されるブロック図は、本開示の原理を具現化する例示の回路の概念的な図を表すことが当業者によって認識されるであろう。同様に、いかなるフローチャート、フロー図、状態遷移図、疑似コード等も、コンピュータ読取可能な媒体において実質的に表され、そのため、そのようなコンピュータまたはプロセッサが明示的に図示されていてもいなくても、コンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことが認識されるであろう。



  1. ビデオデータを受信するステップと、
    前記ビデオデータを複数のビデオファイルにセグメント化するステップであって、各ビデオファイルは、所定の時間に最も近い持続期間を有する、前記セグメント化するステップと、
    前記複数のビデオファイルの各々を複数の個別のビデオファイルのうちの1つとして記憶するステップと、
    を含む、方法。

  2. 前記所定の時間に最も近い持続期間が8秒である、請求項1に記載の方法。

  3. 前記所定の時間に最も近い持続期間は、ビデオ記録デバイスの動きに応答して記録されたデータに応答して決定される、請求項1に記載の方法。

  4. 前記ビデオ記録デバイスの動きは、水平方向の動き、垂直方向の動き、または回転方向の動きのうちの少なくとも1つに対応する、請求項3に記載の方法。

  5. 前記所定の時間に最も近い持続期間は、前記ビデオデータの特性に応答して決定される、請求項1に記載の方法。

  6. 前記特性はオーディオ振幅レベルである、請求項5に記載の方法。

  7. 前記特性はスペクトルバンド範囲内の振幅である、請求項5に記載の方法。

  8. 前記特性は前記ビデオデータ内の会話の存在である、請求項5に記載の方法。

  9. 前記特性は動きである、請求項5に記載の方法。

  10. 前記動きは、経時的なフレーム動きの平均の変化である、請求項9に記載の方法。

  11. 前記所定の時間に最も近い持続期間は、前記ビデオデータの平均色および平均輝度の変化で作成される、請求項1に記載の方法。

  12. ビデオデータストリームを生成するためのビデオセンサと、
    少なくとも1つのビデオデータセグメントを記憶するためのメモリと、
    前記ビデオデータストリームを所定の時間に最も近い持続期間を有する前記少なくとも1つのビデオデータセグメントにセグメント化するためのプロセッサと、
    を備えた、装置。

  13. 前記所定の時間に最も近い持続期間は8秒である、請求項12に記載の装置。

  14. 前記装置の動きに応答して動きデータを生成するよう作動する動きセンサをさらに備え、前記所定の時間に最も近い持続期間は、前記動きデータに応答して記録されるデータに応答して決定される、請求項12に記載の装置。

  15. 前記装置の前記動きは、水平方向の動き、垂直方向の動き、または回転方向の動きのうちの少なくとも1つに対応する、請求項14に記載の装置。

  16. 前記所定の時間に最も近い持続期間は、前記ビデオデータストリームの特性に応答して決定される、請求項12に記載の装置。

  17. 前記特性はオーディオ振幅レベルである、請求項16に記載の装置。

  18. 前記特性はスペクトルバンド範囲内の振幅である、請求項16に記載の装置。

  19. 前記特性は前記ビデオデータ内の会話の存在である、請求項16に記載の装置。

  20. 前記特性は動きである、請求項16に記載の装置。

  21. 前記動きは、前記ビデオデータストリームの経時的なフレーム動きの平均の変化である、請求項20に記載の装置。

  22. 前記所定の時間に最も近い持続期間は、前記ビデオデータストリームの平均色および平均輝度の変化で作成される、請求項12に記載の装置。

 

 

Patent trol of patentswamp
類似の特許
【課題】ドリー・ズーム効果を実行するために、カメラの運動にしたがってズーム機能を自動的に調節するための種々の方法を提供すること。
【解決手段】1つの例示的方法は、ビデオ・データから2つ以上の関心ポイントを備える第1の画像フレームの受信をさせるステップと、前記ビデオ・データから異なる位置における前記2つ以上の関心ポイントを備える第2の画像フレームの受信をさせるステップと、前記2つ以上の関心ポイントの位置における違いを、前記第1の画像フレームから前記第2の画像フレームへ追跡するステップと、を含むことができる。この方法は、また、スケーリング・ファクタを計算するステップと、前記スケーリング・ファクタを前記第2の画像フレームに適用するステップと、を含むことができる。
【選択図】図4
映像方向の自動調整 // JP2016516365
映像方向の自動調整のための方法と、システムと、コンピュータプログラム製品とを提供する。コンピュータに実装された方法は、複数の画像フレームを備える映像を受信するステップと、映像内の方向変化を検出するステップと、基準方向を映像について決定するステップと、映像を基準方向に、画像フレームのうちの1つまたは複数をリサイズすることによって、また画像フレームのうちの1つまたは複数を基準方向に回転させることによって調整するステップとを含むことができる。その後、基準方向に調整された映像をユーザに提供することができる。
第1の画像/ビデオデータの上に第2の画像/ビデオデータをオーバーレイするためのシステムおよび方法が開示される。第1の画像/ビデオデータは、所定の特性、例えば、HDR、EDR、VDR、またはUHD機能、を用いてディスプレイ上に描写されることが意図されている。第2の画像/ビデオデータは、グラフィクス、クローズドキャプション、テキスト、広告、もしくは、第1の画像/ビデオデータの上にオーバーレイ及び/又は合成されるよう望まれるあらゆるデータを含み得る。第2の画像/ビデオデータは、画像統計及び/又は第1の画像/ビデオデータの特性に従って、アピアランスマップされ得る。加えて、そうしたアピアランスマッピングは、合成画像が描写されるディスプレイの特性に従って行われ得る。そうしたアピアランスマッピングは、観察者にとって視覚的に快適な合成データを描写することが望まれ、所望のディスプレイ上に描写される。
【解決手段】 カメラデバイスが開示される。カメラデバイスは、画像を取り込むためのセンサと、重力方向を検出するためのセンサと、検出された重力方向を用いて、画像の一部を抽出し、画像から水平に位置合わせされた画像を生成するように構成されたプロセッサとを含む。
【選択図】 図5
ビデオの水平フレーミングを動的に維持するための方法及び装置である。本システムは、撮影しながらユーザが自由にデバイスを回転することを可能にする一方で、撮影の間、最終出力を、デバイスビューファインダ又はスクリーン上のオーバーレイで可視化する。結果として生じる記録は、単一方向を安定した水平に維持するように後で補正される。本システム及び方法は、キャプチャされたビデオのキャプチャされた表示上にオーバーレイを効果的に表示する。オーバーレイは、方向に関して修正された画像を示す。
本開示は、回転センサの画像収集のための内視鏡デバイス及びシステムに広がる。本開示は、ユーザが固定ハンドピースに対してルーメンを回転すると、遠位画像センサが回転することを可能とする。システムは、回転ルーメンと固定ハンドピースの連結部に位置する角度センサを含む。適切なソフトウェア画像回転を達成し、それによって所望の方向での最終表示画像とビデオストリームを提供するために、定期的な角度の計測値が、システムの画像処理チェーンで使用される。
本開示は、カメラを使用して撮影されたビデオコンテンツのアイテムを再生するための方法に関する。撮影の際に、カメラに適用されるコマンドにより、シーケンスから構成されたビデオコンテンツのアイテムが構築され強化される。再生のために、ビデオコンテンツはシーケンスに分割される。カメラに適用されるコマンドは、シーケンスごとに抽出され、このシーケンスに関連付けられた少なくとも1つのハプティックアクチュエータの制御パラメータを計算することを可能にする。次いで、ビデオコンテンツのシーケンスを再生する際、少なくとも1つの制御パラメータによって少なくとも1つのハプティックアクチュエータを制御する。このようにして、観察者は、再生中にビデオドキュメントの認識を強化することを可能にする刺激を認識する。強化されたコンテンツを再生することができるプレーヤは、カメラに適用されるコマンドからシーケンスのセットの映写効果を決定する。ついで、この効果に関連付けられたハプティックメタファが、このシーケンスのセットに適用される。
写真の変換提案 // JP2016508248
方法、コンピュータプログラム製品、及び、システムが記載されている。画像の特徴が特定される。1つ以上の他の画像が、画像のこの特定された特徴に類似する1つ以上の他の特徴を含む1つ以上の他の画像に、少なくとも部分的に基づいて1つ以上の他の画像を特定する。第1の画像フィルターを含む、1つ以上の他の画像と関連付けられた1つ以上の画像フィルターが特定される。第1の画像フィルターが前記画像に適用される。
【選択図】図2
異なるグループに分けて配置された複数のハードキーボタンを含む制御パネルを提案する。第1グループのボタンは、所定のシーン設定を選択するように割り当てられる。第2グループのボタンは、現在放送されているシーンのための信号を選択するように割り当てられる。第3グループのボタンは、第1グループのボタンを操作することによって選択可能な次のシーンのための信号を選択するように割り当てられる。ハードウェア制御パネルは、TV制作のワークフローに適合する操作インタフェースを提供する。それは、TV番組中に必要になる全ての機能に対し、概念に関連して直接アクセスすることを可能にする。しかし、特定のシーンで必要とされない機能に対してはアクセスすることはできない。したがって、それはTV制作中の誤動作を著しく低減あるいは防止さえする。
本発明はシーン15に構造化光パターン9を投影するためのレーザー装置10に関する。装置は半導体レーザー2の複数のアレイ1から成り、各アレイ1は半導体レーザー2の発光領域2aの不規則分布を有する。一つ若しくは複数のイメージング光学系4は上記アレイ1をイメージング空間に画像化し、イメージング空間において上記アレイ1の画像を重ね合わせて上記光パターン9を形成する。提案されるレーザー装置は例えば自動車用途において三次元イメージングシステムのために使用され得る高いコントラストと効率を備える光パターンを生成する。
To top