時間的サブレイヤー情報に基づいたインターレイヤー予測方法及び装置

著者らは特許

H04N19/184 - ユニットが複数のビット,例.圧縮されたビデオストリームのもの,であるもの
H04N19/187 - ユニットがスケーラブルビデオレイヤであるもの
H04N19/31 - 時間領域でのもの
H04N19/44 - そのために特別に適合した復号器,例.符号化器と非対称のビデオ復号器
H04N19/51 - 動き推定または動き補償

の所有者の特許 JP2016528806:

エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute

 

本発明は、少なくとも1つの時間的サブレイヤーを含む階層が複数に構成された映像のインターレイヤー予測方法に関し、インターレイヤー予測のための時間的サブレイヤーに対する情報を獲得する段階、前記時間的サブレイヤーに対する情報に基づいて現在ピクチャーのインターレイヤー予測のために用いられる参照ピクチャーを誘導する段階、及び前記参照ピクチャーに基づいて前記現在ピクチャーのインターレイヤー予測を行う段階を含む。

 

 

本発明は、多階層構造の映像符号化及び復号化に関する技術であって、下位階層の情報を利用して上位階層を符号化及び復号化するインターレイヤー予測に関する。より詳細には、時間的サブレイヤー情報に基づいてインターレイヤー予測を行うための効率的なシグナリング方法に関する。
最近、マルチメディア(multimedia)環境が構築されながら、多様な端末とネットワークが利用されており、これによる使用者の要求も多様化している。
例えば、端末の性能とコンピューティング能力(computing capability)が多様になるに伴い、支援する性能も機器別に多様となっている。また、情報が転送されるネットワークもやはり有無線ネットワークのような外形的な構造だけではなく、転送する情報の形態、情報量と速度など機能別でも多様となっている。使用者は、望む機能によって用いる端末とネットワークを選択し、また、企業が使用者に提供する端末とネットワークのスペクトラムも多様となっている。
これに関して、最近、HD(High Definition)解像度を有する放送が国内だけではなく世界的に拡大されてサービスされながら、多くの使用者が高解像度、高画質の映像に慣れている。これによって、多くの映像サービス関連機関が次世代映像機器に対する開発に多くの努力をしている。
また、HDTVとともにHDTVの4倍以上の解像度を有するUHD(Ultra High Definition)に対する関心が増えながら、より高い解像度、高画質の映像を圧縮して処理する技術に対する要求はさらに高まっている。
映像を圧縮して処理するために、時間的に以前及び/又は以後のピクチャーから現在ピクチャーに含まれた画素値を予測するインター(inter)予測技術、現在ピクチャー内の画素情報を利用して現在ピクチャーに含まれた他の画素値を予測するイントラ(intra)予測技術、出現頻図が高いシンボル(symbol)に短い符号を割り当て、出現頻図が低いシンボルに長い符号を割り当てるエントロピーエンコーディング技術などが用いられ得る。
前述したところのように、支援する機能が異なる各端末とネットワーク、さらに多様化された使用者の要求を考慮するとき、支援される映像の品質、大きさ、フレームなどもこれによって多様化される必要がある。
このように、異種の通信網と多様な機能及び種類の端末によって、映像の画質、解像度、大きさ、フレーム率、視点などを多様に支援するスケーラビリティ(scalability)は、ビデオフォーマットの重要な機能となっている。
したがって、高効率のビデオ符号化方法に基づいて多様な環境で使用者が要求するサービスを提供するため、時間、空間、画質、視点などの側面で効率的なビデオの符号化と復号化が可能となるようにスケーラビリティ機能を提供するのが必要である。
本発明は、時間的サブレイヤー情報に基づいたインターレイヤー予測方法及び装置を提供する。
本発明は、時間的サブレイヤー情報に基づいてインターレイヤー予測を調節することができるようにする指示子を割り当て、効率的にシグナリングする方法及び装置を提供する。
本発明は、多階層構造での全ての階層に対して、同一の最大時間的サブレイヤー情報を適用することができる方法を提供する。
本発明の一実施例によれば、少なくとも1つの時間的サブレイヤー(temporal sub-layer)を含む階層が複数に構成された映像のインターレイヤー予測(inter-layer prediction)方法が提供される。前記インターレイヤー予測方法は、インターレイヤー予測を許容する時間的サブレイヤーに対する情報を獲得する段階、前記時間的サブレイヤーに対する情報に基づいて現在ピクチャーのインターレイヤー予測のために用いられる参照ピクチャーを誘導する段階、及び前記参照ピクチャーに基づいて前記現在ピクチャーのインターレイヤー予測を行う段階を含む。
前記時間的サブレイヤーに対する情報は、インターレイヤー予測のために用いられる時間的サブレイヤー情報の有無を報知する指示子情報と、各階層でインターレイヤー予測のために参照し得る最大時間的サブレイヤーを指示する最大時間的サブレイヤー情報と、各階層で前記最大時間的サブレイヤー情報を調節するか否かを示す指示子情報とを含むことができる。
本発明の他の実施例によれば、少なくとも1つの時間的サブレイヤー(temporal sub-layer)を含む階層が複数に構成された映像のインターレイヤー予測(inter-layer prediction)装置が提供される。前記インターレイヤー予測装置は、インターレイヤー予測を許容する時間的サブレイヤーに対する情報を獲得するエントロピー復号化部及び前記時間的サブレイヤーに対する情報に基づいて現在ピクチャーのインターレイヤー予測のために用いられる参照ピクチャーを誘導し、前記参照ピクチャーに基づいて前記現在ピクチャーのインターレイヤー予測を行う予測部を含む。
前記時間的サブレイヤーに対する情報は、インターレイヤー予測のために用いられる時間的サブレイヤー情報の有無を報知する支持者情報と、各階層でインターレイヤー予測のために参照し得る最大時間的サブレイヤーを指示する最大時間的サブレイヤー情報と、各階層で前記最大時間的サブレイヤー情報を調節するか否かを示す指示子情報とを含むことができる。
インターレイヤー予測のためのシグナリングをするにおいて、時間的サブレイヤー情報に基づいたインターレイヤー予測を調節するようにする指示子又は識別子を割り当てすることで効率的に関連情報をシグナリングすることができる。また、多階層構造で全ての参照階層に対して同一の最大時間的サブレイヤー情報を適用できるようにすることで、全ての参照階層に対して個別的に最大時間的サブレイヤー情報を転送することを省略できるので関連情報のシグナリングオーバーヘッドを減らすことができる。
発明が適用される映像符号化装置の一実施例による構成を示すブロック図である。 本発明が適用される映像復号化装置の一実施例による構成を示すブロック図である。 本発明が適用され得る、複数レイヤーを利用したスケーラブルビデオコーディング構造の一実施例を概略的に示す概念図である。 本発明が適用され得るスケーラブルビデオコーディングの階層構造を示した一例である。 本発明の実施例による時間的サブレイヤー情報に基づいてインターレイヤー予測を行う方法を概略的に示したフローチャートである。
以下、図面を参照して本発明の実施形態に対して具体的に説明する。本明細書の実施例を説明するにおいて、関連された公知構成又は機能に対する具体的な説明が本明細書の要旨を濁ごし得ると判断される場合には、該当説明を省略することもできる。
本明細書で或る構成要素が他の構成要素に「連結されて」いるか「接続されて」いると言及された際には、その他の構成要素に直接的に連結されているか、又は接続されていることを意味することもあり、中間に他の構成要素が存在することを意味することもある。併せて、本明細書で特定構成を「含む」と記述する内容は、該当構成以外の構成を排除するものではなく、更なる構成が本発明の実施又は本発明の技術的思想の範囲に含まれ得ることを意味する。
第1、第2などの用語は、多様な構成を説明するのに用いられ得るが、前記構成は前記用語によって限定されない。前記用語は、1つの構成を他の構成から区別する目的として用いられる。例えば、本発明の権利範囲を脱することなく第1構成は第2構成として命名され得、同様に第2構成も第1構成として命名され得る。
また、本発明の実施例に示される構成部は、互いに異なる特徴的な機能を示すために独立的に示されるものであって、各構成部が分離されたハードウェアや1つのソフトウェアの構成単位から成されることを意味しない。すなわち、各構成部は、説明の便宜上それぞれの構成部で羅列して含んだものであって、各構成部のうち少なくとも2つの構成部が1つの構成部を成したり、1つの構成部が複数個の構成部から分かれて機能を行うことができる。各構成部の統合された実施例及び分離された実施例も本発明の本質から脱しない限り本発明の権利範囲に含まれる。
また、一部の構成要素は、本発明で本質的な機能を行う必須な構成要素ではなく、単に性能を向上させるための選択的構成要素であり得る。本発明は、単に性能向上のために用いられる構成要素を除外した本発明の本質を具現するのに必須な構成部のみを含んで具現され得、単に性能向上のために用いられる選択的構成要素を除外した必須構成要素のみを含んだ構造も本発明の権利範囲に含まれる。
図1は、発明が適用される映像符号化装置の一実施例による構成を示すブロック図である。
マルチレイヤー(multi-layer)構造を支援するスケーラブル(scalable)ビデオ符号化装置は、単一レイヤー構造の一般的な映像符号化装置を拡張(extension)して具現され得る。図1のブロック図はマルチレイヤー構造に適用可能なスケーラブルビデオ符号化装置の基礎となり得る映像符号化装置の一実施例を示す。
図1を参照すると、映像符号化装置100は、インター予測部110、イントラ予測部120、スイッチ115、減算器125、変換部130、量子化部140、エントロピー符号化部150、逆量子化部160、逆変換部170、加算器175、フィルター部180及び参照ピクチャーバッファー190を含む。
映像符号化装置100は、入力映像に対してイントラ(intra)モード又はインター(inter)モードで符号化を行ってビットストリームを出力することができる。
イントラモードの場合、スイッチ115がイントラに転換され、インターモードの場合、スイッチ115がインターに転換され得る。イントラ予測は画面内予測、インター予測は画面間予測を意味する。映像符号化装置100は、入力映像の入力ブロックに対する予測ブロックを生成した後、入力ブロックと予測ブロックの差分(residual)を符号化することができる。このとき、入力映像は原映像(original picture)を意味することができる。
イントラモードの場合、イントラ予測部120は、現在ブロック周辺の既に符号化/復号化されたブロックのサンプル値を参照サンプルとして利用することができる。イントラ予測部120は、参照サンプルを利用して空間的予測を行い、現在ブロックに対する予測サンプルを生成することができる。
インターモードの場合、インター予測部110は、動き予測の過程で参照ピクチャーバッファー190に貯蔵されている参照ピクチャーで入力ブロック(現在ブロック)との差が最も少ない参照ブロックを特定する動きベクトルを求めることができる。インター予測部110は、動きベクトルと参照ピクチャーバッファー190に貯蔵されている参照ピクチャーを利用して動き補償を行うことにより、現在ブロックに対する予測ブロックを生成することができる。
マルチレイヤー構造の場合、インターモードで適用されるインター予測はインターレイヤー予測を含むことができる。インター予測部110は、参照レイヤーのピクチャーをサンプリングしてインターレイヤー参照ピクチャーを構成し、参照ピクチャーリストにインターレイヤー参照ピクチャーを含めてインターレイヤー予測を行うことができる。レイヤー間の参照関係は、レイヤー間の依存性を特定する情報を介してシグナリングされ得る。
一方、現在レイヤーピクチャーと参照レイヤーピクチャーが同一サイズの場合、参照レイヤーピクチャーに適用されるサンプリングは、参照レイヤーピクチャーからのサンプルコピーによる参照サンプルの生成を意味することができる。現在レイヤーピクチャーと参照レイヤーピクチャーの解像度が異なる場合、参照レイヤーピクチャーに適用されるサンプリングはアップサンプリングを意味することができる。
例えば、レイヤー間の解像度が異なる場合として解像度に関するスケーラビリティを支援するレイヤー間には、参照レイヤーの復元されたピクチャーをアップサンプリングしてインターレイヤー参照ピクチャーが構成され得る。
如何なるレイヤーのピクチャーを利用してインターレイヤー参照ピクチャーを構成するかは、符号化コストなどを考慮して決定され得る。符号化装置は、インターレイヤー参照ピクチャーとして用いられるピクチャーが属するレイヤーを特定する情報を復号化装置に転送することができる。
また、インターレイヤー予測において参照されるレイヤー、すなわち参照レイヤー内における現在ブロックの予測に利用されるピクチャーは、現在ピクチャー(現在レイヤー内の予測対象ピクチャー)と同一AU(Access Unit)のピクチャーであり得る。
減算器125は、入力ブロックと生成された予測ブロックの差分によって残差ブロック(residual block)を生成することができる。
変換部130は、残差ブロックに対して変換(transform)を行って変換係数(transform coefficient)を出力することができる。ここで、変換係数は、残差ブロック及び/又は残差信号に対する変換を行うことで生成された係数値を意味することができる。以下、本明細書では、変換係数に量子化が適用されて生成された、量子化された変換係数レベル(transform coefficient level)も変換係数と称することができる。
変換省略(transform skip)モードが適用される場合、変換部130は残差ブロックに対する変換を省略することもできる。
量子化部140は、入力された変換係数を量子化パラメーター(quantization parameter、又は量子化媒介変数)に応じて量子化し、量子化された係数(quantized coefficient)を出力することができる。量子化された係数は、量子化された変換係数レベル(quantized transform coefficient level)と称されることもある。このとき、量子化部140では、量子化行列を用いて入力された変換係数を量子化することができる。
エントロピー符号化部150は、量子化部140で算出された値又は符号化の過程で算出された符号化パラメーター値などを確率分布によりエントロピー符号化してビットストリーム(bitstream)を出力することができる。エントロピー符号化部150は、ビデオの画素情報以外にビデオデコーディングのための情報(例えば、シンタックスエレメント(syntax element)など)をエントロピー符号化することもできる。
符号化パラメーターは、符号化及び復号化に必要な情報であって、シンタックスエレメントのように符号化装置で符号化されて復号化装置へ伝達される情報だけでなく、符号化或いは復号化過程で類推され得る情報を含むことができる。
例えば、符号化パラメーターは、イントラ/インター予測モード、移動/動きベクトル、参照映像索引、符号化ブロックパターン、残差信号有無、変換係数、量子化された変換係数、量子化パラメーター、ブロック大きさ、ブロック分割情報などの値又は統計を含むことができる。
残差信号は、原信号と予測信号の間の差を意味することができ、また原信号と予測信号の間の差が変換(transform)された形態の信号、又は原信号と予測信号の間の差が変換されて量子化された形態の信号を意味することもできる。残差信号は、ブロック単位では残差ブロックということができる。
エントロピー符号化が適用される場合、高い発生確率を有するシンボルに少ない数のビットが割り当てられ、低い発生確率を有するシンボルに多い数のビットが割り当てられてシンボルが表現されることにより、符号化対象シンボルに対するビット列の大きさが減少され得る。したがって、エントロピー符号化を介して映像符号化の圧縮性能が高くなり得る。
エントロピー符号化部150は、エントロピー符号化のため指数ゴロム(exponential golomb)、CAVLC(Context-Adaptive Variable Length Coding)、CABAC(Context-Adaptive Binary Arithmetic Coding)のような符号化方法が用いられ得る。例えば、エントロピー符号化部150は、可変長さ符号化(VLC:Variable Lenghth Coding/Code)テーブルを利用してエントロピー符号化を行うことができる。またエントロピー符号化部150は、対象シンボルの2進化(binarization)方法及び対象シンボル/ビン(bin)の確率モデル(probability model)を導出した後、導出された2進化方法又は確率モデルを用いてエントロピー符号化を行うこともできる。
図1の実施例による映像符号化装置100は、インター予測符号化、すなわち画面間予測符号化を行うので、現在符号化された映像は参照映像として用いられるために復号化されて貯蔵される必要がある。したがって、量子化された係数は、逆量子化部160で逆量子化されて逆変換部170で逆変換され得る。逆量子化、逆変換された係数は、加算器175を介して予測ブロックと加わり復元ブロック(Reconstructed Block)が生成される。
復元ブロックはフィルター部180を経て、フィルター部180はデブロッキングフィルター(deblocking filter)、SAO(Sample Adaptive Offset)、ALF(Adaptive Loop Filter)のうち、少なくとも1つ以上を復元ブロック又は復元ピクチャーに適用することができる。フィルター部180は、適応的インループ(in-loop)フィルターと称されることもある。デブロッキングフィルターは、ブロック間の境界に生じたブロック歪曲を除去することもできる。SAOは、コーディングエラーを補償するためにピクセル値に適正オフセット(offset)値を加えることができる。ALFは、復元された映像と元の映像を比べた値に基づいてフィルタリングを行うことができる。フィルター部180を経た復元ブロックは参照ピクチャーバッファー190に貯蔵され得る。
図2は、本発明が適用される映像復号化装置の一実施例による構成を示すブロック図である。
マルチレイヤー(multi-layer)構造を支援するスケーラブル(scalable)ビデオ復号化装置は、単一レイヤー構造の一般的な映像復号化装置を拡張(extension)して具現され得る。図2のブロック図は、マルチレイヤー構造に適用可能なスケーラブルビデオ復号化装置の基礎となり得る映像復号化装置の一実施例を示す。
図2を参照すると、映像復号化装置200は、エントロピー復号化部210、逆量子化部220、逆変換部230、イントラ予測部240、インター予測部250、加算器255、フィルター部260及び参照ピクチャーバッファー270を含む。
映像復号化装置200は、符号化器で出力されたビットストリームの入力を受けて、イントラモード又はインターモードで復号化を行って再構成された映像、すなわち復元ピクチャーを出力することができる。
イントラモードの場合、スイッチがイントラに転換され、インターモードの場合、スイッチがインターに転換され得る。
映像復号化装置200は、入力を受けたビットストリームから復元された残差ブロック(reconstructed residual block)を得て予測ブロックを生成した後、復元された残差ブロックと予測ブロックを加えて再構成されたブロック、すなわち復元ブロックを生成することができる。
エントロピー復号化部210は、入力されたビットストリームを確率分布に従いエントロピー復号化し、量子化された係数(quantized coefficient)とシンタックスエレメントなどの情報を出力することができる。
量子化された係数は、逆量子化部220で逆量子化され、逆変換部230で逆変換される。量子化された係数が逆量子化/逆変換された結果、復元された残差ブロックが生成され得る。このとき、逆量子化部220では量子化された係数に量子化行列を適用することができる。
イントラモードの場合、イントラ予測部240は、現在ブロック周辺の既に復号化されたブロックのサンプル値を利用して空間的予測を行い、現在ブロックに対する予測サンプル等を生成することができる。
インターモードの場合、インター予測部250は、動きベクトル及び参照ピクチャーバッファー270に貯蔵されている参照ピクチャーを利用し、動き補償を行うことで現在ブロックに対する予測ブロックを生成することができる。
マルチレイヤー構造の場合、インターモードで適用されるインター予測は、インターレイヤー予測を含むことができる。インター予測部250は、参照レイヤーのピクチャーをサンプリングしてインターレイヤー参照ピクチャーを構成し、参照ピクチャーリストにインターレイヤー参照ピクチャーを含んでインターレイヤー予測を行うことができる。レイヤー間の参照関係は、レイヤー間の依存性を特定する情報を介してシグナリングされ得る。
一方、現在レイヤーピクチャーと参照レイヤーピクチャーが同一サイズの場合、参照レイヤーピクチャーに適用されるサンプリングは、参照レイヤーピクチャーからのサンプルコピーによる参照サンプルの生成を意味することができる。現在レイヤーピクチャーと参照レイヤーピクチャーの解像度が異なる場合、参照レイヤーピクチャーに適用されるサンプリングは、アップサンプリングを意味することができる。
例えば、レイヤー間の解像度が異なる場合として、解像度に関するスケーラビリティを支援するレイヤー間にインターレイヤー予測が適用されるのであれば、参照レイヤーの復元されたピクチャーをアップサンプリングしてインターレイヤー参照ピクチャーが構成され得る。
このとき、インターレイヤー参照ピクチャーとして用いられるピクチャーが属するレイヤーを特定する情報は、符号化装置から復号化装置へ転送され得る。
また、インターレイヤー予測において参照されるレイヤー、すなわち参照レイヤー内で現在ブロックの予測に利用されるピクチャーは、現在ピクチャー(現在レイヤー内の予測対象ピクチャー)と同一AU(Access Unit)のピクチャーであり得る。
復元された残差ブロックと予測ブロックは、加算器255で加えられて復元ブロックが生成される。言い換えれば、残差サンプルと予測サンプルが加えられて復元されたサンプル又は復元されたピクチャーが生成される。
復元されたピクチャーは、フィルター部260でフィルタリングされる。フィルター部260は、デブロッキングフィルター、SAO、ALFのうち少なくとも1つ以上を復元ブロック又は復元ピクチャーに適用することができる。フィルター部260は、再構成(modified)あるいはフィルタリングされた(filtered)復元ピクチャー(reconstructed picture)を出力する。復元ピクチャーは、参照ピクチャーバッファー270に貯蔵されてインター予測に用いられ得る。
また、映像復号化装置200は、ビットストリームに含まれているエンコーディングされた映像に係る情報をパッシングするパッシング部(図示省略)をさらに含むことができる。パッシング部は、エントロピー復号化部210を含むこともでき、エントロピー復号化部210に含まれてもよい。このようなパッシング部はまた、デコーディング部の1つの構成要素として具現されてもよい。
図1と図2では、1つの符号化装置/復号化装置がマルチレイヤーに対する符号化/復号化を全て処理するものとして説明したが、これは説明の便宜のためのものであって、符号化装置/復号化装置はレイヤー別に構成されてもよい。
この場合、上位レイヤーの符号化装置/復号化装置は、上位レイヤーの情報及び下位レイヤーの情報を利用して該当上位レイヤーの符号化/復号化を行うことができる。例えば、上位レイヤーの予測部(インター予測部)は上位レイヤーのピクセル情報又はピクチャー情報を利用して現在ブロックに対するイントラ予測又はインター予測を行うこともでき、下位レイヤーから復元されたピクチャー情報を受信し、これを利用して上位レイヤーの現在ブロックに対するインター予測(インターレイヤー予測)を行うこともできる。ここでは、レイヤー間の予測のみを例として説明したが、符号化装置/復号化装置はレイヤー別に構成されようが、1つの装置がマルチレイヤーを処理しようが構わずに、他のレイヤーの情報を利用して現在レイヤーに対する符号化/復号化を行うことができる。
本発明でレイヤーは、ビュー(view、視点)を含むことができる。この場合、インターレイヤー予測の場合は、単に下位レイヤーの情報を利用して上位レイヤーの予測を行うものではなく、レイヤー間の依存性を特定する情報により依存性があるものとして特定されたレイヤー間で他のレイヤーの情報を利用してインターレイヤー予測が行われてもよい。
図3は、本発明が適用され得る、複数レイヤーを利用したスケーラブルビデオコーディング構造の一実施例を概略的に示す概念図である。図3でGOP(Group of Picture)はピクチャー群、すなわち、ピクチャーのグループを表す。
映像データを転送するためには転送媒体が必要であり、その性能は多様なネットワーク環境によって転送媒体別に差がある。このような多様な転送媒体又はネットワーク環境への適用のためにスケーラブルビデオコーディング方法が提供され得る。
スケーラビリティを支援するビデオコーディング方法(以下、「スケーラブルコーディング」あるいは「スケーラブルビデオコーディング」という)は、階層(layer)間のテクスチャ情報、動き情報、残差信号などを活用して階層間の重複性を除去してエンコーディング及びデコーディング性能を高めるコーディング方法である。スケーラブルビデオコーディング方法は、転送ビット率、転送エラー率、システム資源などの周辺条件によって、空間的(spatial)、時間的(temporal)、画質的(あるいは品質的、quality)、視点(view)観点で多様なスケーラビリティを提供することができる。
スケーラブルビデオコーディングは、多様なネットワーク状況に適用可能なビットストリームを提供することができるように、複数階層(multiple layers)構造を用いて行われ得る。例えば、スケーラブルビデオコーディング構造は、一般的な映像デコーディング方法を利用して映像データを圧縮して処理する基本階層を含むことができ、基本階層のデコーディング情報及び一般的な映像デコーディング方法を共に用いて映像データを圧縮処理する向上階層を含むことができる。
基本階層(Base layer)は、ベースレイヤーと称することもでき、下位階層(lower layer)と称することもできる。向上階層(Enhancement layer)は、エンハンスメントレイヤーあるいは上位階層(higher layer)と称することもできる。このとき、下位階層は特定階層より低いスケーラビリティを支援する階層を意味することができ、上位階層は特定階層より高いスケーラビリティを支援する階層を意味することができる。また、他の階層の符号化/復号化に参照される階層を参照階層(参照レイヤー)とし、他の階層を利用して符号化/復号化される階層を現在階層(現在レイヤー)ということができる。参照階層は、現在階層より下位階層であり得、現在階層は参照階層より上位階層であり得る。
ここで、階層(layer)は、空間(spatial、例えば、映像大きさ)、時間(temporal、例えば、デコーディング順序、映像出力順序、フレームレート)、画質、複雑度、視点(view)などを基準に区分される映像及びビットストリーム(bitstream)の集まりを意味する。
図3を参照すると、例えば、基本階層はSD(standard definition)、15Hzのフレーム率、1Mbpsのビット率で定義され得、第1向上階層はHD(high definition)、30Hzのフレーム率、3.9Mbpsのビット率で定義され得、第2向上階層は4K-UHD(ultra high definition)、60Hzのフレーム率、27.2Mbpsのビット率で定義され得る。
前記フォーマット(format)、フレーム率、ビット率などは1つの実施例であって、必要に応じて別に定められ得る。また、用いられる階層の数も本実施例に限定されず、状況に応じて別に定められ得る。例えば、転送帯域幅が4Mbpsであれば、前記第1向上階層HDのフレームレートを減らして15Hz以下で転送することができる。
スケーラブルビデオコーディング方法は、前記図3の実施例で詳述した方法によって時間的、空間的、画質的、視点スケーラビリティを提供することができる。本明細書でのスケーラブルビデオコーディングは、エンコーディング観点ではスケーラブルビデオエンコーディング、デコーディング観点ではスケーラブルビデオデコーディングと同一の意味を有する。
前述したところのように、スケーラブルビデオコーディングは、時間的、空間的、画質的、視点などのスケーラビリティを提供するために、複数の階層を含む構造を有することができる。このような複数の階層を支援するスケーラブルビデオコーディング構造では、階層間の強い連関性(correlation)が存在するので、このような連関性を利用して符号化/復号化を行えばデータの重複要素を除去することができ、映像の符号化/復号化性能を向上させることができる。
例えば、複数の階層構造(スケーラブルビデオコーディング)で、現在符号化/復号化が行われる階層(現在階層)のピクチャー(映像)を予測するとき、現在階層の情報を利用するインター予測あるいはイントラ予測だけでなく、他の階層の情報を利用する階層間予測(inter-layer prediction、あるいはインターレイヤー予測)を行うことができる。
複数の階層は、スケーラビリティの種類によって解像度、フレームレート、カラーフォーマット、視点のうち少なくとも1つが互いに異なり得、また各階層は時間的にスケールされる時間的サブレイヤー(temporal sub-layer)を少なくとも1つ以上含んで構成され得る。言い換えれば、スケーラブルビデオコーディングは、少なくとも1つの時間的サブレイヤーを含む階層が複数に構成された構造であり得る。
前記のように、少なくとも1つの時間的サブレイヤーを含む階層が複数に構成されたスケーラブルビデオコーディングでインターレイヤー予測を行う場合、現在インターレイヤー予測が行われる階層では、インターレイヤー予測のために参照する参照階層に対する情報が必要なだけでなく、参照階層に属している時間的サブレイヤーがインターレイヤー予測のために参照可能なのかに対する情報が必要である。
以下、本発明では、各階層の時間的サブレイヤーがインターレイヤー予測のために参照可能なのかに対する情報を効率的に表現してシグナリングする方法と、前記シグナリングされた情報に基づいてインターレイヤー予測を行う方法とを提供する。
図4は、本発明が適用され得るスケーラブルビデオコーディングの階層構造を示した一例である。
図4では、説明の便宜上、2個の階層が存在する映像を例に挙げて記述するが、それ以上の階層が存在する映像に対しても拡張して適用することができる。また、図4のスケーラブルビデオコーディングの階層構造では空間的、画質的、視点などのスケーラビリティを提供することができ、各階層は時間的スケーラビリティを支援するための時間的サブレイヤーを含むことができる。図4の実施例では、説明の便宜のため、各階層が4個の時間的サブレイヤーから構成されるものと示したが、これは1つの例示であるだけで、各階層は互いに異なる個数の時間的サブレイヤーから構成され得る。
図4に示されたようなスケーラブルビデオコーディング構造において、上位階層がインターレイヤー予測を行う場合、上位階層でインターレイヤー予測のために参照することができる参照階層(下位階層)の時間的サブレイヤーに対する情報が必要である。
したがって、符号化器は最上位階層を除外した各階層でインターレイヤー予測を許容する時間的サブレイヤーを決定し、このような情報を復号化器にシグナリングすることができる。さらに、復号化器はシグナリングされた情報を介して各階層の時間的サブレイヤーが上位階層でインターレイヤー予測のために参照され得るかを把握することができ、各階層の参照され得る時間的サブレイヤー情報に基づいてインターレイヤー予測を行うことができる。
例えば、図4に示されたように、各階層が4個の時間的サブレイヤーから構成された場合、符号化器は下位階層に対して、時間的レベルが2以上である(時間的サブレイヤーを特定する識別子であり得、例えば、temporal_id)下位階層の時間的サブレイヤーに対してはインターレイヤー予測を許容せず、2より低い時間的レベルを有する下位階層の時間的サブレイヤーに対してはインターレイヤー予測を許容するものと決定することができる。図4をみると、2より低い時間的レベルを有する下位階層の時間的サブレイヤー“0”、“1”はインターレイヤー予測が許容されるので(すなわち、上位階層のインターレイヤー予測のために参照され得るので)、下位階層の時間的サブレイヤー“0”、“1”に該当するピクチャー(図4で棒で表示する)は、上位階層のインターレイヤー予測のための参照ピクチャーとして用いられ得る。さらに、2以上の時間的レベルを有する下位階層の時間的サブレイヤー“2”、“3”はインターレイヤー予測が許容されないので(すなわち、インターレイヤー予測のために参照され得ないので)、下位階層の時間的サブレイヤー“2”、“3”に該当するピクチャー(図4で点線で表示された棒)は、上位階層のインターレイヤー予測のための参照ピクチャーとして用いられ得ない。
すなわち、符号化器は、最上位階層を除外した各階層に属している時間的サブレイヤーピクチャーがインターレイヤー予測のための参照ピクチャーとして用いられ得るか否かを決定し、前記決定された各階層の時間的サブレイヤー情報をシンタックス要素(syntax element)を利用してシグナリングすることができる。復号化器は、符号化器からシグナリングされた前記各階層の時間的サブレイヤー情報を復号化し、復号化された情報に基づいて各階層に属している時間的サブレイヤーピクチャーがインターレイヤー予測のための参照ピクチャーとして用いられ得るか否かを把握することができる。さらに、復号化器は、参照ピクチャーに対する情報に基づいてインターレイヤー予測を行うことができる。
以下では、インターレイヤー予測のための時間的サブレイヤーに対する情報を効率的にシグナリングする方法に対して説明する。ここで、インターレイヤー予測のための時間的サブレイヤーに対する情報は、前述したところのように、参照階層でインターレイヤー予測を許容する時間的サブレイヤーを把握することができる情報のことを言い、より具体的に、参照階層の時間的サブレイヤーピクチャーがインターレイヤー予測を行う階層(上位階層)の参照ピクチャーとして用いられるかを把握することができる情報を言う。
このようなインターレイヤー予測のための時間的サブレイヤーに対する情報は、VPS(Video Parameter Sets)、SPS(Sequence Parameter Sets)、PPS(Picture Parameter Sets)、スライスセグメントヘッダー(slice segment header)などを介して転送され得る。
より具体的に、下記表1から表11を参照して、インターレイヤー予測のための時間的サブレイヤーに対する情報をシンタックス要素を利用して表現し、これをVPS、SPS、PPS、スライスセグメントヘッダーなどを介してシグナリングする方法を説明する。
表1は、本発明の実施例によるVPSから転送され得る最上位階層を除外した各階層の最大時間的サブレイヤー情報を示すシンタックスの一例である。
ここで、最大時間的サブレイヤー情報は、該当階層でインターレイヤー予測を許容する最大時間的サブレイヤーレベルに対する情報を言う。言い換えれば、該当階層で記述された最大時間的サブレイヤー情報より大きい時間的レベルを有する時間的サブレイヤーは、インターレイヤー予測のために用いられないことを示す。
表1を参照すると、max_tid_il_ref_pics_plus1[i]は、i番目階層でインターレイヤー予測を最大に支援する時間的サブレイヤー情報を示すことができる。例えば、i番目階層でmax_tid_il_ref_pics_plus1[i]-1より大きい時間的レベル値(temporal_id)を有するサブレイヤーは、i番目階層を参照階層として用いるn番目階層(nは、iより大きい値である)でインターレイヤー予測のために用いられないこともある。言い替えれば、i番目階層でmax_tid_il_ref_pics_plus1[i]より小さい時間的レベル(temporal_id)を有するサブレイヤーは、i番目階層を参照階層として用いるn番目階層(nは、iより大きい値である)でインターレイヤー予測のための参照ピクチャーとして用いられ得る。表1で“vps_max_layers_minus1+1”は、符号化されたビデオシーケンス内で許容する階層の最大数を意味する。
表1でのように、各階層ごとに最大時間的サブレイヤー情報、max_tid_il_ref_pics_plus1[i]を転送せず、全ての階層に同一の最大時間的サブレイヤー情報を適用することもできる。
表2は、本発明の実施例によるVPSから転送され得る全ての階層に同一に適用される最大時間的サブレイヤー情報を示すシンタックスの一例である。

表3は、本発明の実施例によるVPSから転送され得る最上位階層を除外した各階層の最大時間的サブレイヤー情報を示すシンタックスの他の例である。
表3を参照すると、例えば、“max_tid_il_ref_pics_plus1_present_flag”シンタックスが“1”の値を有する場合にのみ、最上位階層を除外した各階層ごとの“max_tid_il_ref_pics_plus1[i]”情報が存在し、表1でのように、各階層ごとに“max_tid_il_ref_pics_plus1[i]-1”値より大きい時間レベル(TemporalId)値を有するサブレイヤーピクチャーに対しては、インターレイヤー予測を許容しないこともあり得る。
“max_tid_il_ref_pics_plus1_present_flag”シンタックスが“0”の値を有する場合、各階層ごとに“max_tid_il_ref_pics_plus1[i]”情報が存在しないとのことを意味する。このような場合、最上位階層を除外した各階層での“max_tid_il_ref_pics_plus1[i]”値は、ビットストリームで許容可能な最大時間レベル(TemporalId)値である“7”に類推され得る。すなわち、全体ビットストリームで最上位階層を除外した全ての階層の全体時間的サブレイヤーピクチャーに対して、インターレイヤー予測を許容することができることを意味する。言い換えれば、全体ビットストリームで全ての階層の全体時間的サブレイヤーピクチャーは、インターレイヤー予測のための参照ピクチャーとして用いられ得ることを示す。
前記実施例で“max_tid_il_ref_pics_plus1_present_flag”シンタックスが“0”の場合、“max_tid_il_ref_pics_plus1[i]”値を考慮せず、現在デコーディングが行われる階層(現在階層)の最上位時間的サブレイヤーピクチャーが現在階層より大きい階層(上位階層)で参照されるか否かを確認し、もし現在階層の最上位時間的サブレイヤーピクチャーが上位階層で参照されなければ、“unused for reference”にマーキングすることができる。ここで、最上位時間的サブレイヤーは、現在階層で最も大きい時間レベル値を有するサブレイヤーを指すことができる。“unused for reference”にマーキングされた現在階層の最上位時間的サブレイヤーピクチャーは、インターレイヤー予測のための参照ピクチャーとして用いられないことを示す。
例えば、スケーラブルコーディング構造で全体階層の数が4個であり、4個の階層それぞれが4個の時間的サブレイヤー(Temporal_Id=0〜3)から構成された場合であるとする。このとき、現在デコーディングする階層が2番目階層の場合、2番目階層の最上位時間的サブレイヤーである4番目時間的サブレイヤー(Temporal_Id=3)が、3番目階層と4番目階層によって参照されるか否かを確認する。もし2番目階層の最上位時間的サブレイヤー(Temporal_Id=3)が3番目、4番目階層で参照されない場合、“unused for reference”にマーキングすることができる。
表3-1は、本発明の実施例によるVPSから転送され得る最大時間的サブレイヤー情報を示すシンタックスの他の例である。

表3-1を参照すると、例えば、“max_tid_ref_present_flag”シンタックスが“1”の値を有する場合、“i”番目階層を直接参照階層(direct reference layer)として用いる“j”番目階層に対して、“i”番目階層で許容する最大時間的サブレイヤー情報(例、max_tid_il_ref_pics_plus1[i][j])を個別的に記述することができる。
階層間の参照関係は、VPS extensionで転送されるシンタックス“direct_dependency_flag[j][i]”から類推することができる。direct_dependency_flag[j][i]は、i番目階層がj番目階層のための直接参照階層として用いられ得るか否かを示す情報であり得る。例えば、direct_dependency_flag[j][i]が0であれば、i番目階層がj番目階層のための直接参照階層として用いられないことを示す。一方、direct_dependency_flag[j][i]が1であれば、i番目階層がj番目階層のための直接参照階層として用いられ得ることを示す。
“max_tid_ref_present_flag”シンタックスが“0”の値を有する場合は、階層別にインターレイヤー予測を許容する時間サブレイヤー情報を報知する最大時間的サブレイヤー情報が存在せず、その値はビットストリーム内で許容する最大時間レベルである“7”に類推され得る。“max_tid_il_ref_pics_plus1[i][j]”が“0”の値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有するnon-IRAPピクチャーは、‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’値を有するピクチャーに対してインターレイヤー予測のための参照ピクチャーとして用いることができないことを明示する。“max_tid_il_ref_pics_plus1[i][j]”が“0”より大きい値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有して時間レベル情報(TemporalId)が‘max_tid_il_ref_pics_plus1[i][j]-1’より大きい値を有するピクチャーが‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’を有するピクチャーに対するインターレイヤー予測のための参照ピクチャーとして用いられないことを意味する。
表3-1で、MaxLayersMinus1はMin(62、vps_max_layers_minus1)値と同様であり、vps_max_layers_minus1はVPSから転送されるビットストリーム内で許容する階層の最大数を報知する情報である。
表3でのように、各階層ごとに最大時間的サブレイヤー情報(max_tid_il_ref_pics_plus1[i])を転送せず、全体階層に同一の最大時間的サブレイヤー情報を適用することもできる。
表4は、本発明の実施例によるVPSから転送され得る最上位階層を除外した全ての階層に同様に適用される最大時間的サブレイヤー情報を示すシンタックスの他の例である。

表4を参照すると、“max_tid_il_ref_pics_plus1_present_flag”が“0”の場合、前述したところのように、“max_tid_il_ref_pics_plus1[i]”値を最大時間レベル“7”に類推するか、“max_tid_il_ref_pics_plus1[i]”値を考慮せず、現在階層の最上位時間サブレイヤーに対して現在階層より大きい階層に対し参照されるか否かを確認したあと、参照されない場合、“unused for reference”にマーキングすることができる。
“max_tid_il_ref_pics_plus1_present_flag”が0の場合、全ての階層の時間的サブレイヤーに対してインターレイヤー予測を許容するか、許容しないこともあり得ることを示すことができる。
表5は、本発明の実施例によるVPSから転送され得る各階層の最大時間的サブレイヤー情報を示すシンタックスのさらに他の例である。

表5を参照すると、前述した表3と異なり、該当階層別にmax_tid_il_ref_pics_plus1_present_flag[i]が存在し、前記フラッグが1の場合にのみ該当階層にmax_tid_il_ref_pics_plus1[i]情報が存在する。
max_tid_il_ref_pics_plus1_present_flag[i]が1の場合、i番目階層でmax_tid_il_ref_pics_plus1-1より大きい時間レベル(TemporalId)値を有するサブレイヤーピクチャーに対してはインターレイヤー予測を許容しないこともある。
max_tid_il_ref_pics_plus1_present_flag[i]が“0”の値を有する場合、i番目階層でmax_tid_il_ref_pics_plus1[i]情報が存在しないとのことを意味する。このような場合、max_tid_il_ref_pics_plus1[i]は、ビットストリームで許容可能な最大時間レベル(TemporalId)値である“7”に類推され得る。すなわち、i番目階層の全てのサブレイヤーピクチャーに対してインターレイヤー予測を許容することができる。言い換えれば、i番目階層の全てのサブレイヤーピクチャーは、インターレイヤー予測のための参照ピクチャーとして用いられ得ることを示す。
また、max_tid_il_ref_pics_plus1_present_flagが0の場合、max_tid_il_ref_pics_plus1[i]値を考慮せず、現在デコーディングされる階層(現在階層)の最大時間的サブレイヤーが現在階層より大きい階層(上位階層)で参照されるか否かを確認し、もし現在階層の最大時間的サブレイヤーが上位階層で参照されなければ、“unused for reference”にマーキングすることができる。“unused for reference”にマーキングされた現在階層の最大時間的サブレイヤーピクチャーは、インターレイヤー予測のための参照ピクチャーとして用いられないことを示す。
max_tid_il_ref_pics_plus1_present_flagが0の場合、全ての階層の時間的サブレイヤーに対してインターレイヤー予測を許容するか、許容しないこともあり得ることを示すことができる。
表6は、本発明の実施例によるVPSから転送され得る各階層の最大時間的サブレイヤー情報を示すシンタックスのさらに他の例である。

表6を参照すると、max_tid_il_ref_pics_plus1_present_flagが“1”の値を有する場合にのみ、該当階層別にmax_tid_il_ref_pics_plus1_not_predicted_flag[i]とmax_tid_il_ref_pics_plus1[i]情報が存在する。
max_tid_il_ref_pics_plus1_not_predicted_flag[i]が1の場合にのみ、i番目階層に該当するmax_tid_il_ref_pics_plus1[i]情報を転送することができる。すなわち、max_tid_il_ref_pics_plus1-1より大きい時間レベル(TemporalId)値を有するサブレイヤーピクチャーに対しては、インターレイヤー予測を許容しないこともある。
max_tid_il_ref_pics_plus1_not_predicted_flag[i]が0の場合は、i-1番目階層のmax_tid_il_ref_pics_plus1[i-1]の値をi番目階層のmax_tid_il_ref_pics_plus1[i]値として用いることができる。max_tid_il_ref_pics_plus1_not_predicted_flag[i]が存在しない場合は、i番目階層のmax_tid_il_ref_pics_plus1[i]を1に類推することができる。
max_tid_il_ref_pics_plus1_present_flagが“0”の値を有する場合、該当階層別にmax_tid_il_ref_pics_plus1_not_predicted_flag[i]とmax_tid_il_ref_pics_plus1[i]情報が存在しない。このような場合、max_tid_il_ref_pics_plus1[i]はビットストリームで許容可能な最大時間レベル(TemporalId)値である“7”に類推され得る。すなわち、全体ビットストリームで全ての時間的サブレイヤーピクチャーに対してインターレイヤー予測(すなわち、階層間予測のための参照ピクチャーとして用いられる)を許容することができる。
また、max_tid_il_ref_pics_plus1_present_flagが0の場合、max_tid_il_ref_pics_plus1[i]値を考慮せず、現在階層の最大時間的サブレイヤーに対して現在階層より大きい階層等に対して参照されるか否かを確認したあと、参照されない場合、“unused for reference”にマーキングすることができる。
max_tid_il_ref_pics_plus1_present_flagが0の場合、全ての階層の時間的サブレイヤーに対して階層間予測を許容するか、許容しないこともあることを示すことができる。
表7は、本発明の実施例によるVPSから転送され得る各階層の最大時間的サブレイヤー情報を示すシンタックスのさらに他の例である。

表7を参照すると、全体階層に適用可能なmax_tid_il_ref_pics_plus1を転送する。さらに、max_tid_il_ref_pics_plus1_predicted_flag[i]が1の場合は、全体階層に適用可能なmax_tid_il_ref_pics_plus1値を用い、max_tid_il_ref_pics_plus1_predicted_flag[i]が0の場合は、該当階層にだけ適用可能なmax_tid_il_ref_pics_plus1[i]値を記述して用いることができる。
表8は、本発明の実施例によるVPSから転送され得る各階層の最大時間的サブレイヤー情報を示すシンタックスのさらに他の例である。

表8を参照すると、iが0より大きい階層から転送されるmax_tid_il_ref_pics_plus1_predicted_flag[i]値によって、以前階層(i-1)のmax_tid_il_ref_pics_plus1[i-1]とのdelta値で表示することができる。
max_tid_il_ref_pics_plus1_predicted_flag[i]が存在しない場合、delta_max_tid_il_ref_pics_plus1[i]は0とみなすことができる。
つまり、max_tid_il_ref_pics_plus1_predicted_flag[i]が1の場合、以前階層(i-1)とのdelta値であるdelta_max_tid_il_ref_pics_plus1[i]を転送し、max_tid_il_ref_pics_plus1_predicted_flag[i]が0の場合、該当階層のmax_tid_il_ref_pics_plus1[i]を転送する。
表9は、本発明の実施例によるVPSから転送され得る各階層の最大時間的サブレイヤー情報を示すシンタックスのさらに他の例である。

表9を参照すると、“max_tid_il_ref_present_flag”シンタックスが“1”の値を有する場合、‘default_max_tid_il_ref_flag’値によって“i”番目階層を直接参照階層として用いる“j”番目階層に対し、“i”番目階層で許容する最大時間的サブレイヤー情報(max_tid_il_ref_pics_plus1[i][j])を個別的に記述することができるか、基本値(例えば、default_max_tid_il_ref_pics_plus1)に類推することができる。“max_tid_il_ref_present_flag”シンタックスが“0”の値を有する場合は、最上位階層を除外した各階層で最大時間的サブレイヤー情報が存在しない。
“default_max_tid_il_ref_flag”シンタックスが‘1’の値を有する場合、‘max_tid_il_ref_pics_plus1[i][j]’シンタックスが存在せず、復号化過程上で‘max_tid_il_ref_pics_plus1[i][j]’は‘default_max_tid_il_ref_pics_plus1’値に類推され得る。“default_max_tid_il_ref_flag”が‘0’の値を有する場合は、“i”番目階層を直接参照階層として用いる“j”番目階層に対し、“i”番目階層で許容する最大時間的サブレイヤー情報(max_tid_il_ref_pics_plus1[i][j])が存在する。
‘max_tid_il_ref_pics_plus1[i][j]’シンタックスが存在する場合、“default_max_tid_il_ref_pics_plus1”は“max_tid_il_ref_pics_plus1[i][j]”値として用いられ得る。全ての階層に同一の最大時間的サブレイヤー情報が適用され得る。
“max_tid_il_ref_pics_plus1[i][j]”が“0”の値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有するnon-IRAPピクチャーは、‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’値を有するピクチャーに対し、インターレイヤー予測のための参照ピクチャーとして用いられ得ないことを明示する。max_tid_il_ref_pics_plus1[i][j]が“0”より大きい値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有して時間レベル情報(TemporalId)が‘max_tid_il_ref_pics_plus1[i][j]-1’より大きい値を有するピクチャーが、‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’を有するピクチャーに対するインターレイヤー予測のための参照ピクチャーとして用いられないことを意味する。“max_tid_il_ref_pics_plus1[i][j]”シンタックスが存在しない場合、‘max_tid_il_ref_present_flag’シンタックスが“0”の場合は“max_tid_il_ref_pics_plus1[i][j]”値が“7”に類推され得る。‘max_tid_il_ref_present_flag’シンタックスが“1”の場合は“max_tid_il_ref_pics_plus1[i][j]”値が‘default_max_tid_il_ref_pics_plus1”値に類推され得る。
表10は、本発明の実施例によるVPSから転送され得る各階層の最大時間的サブレイヤー情報を示すシンタックスのさらに他の例である。

表10を参照すると、“default_max_tid_il_ref_flag”シンタックスが‘1’の値を有する場合、‘max_tid_il_ref_pics_plus1[i][j]’が存在せず、‘max_tid_il_ref_pics_plus1[i][j]’は‘default_max_tid_il_ref_pics_plus1’値に類推され得る。default_max_tid_il_ref_flagが‘0’の値を有する場合、“i”番目階層を直接参照階層として用いる“j”番目階層に対して“i”番目階層で許容する最大時間的サブレイヤー情報(max_tid_il_ref_pics_plus1[i][j])が存在する。
“max_tid_il_ref_pics_plus1[i][j]”シンタックスが存在する場合、“default_max_tid_il_ref_pics_plus1”は“max_tid_il_ref_pics_plus1[i][j]”値として用いられ得る。全ての階層に同一の最大時間的サブレイヤー情報が適用され得る。
“max_tid_il_ref_pics_plus1[i][j]”が“0”の値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有するnon-IRAPピクチャーは、‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’値を有するピクチャーに対してインターレイヤー予測のための参照ピクチャーとして用いることができないことを明示する。“max_tid_il_ref_pics_plus1[i][j]”が“0”より大きい値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有して時間レベル情報(TemporalId)が‘max_tid_il_ref_pics_plus1[i][j]-1’より大きい値を有するピクチャーが、‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’を有するピクチャーに対するインターレイヤー予測のための参照ピクチャーとして用いられないことを意味する。“max_tid_il_ref_pics_plus1[i][j]”が存在しない場合、“max_tid_il_ref_pics_plus1[i][j]”は“default_max_tid_il_ref_pics_plus1”値に類推され得る。
表11は、本発明の実施例によるVPSから転送され得る各階層の最大時間的サブレイヤー情報を示すシンタックスのさらに他の例である。

表11を参照すると、“default_max_tid_il_ref_flag”が‘1’の値を有する場合、‘max_tid_il_ref_pics_plus1[i][j]’シンタックスが存在せず、‘max_tid_il_ref_pics_plus1[i][j]’は‘default_max_tid_il_ref_pics_plus1[i]’値に類推され得る。‘default_max_tid_il_ref_flag’が‘0’の値を有する場合、“i”番目階層を直接参照階層として用いる“j”番目階層に対し、“i”番目階層で許容する最大時間的サブレイヤー情報(max_tid_il_ref_pics_plus1[i][j])が存在する。
“max_tid_il_ref_pics_plus1[i][j]”が存在する場合、“default_max_tid_il_ref_pics_plus1[i]”はi番目階層の“max_tid_il_ref_pics_plus1[i][j]”値として用いられ得る。iは、0でMaxLayersMinus1-1値を有することができる。MaxLayersMinus1はMin(62、vps_max_layers_minus1)値と同様であり、vps_max_layers_minus1はVPSから転送されるビットストリーム内で許容する最大階層の数を報知する情報である。
“max_tid_il_ref_pics_plus1[i][j]”が“0”の値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有するnon-IRAPピクチャーは、‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’値を有するピクチャーに対し、インターレイヤー予測のための参照ピクチャーとして用いることができないことを明示する。max_tid_il_ref_pics_plus1[i][j]が“0”より大きい値を有する場合、‘layer_id_in_nuh[i]’と同一の‘nuh_layer_id’を有して時間レベル情報(TemporalId)が‘max_tid_il_ref_pics_plus1[i][j]-1’より大きい値を有するピクチャーが、‘layer_id_in_nuh[j]’と同一の‘nuh_layer_id’を有するピクチャーに対するインターレイヤー予測のための参照ピクチャーとして用いられないことを意味する。max_tid_il_ref_pics_plus1[i][j]が存在しない場合、i番目階層のためのmax_tid_il_ref_pics_plus[i][j]値は‘default_max_tid_il_ref_pics_plus1[i]”値に類推され得る。
前記表1から表11を参照して説明した本発明の実施例による時間的サブレイヤー情報を利用したシグナリング方法は、前記実施例等の幾多の組み合わせでも表現が可能であり得る。
また、前述した本発明の実施例による時間的サブレイヤー情報を利用したシグナリング方法は、全ての時間的サブレイヤーピクチャーに対してインターレイヤー予測を許容する場合、現在階層を直接参照階層として用いる全ての階層に対して個別的に最大時間的サブレイヤー情報を報知する必要なく、全体階層に同一の最大時間的サブレイヤー情報を適用することができるようにする。したがって、各階層ごとに個別的に関連情報をシグナリングすることに伴うオーバーヘッドを減らすことができる。
また、前述した本発明の実施例による時間的サブレイヤー情報を利用したシグナリング方法は、各階層別にインターレイヤー予測のための時間的サブレイヤーを調節するか否かを示す指示子を用いることで、効率的に関連情報をシグナリングすることができるようにする。
前記実施例を介して記述された該当階層で、インターレイヤー予測を許容する最大時間的サブレイヤー情報を利用して現在ピクチャーに対しインターレイヤー予測を行うとき、現在ピクチャーのデコーディングに用いられる実際に利用可能な参照階層ピクチャーの個数(numRefLayerPics)は、次のように求めることができる。
VPS extensionに記述されたシンタックス要素‘direct_dependency_flag’から計算された現在階層が直接参照している参照階層の個数を指示する変数‘NumDirectRefLayers[]’、各階層の最大時間的サブレイヤー(レベル)情報を指示するシンタックス要素‘sub_layers_vps_max_minus1[i]’、各階層でインターレイヤー予測を許容する最大時間的サブレイヤー情報を指示するシンタックス要素‘max_tid_il_ref_pics_plus1[i][j]’情報、現在ピクチャーの時間レベル情報を指示するシンタックス要素‘TemporalId’を利用して、インターレイヤー予測のために現在ピクチャーのデコーディングに用いられ得る参照階層ピクチャーの個数を指示する変数‘numRefLayerPics’を下記表12のように求めることができる。

現在ピクチャーが直接参照している参照階層のピクチャーのうち、参照階層の‘sub_layers_vps_max_minus1[]’値が現在ピクチャーの‘TemporalId’値より大きいか同一であり、現在階層に対する参照階層の‘max_tid_il_ref_pics_plus1[][]’値が現在ピクチャーの‘TemporalId’値より大きい場合に該当する参照階層のピクチャー等のみ、インターレイヤー予測のために現在ピクチャーのデコーディングに用いられ得る参照階層ピクチャーとしてみなされ得る。
図5は、本発明の実施例による時間的サブレイヤー情報に基づいてインターレイヤー予測を行う方法を概略的に示したフローチャートである。
図5の方法は、少なくとも1つの時間的サブレイヤーを含む階層が複数に構成された映像の符号化及び復号化過程で、符号化/復号化対象ブロックの予測サンプルを生成するために時間的サブレイヤー情報を利用したインターレイヤー予測過程に対して説明している。したがって、図5の方法は、映像の符号化及び復号化方法に全て適用され得る。以下では、説明の便宜のため、復号化過程を基準に記述する。
図5を参照すると、復号化器は、インターレイヤー予測のための時間的サブレイヤーに対する情報を獲得する(S500)。
時間的サブレイヤーに対する情報は、各階層でインターレイヤー予測のために参照され得る最大時間的サブレイヤーを指示する最大時間的サブレイヤー情報と、各階層で最大時間的サブレイヤー情報を調節するか否かを示す指示子情報とを含むことができる。
例えば、前記最大時間的サブレイヤー情報は、前記表1から表11で説明したmax_tid_il_ref_pics_plus1シンタックス要素であり得、前記指示子情報は、前記表1から表11で説明したmax_tid_il_ref_pics_plus1_present_flagシンタックス要素であり得る。
また、時間的サブレイヤーに対する情報は、現在デコーディング階層の参照階層でインターレイヤー予測を許容する時間的サブレイヤーが分かるようにシグナリングされた情報であって、前記表1から表11で説明したところのような多様な方法で表現され得る。
復号化器は、前記表1から表11に示されたように、VPS、SPS、PPS、スライスセグメントヘッダーなどを介して時間的サブレイヤーに対する情報を符号化器から受信し、受信された時間的サブレイヤーに対する情報をエントロピー復号化することにより、前記指示子情報、最大時間的サブレイヤー情報などを獲得することができる。
例えば、前記指示子情報が各階層で最大時間的サブレイヤー情報を調節するものとして指示された場合、復号化器は各階層に対して最大時間的サブレイヤー情報を獲得することができる。このとき、復号化器は階層間の参照関係に対する情報、例えば、現在階層が直接参照階層として用いる階層に対する情報(例えば、direct_dependency_flag)に基づいて直接参照関係がある階層に対して最大時間的サブレイヤー情報を獲得することもできる。逆に、前記指示子情報が各階層で最大時間的サブレイヤー情報を明示的に調節しないものとして指示された場合、復号化器は、各階層に対して最大時間的サブレイヤー情報を特定値に類推することができる。例えば、特定値は最大時間レベル値で7であり得る。
復号化器は、時間的サブレイヤーに対する情報に基づき、現在ピクチャーのインターレイヤー予測のために用いられる参照ピクチャーを誘導する(S510)。
復号化器は、各階層ごとに、最大時間的サブレイヤー情報が指示する最大時間的サブレイヤーより大きいか同一の時間的サブレイヤーに該当するピクチャーに対し、現在ピクチャーのインターレイヤー予測のための参照ピクチャーとして用いられないものと判断することができる。
復号化器は、各階層ごとに、最大時間的サブレイヤー情報が指示する最大時間的サブレイヤーより小さい時間的サブレイヤーに該当するピクチャーに対し、現在ピクチャーのインターレイヤー予測のための参照ピクチャーとして使用可能なものと判断することができる。
復号化器は、インターレイヤー予測のために現在ピクチャーのデコーディングに用いられる実際に利用可能な参照階層ピクチャーを、最大時間的サブレイヤー情報を利用して前記表12のように求めることができる。
復号化器は、参照ピクチャーに基づいて現在ピクチャーのインターレイヤー予測を行う(S520)。
復号化器は、現在ピクチャーのインターレイヤー予測のために参照可能な参照ピクチャーに基づいて参照ピクチャーリストを生成することができ、このような参照ピクチャーリストを利用して現在ピクチャーのインターレイヤー予測を行うことができる。
復号化器は、現在ピクチャーに対しインターレイヤー予測を行って予測信号を生成し、前記予測信号と残差(residual)信号を加えて現在ピクチャーの復元信号(復元されたピクチャー)を得ることができる。
前述した本発明による方法は、コンピューターで実行されるためのプログラムとして製作されてコンピューターが読み取ることができる記録媒体に貯蔵可能であり、コンピューターが読み取ることができる記録媒体の例としてはROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)、光データ保存装置などがあり、またキャリアウエーブ(例えば、インターネットを介した転送)の形態に具現されることも含む。
コンピューターが読み取ることができる記録媒体は、ネットワークで連結されたコンピューターシステムに分散され、分散方式でコンピューターの読み取ることのできるコードが貯蔵されて実行され得る。さらに、前記方法を具現するための機能的な(function)プログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論され得る。
前述した実施例で、方法等は一連の段階又はブロックとしてフローチャートを基に説明されているが、本発明は段階等の順序に限定されるものではなく、ある段階は前述したところと異なる段階と異なる順序で、又は同時に発生することができる。また、当該技術分野で通常の知識を有する者であれば、フローチャートに示された段階等が排他的でなく、他の段階が含まれるか、フローチャートの1つ又はそれ以上の段階が本発明の範囲に影響を及ぼさずに削除され得ることを理解することができるものである。
以上の説明は、本発明の技術思想を例示的に説明したことに過ぎないものであって、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から脱しない範囲で多様な修正及び変形が可能であろう。したがって、本発明に開示された実施例等は、本発明の技術思想を限定するためではなく説明するためのものであって、このような実施例によって本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は、特許請求の範囲によって解釈されなければならず、それと同等な範囲内にある全ての技術思想は、本発明の権利範囲に含まれるものとして解釈されなければならないであろう。



  1. 少なくとも1つの時間的サブレイヤー(temporal sub-layer)を含む階層が複数に構成された映像のインターレイヤー予測(inter-layer prediction)方法において、
    インターレイヤー予測のための時間的サブレイヤーに対する情報を獲得する段階;
    前記時間的サブレイヤーに対する情報に基づいて現在ピクチャーのインターレイヤー予測のために用いられる参照ピクチャーを誘導する段階;及び
    前記参照ピクチャーに基づいて前記現在ピクチャーのインターレイヤー予測を行う段階を含み、
    前記時間的サブレイヤーに対する情報は、
    各階層でインターレイヤー予測のために参照され得る最大時間的サブレイヤーを指示する最大時間的サブレイヤー情報と、
    各階層で前記最大時間的サブレイヤー情報を調節するか否かを示す指示子情報とを含むことを特徴とするインターレイヤー予測方法。

  2. 前記時間的サブレイヤーに対する情報を獲得する段階は、
    前記指示子情報が前記最大時間的サブレイヤー情報を調節するものとして指示する場合、各階層に対して前記最大時間的サブレイヤー情報を獲得することを特徴とする請求項1に記載のインターレイヤー予測方法。

  3. 前記時間的サブレイヤーに対する情報を獲得する段階は、
    前記指示子情報が前記最大時間的サブレイヤー情報を調節しないものとして指示する場合、各階層に対して前記最大時間的サブレイヤー情報を最大時間レベル値7に類推することを特徴とする請求項1に記載のインターレイヤー予測方法。

  4. 前記現在ピクチャーのインターレイヤー予測のために用いられる前記参照ピクチャーを誘導する段階は、
    各階層ごとに前記最大時間的サブレイヤー情報が指示する最大時間的サブレイヤーより大きいか同一の時間的サブレイヤーに該当するピクチャーに対し、前記現在ピクチャーのインターレイヤー予測のための参照ピクチャーとして用いられないものと判断することを特徴とする請求項1に記載のインターレイヤー予測方法。

  5. 前記現在ピクチャーのインターレイヤー予測のために用いられる前記参照ピクチャーを誘導する段階は、
    各階層ごとに前記最大時間的サブレイヤー情報が指示する最大時間的サブレイヤーより小さい時間的サブレイヤーに該当するピクチャーに対し、前記現在ピクチャーのインターレイヤー予測のための参照ピクチャーとして使用可能なものと判断することを特徴とする請求項1に記載のインターレイヤー予測方法。

  6. 前記時間的サブレイヤーに対する情報は、VPS(Video Parameter Sets)拡張(extention)シンタックス(syntax)を介してシグナリングされることを特徴とする請求項1に記載のインターレイヤー予測方法。

  7. 少なくとも1つの時間的サブレイヤー(temporal sub-layer)を含む階層が複数に構成された映像のインターレイヤー予測(inter-layer prediction)装置において、
    インターレイヤー予測のための時間的サブレイヤーに対する情報を獲得するエントロピー復号化部;及び
    前記時間的サブレイヤーに対する情報に基づいて現在ピクチャーのインターレイヤー予測のために用いられる参照ピクチャーを誘導し、前記参照ピクチャーに基づいて前記現在ピクチャーのインターレイヤー予測を行う予測部を含み、
    前記時間的サブレイヤーに対する情報は、
    各階層でインターレイヤー予測のために参照され得る最大時間的サブレイヤーを指示する最大時間的サブレイヤー情報と、
    各階層で前記最大時間的サブレイヤー情報を調節するか否かを示す指示子情報とを含むことを特徴とするインターレイヤー予測装置。

  8. 前記エントロピー復号化部は、
    前記指示子情報が前記最大時間的サブレイヤー情報を調節するものとして指示する場合、各階層に対して前記最大時間的サブレイヤー情報を獲得することを特徴とする請求項7に記載のインターレイヤー予測装置。

  9. 前記エントロピー復号化部は、
    前記指示子情報が前記最大時間的サブレイヤー情報を調節しないものとして指示する場合、各階層に対して前記最大時間的サブレイヤー情報を最大時間レベル値7に類推することを特徴とする請求項7に記載のインターレイヤー予測装置。

  10. 前記予測部は、
    各階層ごとに前記最大時間的サブレイヤー情報が指示する最大時間的サブレイヤーより大きいか同一の時間的サブレイヤーに該当するピクチャーに対し、前記現在ピクチャーのインターレイヤー予測のための参照ピクチャーとして用いられないものと判断することを特徴とする請求項7に記載のインターレイヤー予測装置。

  11. 前記予測部は、
    各階層ごとに前記最大時間的サブレイヤー情報が指示する最大時間的サブレイヤーより小さい時間的サブレイヤーに該当するピクチャーに対し、前記現在ピクチャーのインターレイヤー予測のための参照ピクチャーとして使用可能なものと判断することを特徴とする請求項7に記載のインターレイヤー予測装置。

  12. 前記時間的サブレイヤーに対する情報は、VPS(Video Parameter Sets)拡張(extention)シンタックス(syntax)を介してシグナリングされることを特徴とする請求項7に記載のインターレイヤー予測装置。

 

 

Patent trol of patentswamp
類似の特許
ビデオ情報をコーディングするように構成された装置は、メモリと、メモリと通信しているプロセッサとを含む。メモリは、参照レイヤとエンハンスメントレイヤとに関連付けられたビデオ情報を記憶するように構成され、参照レイヤは参照レイヤ(RL)コーデックに関連付けられ、エンハンスメントレイヤはエンハンスメントレイヤ(EL)コーデックに関連付けられる。プロセッサは、参照レイヤに関連付けられたRLコーデックが特定のタイプのコーデックであるかどうかを決定することと、RLコーデックが特定のタイプのコーデックであると決定したことに応答して、ビデオビットストリーム中で、参照レイヤの動き情報がエンハンスメントレイヤをコーディングするために使用され得ないという指示を処理することと、を行うように構成される。プロセッサはビデオ情報を符号化または復号し得る。
特定の態様によるビデオ情報を符号化するための装置は、メモリとコンピューティングハードウェアとを含む。メモリは、ビデオ情報を記憶するように構成されている。コンピューティングハードウェアは、シグナリングするための1つまたは複数のビュー識別子のビット深度を決定するように構成されており、ここにおいて、1つまたは複数のビュー識別子のそれぞれは符号化されるべきレイヤに関連付けられている。コンピューティングハードウェアは、ビットストリーム内で1つまたは複数のビュー識別子のビット深度をシグナリングするようにさらに構成されている。
多様な実施形態によるインターレイヤビデオ復号化方法は、現在ブロックの、左側に位置する空間的周辺ブロック候補、上側に位置する空間的周辺ブロック候補、及びコロケーテッド位置の時間的周辺ブロック候補のうち、インターレイヤ方向の動きベクトルを有する周辺ブロック候補を検索する段階と、検索された周辺ブロック候補のインターレイヤ方向の動きベクトルを、現在ブロックのディスパリティベクトルと予測する段階と、インターレイヤ方向の動きベクトルを有する周辺ブロック候補が検索されない場合、空間的周辺ブロック候補のうち、ディスパリティベクトル情報を有する周辺ブロック候補を検索する段階と、検索された周辺ブロック候補のディスパリティベクトル情報を利用して、現在ブロックのディスパリティベクトルを予測する段階と、を含む。
【課題】ビデオ符号化のサンプル適応オフセット処理の方法を提供する。
【解決手段】ビデオ符号化システムにおける再構成ピクチャのパフォーマンスを改善する修正されたSAO処理の方法を提供する。一実施態様において、SAO−サインスレショルドが導入されて、現在の再構成画素と隣接再構成画素間の差異のサインを決定する。負のSAO−サインスレショルドより大きく、正のSAO−サインスレショルドより小さい差分値の範囲が割り当てられて、0のサイン値を有する。別の態様において、SAO−オフセット値は、SAO−ビット−シフト値を、SAO−オフセット絶対値に左方移動させることによる結果により、SAO−オフセットサインを増加させることにより生成される。さらに別の実施態様において、SAO−オフセット絶対値は、トランケーティドライス(TR)コードにより符号化され、最大TR値は構文要素により示される。
【選択図】 図9
1つまたは複数のプロセッサを備えるビデオコーダは、ビデオデータの現在ブロックがイントラ動き補償(IMC)モードを使用して符号化されると決定し、ここにおいて、現在ブロックはビデオのフレーム中にある、ビデオデータの現在ブロックの第1の色成分のためのオフセットベクトルを決定し、ビデオのフレーム中に、オフセットベクトルを使用して第1の色成分の参照ブロックを配置し、ビデオデータの現在ブロックの第2の色成分のためのサブピクセル位置を指すオフセットベクトルに応答して、変更されたオフセットベクトルを生成するためにオフセットベクトルを変更し、ビデオのフレーム中に、変更されたオフセットベクトルを使用して第2の色成分のための参照ブロックを配置し、第1の色成分のための参照ブロックと第2の色成分のための参照ブロックとに基づいて、現在ブロックをコーディングする。
【選択図】 図8
例示的なビデオコーディングデバイスは、ビュー間予測された動きベクトル候補(IPMVC)を動きベクトル継承(MVI)候補と比較するように構成され、IPMVCとMVI候補は各々、従属深度ビュー中のビデオデータのブロックと関連付けられ、IPMVCはベース深度ビュー中のビデオデータの対応するブロックから生成される。ビデオコーディングデバイスはさらに、IPMVCがMVI候補と異なることに基づいてIPMVCを統合候補リストに追加すること、または、IPMVCがMVI候補と同一であることに基づいて統合候補リストからIPMVCを除外することの1つを実行するように構成され得る。
一例では、ビデオコーディングにおいてビデオデータを変換する方法は、第1のステージの結果のブロックを生成するためにビデオデータ値のブロックに2次元変換の第1のステージを適用することと、第2のステージの結果のブロックを生成するために第1のステージの結果を並べ替えることなしに第1のステージの結果のブロックに2次元変換の第2のステージを適用することとを含む。
【選択図】図8
ビデオデータをコーディングするための高度残差予測(ARP)のための技法がビュー間ARPを含み得る。ビュー間ARPは、現在のビデオブロックのための視差動きベクトル(DMV)を識別することを含み得る。DMVは、ビュー間参照ビデオブロックに基づく現在のビデオブロックのビュー間予測のために使用される。ビュー間ARPのための技法はまた、ビュー間参照ビデオブロックの時間動きベクトル(TMV)に基づいて現在のビューと参照ビューとの中の時間参照ビデオブロックを識別することと、時間参照ビデオブロック間の差に基づいて残差予測子ブロックを決定することとを含み得る。
機器は、ある値に基づいて、イントラランダムアクセスポイント(IRAP)アクセス単位の全てのクロスレイヤランダムアクセススキップ(CL−RAS)ピクチャがビデオデータビットストリーム内に存在するかどうかを決定することができる。加えて、機器は、ビデオデータビットストリームから復号されたシンタックス要素に少なくとも部分的に基づいて、ビデオデータのピクチャを復元することができる。
1つの例において、本開示は、ビデオデータのピクチャのスライスの各々のコーディングユニット(CU)の各予測ユニット(PU)に関して、少なくとも1つの隣接するサンプルの少なくとも1つの再構築された深さサンプルの少なくとも1つの深さ値に少なくとも部分的に基づいて、少なくとも1つの不一致値を決定することを含む技術に関する。この技術は、少なくとも1つの不一致値に少なくとも部分的に基づいて、少なくとも1つの不一致ベクトルを決定することをさらに含み、ここにおいて、少なくとも1つの不一致ベクトルは、各PUについて各々のCUに関する。この技術は、少なくとも1つの不一致ベクトルに少なくとも部分的に基づいて、各PUについて各々のCUに関するコーディングブロックを再構築することをさらに含む。
To top