Hoa信号の係数領域表現からこのhoa信号の混合した空間/係数領域表現を生成する方法および装置

 

HOAと称する高次アンビソニックスのために2つの表現として空間領域および係数領域が存在する。本発明は係数領域表現から上記HOA信号の数を可変とすることができる混合した空間/係数領域表現を生成する。係数領域信号のベクトルは、ある定数のHOA係数を有する係数領域信号のベクトルと可変数のHOA係数を有する係数領域信号のベクトルとに分離される。上記定数のHOA係数のベクトルは対応する空間領域信号のベクトルに変換される。信号の不連続部を生じさせることなく高品質の符号化を容易にするために、係数領域信号の可変数のHOA係数のベクトルが適応的に正規化され、空間領域信号のベクトルと多重化される。
【選択図】図3

 

 

本発明は、HOA信号の係数領域表現からこのHOA信号の混合した空間/係数領域表現を生成する方法および装置であって、HOA信号の数を可変とすることができる、方法および装置に関する。
HOAと称する高次アンビソニックスは、2次元または3次元の音場の数学的な記述である。音場は、マイクロフォン・アレイによって捉えることができ、あるいは合成音源から設計することができ、あるいは音場はその両方の組み合わせである。HOAは、2次元または3次元のサラウンド・サウンドのための伝送フォーマットとして使用することができる。ラウドスピーカに基づくサラウンド・サウンド表現とは対照的に、HOAの利点は、様々なラウドスピーカの構成で音場を再現することである。そのため、HOAはユニバーサル・オーディオ・フォーマットに適している。
HOAの空間解像度は、HOAの次数によって決まる。この次数は音場を記述するHOA信号の数を決める。HOAには2つの表現があり、それぞれ、空間領域および係数領域と呼ばれている。大抵の場合には、HOAは、もともと係数領域で表現され、行列乗算(または変換)によって空間領域に変換される(欧州特許出願公開第2469742号に記載されている。)。空間領域は、係数領域と同じ数の信号を含む。しかしながら、空間領域においては、各信号は方向に関連し、その方向は単位球面上に一様に分布している。これにより、HOA表現の空間分布を分析することが容易になる。係数領域表現は、空間領域表現と同様に時間領域表現である。
以下の説明において基本的には、ねらいは、各方向に対して同一のダイナミックレンジをもたらすために、HOA表現のPCM伝送のために可能な限り空間領域を使用することである。これにより、空間領域におけるHOA信号のPCMサンプルが所定の値の範囲に正規化されなければならないことを意味する。しかしながら、このような正規化の欠点は、空間領域におけるHOA信号のダイナミックレンジが係数領域よりも小さいことである。これは、係数領域信号から空間領域信号を生成する変換行列によって生ずる。
あるアプリケーションでは、HOA信号が係数領域において送信されるものがある。例えば、欧州特許出願第13305558号に記載された処理では、全ての信号が係数領域において送信される。それは定数のHOA信号および可変数の追加のHOA信号が送信されるからである。しかし、上述および欧州特許出願公開第2469742号に示されているように、係数領域における送信は有利ではない。
解決法として、定数のHOA信号を空間領域において送信することができ、可変数の追加のHOA信号のみを係数領域で伝送する。追加のHOA信号を空間領域で伝送することは可能ではない。その理由は、HOA信号の数が経時的に変化すると、係数領域から空間領域への変換行列が経時的に変化し、後続する知覚符号化処理にとって最適であるとはいえない不連続部が全ての空間領域信号で生ずることがあるからである。
この追加のHOA信号を所定の値の範囲を超えることなく送信できるようにするために、このような信号の不連続部を回避するように設計されており、反転パラメータの効率的な送信を達成する可逆の正規化処理を使用することができる。
2つのHOA表現のダイナミックレンジおよびPCM符号化のためのHOA信号の正規化に関し、以下、このような正規化が係数領域で行われるべきか、空間領域で行われるべきかを導く。
係数時間領域において、HOA表現は、N個の係数信号

の連続するフレームから構成される。ここで、kはサンプル・インデックスを示し、nは信号インデックスを示す。 この係数信号は、コンパクトな表現を得るために、ベクトル

にまとめる。 空間領域への変換は、NxNの下記の変換行列によって行われる。
この変換は欧州特許出願第12306569号に定義されており、式(21)および(22)に関連したΞGRIDの定義を参照されたい。
空間領域ベクトル

が下記の式から取得される。
w(k)=Ψ−1d(k) (1)
ここで、Ψ−1は行列Ψの逆行列である。 空間領域から係数領域への逆変換は、下記の式によって行われる。
d(k)=Ψw(k) (2)
サンプルの値の範囲が、一方の領域において定義されると、変換行列Ψは、自動的に他方の領域の値の範囲を定める。以下の説明では、k番目のサンプルに対する項(k)を省略する。
HOA表現は実際には空間領域で再生されるため、値の範囲、ラウドネスおよびダイナミックレンジは空間領域において定義される。ダイナミックレンジはPCM符号化のビット解像度によって定義される。本出願において、「PCM符号化」は、浮動小数点表現サンプルから固定小数点の表記での整数表現サンプルへの変換を意味する。
HOA表現のPCM符号化のためには、N個の空間領域信号が、最大のPCM値Wmaxにアップスケーリングされ、固定小数点の整数PCM表記に端数処理されるように、−1≦w<1の値の範囲に正規化されなければならない。
注:これは、一般化されたPCM符号化表現である。
係数領域のサンプルの値の範囲は、(4)式によって定義される行列Ψの無限ノルムと、
空間領域における最大絶対値wmax=1とによって算出することができ、下記の式のようになる。
行列Ψに使用されている定義から、

の値は「1」よりも大きいため、dの値の範囲は増加する。 逆に言うと、

であるため、係数領域における信号のPCM符号化には
による正規化が必要であることを意味する。しかしながら、この正規化は、係数領域における信号のダイナミックレンジを減少させ、この結果として、信号対量子化雑音比が低下することになる。したがって、空間領域信号をPCM符号化することが好ましい。 本発明によって解決される課題は、係数領域におけるダイナミックレンジを減少させることなく、正規化を使用して空間領域が所望されているHOA信号の部分を係数領域においてどのように送信するかである。さらに、正規化された信号は、信号レベルの不連続な変化によって生じる品質の劣化を起こさずに知覚符号化を行うために、信号レベルの不連続な変化を含んではならない。この課題は、請求項1および6に開示された方法によって解決される。この方法を使用する装置が請求項2および7にそれぞれ開示されている。
原理的には、本発明の生成方法は、HOA信号の係数領域表現から上記HOA信号の混合した空間/係数領域表現を生成するのに適している。連続する係数フレーム内で上記HOA信号の数を経時的に可変とすることができる。この方法は、
−HOA係数領域信号のベクトルを、ある定数のHOA係数を有する係数領域信号の第1のベクトルと、経時的に可変数のHOA係数を有する係数領域信号の第2のベクトルとに分離するステップと、
−係数領域信号の上記第1のベクトルを変換行列の逆行列と乗算することによって、係数領域信号の上記第1のベクトルを空間領域信号の対応するベクトルに変換するステップと、
−空間領域信号の上記ベクトルをPCM符号化してPCM符号化された空間領域信号のベクトルを取得するステップと、
−正規化因子によって係数領域信号の上記第2のベクトルを正規化するステップであって、上記正規化は、係数領域信号の上記第2のベクトルの上記HOA係数の現在の値の範囲に対して適応的な正規化であり、上記正規化において上記ベクトルのHOA係数に対して利用可能な値の範囲は超過することがなく、上記ベクトル内の利得を前の第2のベクトルにおける利得から後続する第2のベクトルにおける利得に連続的に変化させるために、上記正規化において、一様に連続する遷移関数が現在の第2のベクトルの係数に適用され、上記正規化は対応する復号器側の非正規化のための副情報を提供する、上記ステップと、
−正規化された係数領域信号の上記ベクトルをPCM符号化してPCM符号化され正規化された係数領域信号のベクトルを取得するステップと、
−PCM符号化された空間領域信号の上記ベクトルと、PCM符号化され正規化された係数領域信号の上記ベクトルとを多重化するステップと、を含む。
原理的には、本発明の生成装置は、HOA信号の係数領域表現から上記HOA信号の混合した空間/係数領域表現を生成するのに適している。連続する係数フレーム内で上記HOA信号の数を経時的に可変とすることができる。この装置は、
−HOA係数領域信号のベクトルを、ある定数のHOA係数を有する係数領域信号の第1のベクトルと、経時的に可変数のHOA係数を有する係数領域信号の第2のベクトルとに分離するように構成された手段と、
−係数領域信号の上記第1のベクトルを、変換行列の逆行列と乗算することによって、係数領域信号の上記第1のベクトルを空間領域信号の対応するベクトルに変換するように構成された手段と、
−空間領域信号の上記ベクトルをPCM符号化してPCM符号化された空間領域信号のベクトルを取得するように構成された手段と、
−正規化因子によって係数領域信号の上記第2のベクトルを正規化するように構成された手段であって、上記正規化は、係数領域信号の上記第2のベクトルの上記HOA係数の現在の値の範囲に対して適応的な正規化であり、上記正規化において上記ベクトルのHOA係数に対して利用可能な値の範囲は超過することがなく、上記ベクトル内の利得を前の第2のベクトルにおける利得から後続する第2のベクトルにおける利得に連続的に変化させるために、上記正規化において、一様に連続する遷移関数が現在の第2のベクトルの係数に適用され、上記正規化は対応する復号器側の非正規化のための副情報を提供する、上記手段と、
−正規化された係数領域信号の上記ベクトルをPCM符号化してPCM符号化され正規化された係数領域信号のベクトルを取得するように構成された手段と、
−PCM符号化された空間領域信号の前記ベクトルと、PCM符号化され正規化された係数領域信号の上記ベクトルとを多重化するように構成された手段と、を含む。
原理的には、本発明の復号方法は、符号化されたHOA信号の混合した空間/係数領域表現を復号するのに適している。連続する係数フレーム内で上記HOA信号の数を経時的に可変とすることができ、符号化されたHOA信号の上記混合した空間/係数領域表現は、上記の本発明の生成方法に従って生成されており、上記復号方法は、
−PCM符号化された空間領域信号とPCM符号化され正規化された係数領域信号との上記多重化されたベクトルを逆多重化するステップと、
−PCM符号化された空間領域信号の上記ベクトルを上記変換行列と乗算することによってPCM符号化された空間領域信号の上記ベクトルを係数領域信号の対応するベクトルに変換するステップと、
−PCM符号化され正規化された係数領域信号の上記ベクトルを非正規化するステップであって、上記非正規化は、
−−受信した上記副情報の対応する冪指数e(j−1)および再帰的に算出された利得値g(j−2)を使用して、遷移ベクトルh(j−1)を算出することであって、処理されるPCM符号化され正規化された係数領域信号の後続するベクトルの対応する処理に対する利得値g(j−1)が保持され、jはHOA信号ベクトルの入力行列の連続するインデックスである、上記遷移ベクトルを算出することと、
−−PCM符号化され正規化された信号の現在のベクトルに対して対応する逆利得値(利得値の逆数)を適用して上記PCM符号化され非正規化された信号の対応するベクトルを取得することと、
を含む、上記非正規化するステップと、
−係数領域信号の上記ベクトルおよび非正規化された係数領域のベクトルを合成して可変数のHOA係数を有することができるHOA係数領域信号の結合されたベクトルを取得するステップと、を含む。
原理的には、本発明の復号装置は、符号化されたHOA信号の混合した空間/係数領域表現を復号するのに適している。連続する係数フレーム内で上記HOA信号の数を経時的に可変とすることができ、符号化されたHOA信号の上記混合した空間/係数領域表現は、上記発明の生成方法に従って生成されており、上記復号装置は、
−PCM符号化された空間領域信号とPCM符号化され正規化された係数領域信号との上記多重化されたベクトルを逆多重化するように構成された手段と、
−PCM符号化された空間領域信号の上記ベクトルを上記変換行列と乗算することによってPCM符号化された空間領域信号の上記ベクトルを係数領域信号の対応するベクトルに変換するように構成された手段と、
−PCM符号化され正規化された係数領域信号の上記ベクトルを非正規化するように構成された手段であって、上記非正規化は、
−−受信した前記副情報の対応する冪指数e(j−1)および再帰的に算出された利得値g(j−2)を使用して、遷移ベクトルh(j−1)を算出することであって、処理されるべきPCM符号化され正規化された係数領域信号の後続するベクトルの対応する処理に対する利得値g(j−1)が保持され、jは、HOA信号ベクトルの入力行列の連続するインデックスである、上記遷移ベクトルを算出することと、
−−PCM符号化され正規化された信号の現在のベクトルに対して対応する逆利得値(利得値の逆数)を適用して上記PCM符号化され非正規化された信号の対応するベクトルを取得することと、
を含む、上記非正規化するように構成された手段と、
−係数領域信号の上記ベクトルおよび非正規化された係数領域のベクトルを合成して可変数のHOA係数を有することができるHOA係数領域信号の合成されたベクトルを取得するように構成された手段と、を含む。
本発明の追加的な実施形態の利点は、各従属請求項に開示されている。
本発明の例示的な実施形態が添付図面を参照して説明されている。
空間領域におけるもとの係数領域HOA表現のPCM送信を示す図である。 係数領域および空間領域におけるHOA表現を組み合わせた送信を示す図である。 係数領域における信号に対してブロック単位で適応的な正規化を使用した係数領域および空間領域におけるHOA表現を組み合わせた送信を示す図である。 係数領域において表現されたHOA信号x(j)に対する適応的正規化処理を示す図である。 2つの異なる利得値間の円滑な遷移のために使用される遷移関数を示す図である。 適応的な非正規化処理を示す図である。 異なる冪指数eを使用した遷移関数hn(l)のFFT周波数スペクトルを示す図であり、ここで各関数の最大振幅は0dBに正規化されている。 3つの連続する信号ベクトルに対する例示的な遷移関数を示した図である。
空間領域におけるHOA表現のPCM符号化に関して、図1に示されているようなHOA表現のPCM送信を行えるように、(浮動小数点表現において)−1≦w<1が満たされているものと仮定する。HOA符号化器の入力部で、変換ステップまたはステージ11は、式(1)を使用して、現在の入力信号フレームの係数領域信号dを空間領域信号wに変換する。PCM符号化ステップまたはステージ12は、式(3)を使用して浮動小数点サンプルwを固定小数点の表記法のPCM符号化された整数サンプルw’に変換する。多重化ステップまたはステージ13において、PCM符号化された整数サンプルw’を多重化してHOA送信フォーマットにする。
HOA復号器は、逆多重化ステップまたはステージ14で、受信したHOA送信フォーマットから信号w’に逆多重化し、ステップまたはステージ15で式(2)を使用して信号w’を再変換して係数領域信号d’にする。この逆変換は、空間領域から係数領域への変換が常に整数(PCM)から浮動小数点へのフォーマット変換を含むため、d’のダイナミックレンジが増加する。
行列Ψが経時的に変化する場合には図1の標準的なHOA送信は失敗する。これは、HOA信号の数またはインデックスが、連続するHOA係数シーケンス、つまり、連続する入力信号フレームに対して経時的に変化する場合である。上述したように、このような場合の一例は、欧州特許出願第13305558号に記載されたHOA圧縮処理である。そのHOA圧縮処理では、ある定数のHOA信号が連続的に伝送され、経時的に可変数のHOA信号が変化する信号インデックスを伴って並列的に伝送される。その全ての信号は係数領域で送信され、これは上述したように最善とはいえない。
本発明によれば、図1に関連して説明される処理は図2に示されているように拡張することができる。
ステップまたはステージ20において、HOA符号化器は、HOAベクトルdを2つのベクトルdおよびdに分離する。ここで、ベクトルdに対するHOA係数の数Mは一定であり、ベクトルdは可変数K個のHOA係数を含む。信号インデックスnは、ベクトルdに対して時間的に不変であるため、PCM符号化は、空間領域において、ステップまたはステージ21、22、23、24、25において、図2の下側の信号経路内に示されたwおよびw’に対応する信号を用いて行われる。これは、図1のステップまたはステージ11〜15に対応する。しかしながら、多重化ステップ/ステージ23は追加の入力信号d”2を取得し、HOA復号器では逆多重化ステップ/ステージ24は異なる出力信号d”2を供給する。
ベクトルdのHOA係数の数またはサイズKは経時的に変化し、送信されるHOA信号のインデックスnは経時的に変化する。これは空間領域での送信を妨げる。その理由は、経時的に変化する変換行列が必要となり、その結果、全ての知覚符号化されたHOA信号に不連続部が生ずることがあるからである(なお、知覚符号化ステップまたはステージは図に示されていない)。しかしながら、このような信号の不連続部は、送信された信号の知覚符号化の品質を低下させかねないため、回避されるべきである。
そこで、係数領域でdを送信すべきである。係数領域における信号の値の範囲が大きくなるため、信号は、ステップまたはステージ27でPCM符号化が適用される前に、因子

によって、ステップまたはステージ26でスケーリングされる。しかしながら、このようなスケーリングの欠点は、
の最大絶対値が最悪の推定値となることであり、通常は値の範囲が小さくなることが予期されるのでサンプルが最大絶対値となることはあまり多くは発生しない。その結果、PCM符号化のために利用可能な分解能は効率的には使用されず、信号対量子化雑音比が低い。 逆多重化ステップ/ステージ24の出力信号d”2は、因子

を使用してステップまたはステージ28で逆スケーリングされる。結果として得られる信号
は、ステップまたはステージ29において信号d’1と結合され、その結果、復号された係数領域HOA信号d’となる。 本発明によれば、信号の信号適応的な正規化を使用することで係数領域におけるPCM符号化の効率を向上させることができる。しかしながら、このような正規化は、可逆でなければならず、かつ、サンプルからサンプルに一様に連続していなければならない。必要なブロック単位の適応的処理が図3に示されている。j番目の入力行列

は、L個のHOA信号ベクトルdからなる(インデックスjは図3に示されていない)。行列Dは、図2の処理の場合のように、2つの行列DおよびDに分離される。ステップまたはステージ31〜35におけるDの処理は、図2および図1に関連して説明した空間領域における処理に対応する。しかし、係数領域信号の符号化は、ブロック単位の適応的正規化ステップまたはステージ36を含み、この適応的正規化ステップまたはステージ36は、信号の現在の値の範囲に自動的に適応し、その後、PCM符号化ステップまたはステージ37が行われる。行列D”2における各PCM符号化された信号の非正規化のために必要な副情報は、ベクトルe内に記憶および転送される。ベクトル
は、信号毎に1つの値を含む。受信側の復号器の対応する適応的非正規化ステップまたはステージ38は、送信されたベクトルeからの情報を使用して、正規化の逆を行って信号D”2を信号
にする。その結果、得られた信号
は、ステップまたはステージ39において、信号D’と結合され、その結果、復号された係数領域HOA信号D’が得られる。 ステップ/ステージ36における適応的正規化においては、最後の入力係数ブロックの利得から次の入力係数ブロックの利得に連続的に変化させるために、一様に連続する遷移関数が現在の入力係数ブロックのサンプルに適用される。この種の処理は、1つのブロックの遅延を必要とする。その理由は、正規化利得の変化は、1つ前の入力ブロックで検出されなければならないからである。その利点は、導入される振幅変調は小さいため、変調された信号の知覚符号化は非正規化された信号にほとんど影響を与えないことである。
適応的正規化の実施は、D(j)のHOA信号毎に独立して行われる。信号は、以下の行列の行ベクトルxTによって表現される
ここで、nは、送信されたHOA信号のインデックスを表す。xは、当初は列ベクトルであつたが、ここでは行ベクトルが必要であるため転置されている。
図4は、より詳細にステップ/ステージ36における適応的正規化を示している。この処理の入力値は、以下の通りである。
・時間的にスムージングされた最大値xn,max,sm(j−2)
・利得値g(j−2)、つまり、対応する信号ベクトル・ブロックx(j−2)のすぐ前の係数に適用される利得
・現在のブロックの信号ベクトルx(j)
・前のブロックの信号ベクトルx(j−1)
第1のブロックx(0)の処理を開始すると、再帰的な入力値が所定の値によって初期化される。ベクトルx(−1)の係数は、零に設定することができ、利得値g(−2)は、「1」に設定するとよく、xn,max,sm(−2)は、所定の平均振幅値に設定するとよい。
その後、すぐ前のブロックg(j−1)の利得値、副情報ベクトルe(j−1)の対応する値e(j−1)、時間的にスムージングされた最大値xn,max,sm(j−1)、および正規化された信号ベクトルx’(j−1)が処理の出力である。
この処理の目的は信号ベクトルx(j−1)に適用される利得値をg(j−2)からg(j−1)に連続的に変更して、利得値g(j−1)が信号ベクトルx(j)を正規化して適切な値の範囲にすることにある。
最初の処理ステップまたはステージ41において、信号ベクトル

の各係数に利得値g(j−2)を乗算する。ここで、g(j−2)は、次の正規化利得のための基礎として、信号ベクトルx(j−1)の正規化処理から保持されている。結果として得られる正規化された信号ベクトルx(j)から、式(5)を使用してステップまたはステージ42で絶対値の最大値xn,maxを得る。
ステップまたはステージ43において、xn,maxに時間的なスムージングを適用する。この処理は、すぐ前の時間的なスムージング済みの最大値xn,max,sm(j−2)を受信する再帰的フィルタを使用して行われる。この結果、現在の時間的なスムージング済みの最大値xn,max,sm(j−1)が得られる。このようなスムージングの目的は、時間的に正規化利得の適応を弱め、これにより、利得の変更の回数を低減し、それで信号の振幅変調を低減することにある。値xn,maxが所定の値の範囲にある場合にのみ、時間的なスムージングが適用される。値xn,maxが所定の値の範囲にない場合は、xn,max,sm(j−1)をxn,maxに設定する(すなわち、現在の状態のままでxn,maxの値が保持される。)。その理由は、後続する処理がxn,maxの実際の値を所定の値の範囲に減衰させなければならないからである。したがって、正規化利得が一定である場合か、信号x(j)が値の範囲を外れることなく増幅される場合にのみ、時間的なスムージング処理が動作する。
ステップ/ステージ43において、xn,max,sm(j−1)を以下のように算出する。
ここで、0<a≦1は、減衰定数である。
ベクトルeの送信のためのビットレートを低減するために、現在の時間的なスムージング済みの最大値xn,max,sm(j−1)から正規化利得を算出し、「2」を基数とする冪指数として送信する。したがって、
が満たされるべきであり、ステップまたはステージ44において、量子化された冪指数e(j−1)を下記の式から取得する

効率的なPCM符号化のために利用可能な解像度を利用するために信号が再度増幅されている(すなわち、合計利得の値が経時的に増加する)期間においては、冪指数e(j)(したがって、連続するブロック間の利得差)は、小さな最大値、例えば「1」に制限されることがある。この処理には2つの有利な効果がある。その一方は、連続するブロック間の利得差が小さいと、遷移関数を通じて小さい振幅変調のみとなり、結果としてFFTスペクトルの隣接するサブバンド間のクロストークが低減されることである(図7に関連した知覚符号化への遷移関数の影響についての関連記述を参照)。他方は、冪指数の符号化のためのビットレートは、その値範囲を制限することによって低減されることである。
合計の最大増幅の値
は制限することができ、例えば「1」に制限することができる。その理由は、係数信号の一つが、(空間領域におけるHOA表現の正規化を想定すると)1番目のブロックが極めて小さな振幅を有し、2番目のブロックが起こり得る最も高い振幅を有するという、2つの連続するブロック間で大きな振幅の変化を示す場合には、この2つのブロック間の極めて大きな利得差により、遷移関数を通じて振幅変調が大きくなり、結果として、FFTスペクトルの隣接するサブバンド間に重大なクロストークが生じるからである。これは、以下に説明する後続する知覚符号化処理にとって最適とはいえないことがある。
ステップまたはステージ45において、冪指数値e(j−1)を遷移関数に適用して、現在の利得値g(j−1)を得る。利得値g(j−2)から利得値g(j−1)への連続する遷移に対して図5に示した関数を使用する。その関数の演算ルールは以下の通りである。
ここで、

である。実際の遷移関数ベクトル
は、g(j−2)からg(j−1)に連続的にフェードする(fade)ために使用される。例えば、e(j−1)の各値に対して、f(0)=1であるため、h(0)の値は、g(j−2)となる。f(L−1)の最後の値は、0.5であるため、
は、結果として、式(9)からのx(j)の正規化に対して必要な増幅g(j−1)が得られる。 ステップまたはステージ46において、信号ベクトルx(j−1)のサンプルは、下記の式(12)を得るために、遷移ベクトルh(j−1)の利得値によって重み付けされる。
ここで、

の演算子は、2つのベクトルのベクトル要素単位の乗算を表す。この乗算は、信号x(j−1)の振幅変調を表すものと考えることもできる。 より詳細には、遷移ベクトル

の係数は、信号ベクトルx(j−1)の対応する係数によって乗算され、ここで、h(0)の値は、h(0)=g(j−2)であり、h(L−1)の値は、h(L−1)=g(j−1)である。したがって、遷移関数は、図8の例に示されているように、利得値g(j−2)から利得値g(j−1)に連続的にフェードする。これは、遷移関数h(j)、h(j−1)、およびh(j−2)からの利得値を示しており、この遷移関数は3つの連続するブロックに対する対応する信号ベクトルx(j)、x(j−1)、およびx(j−2)に対して適用される。ダウンストリームの知覚符号化に関して、利点は、ブロック境界で適用される利得が連続していることである。遷移関数h(j−1)は、x(j−1)の係数の利得をg(j−2)からg(j−1)に連続的にフェードさせる。 復号器または受信器側での適応的な非正規化処理が図6に示されている。入力値は、PCM符号化され正規化された信号x”(j−1)、適切な冪指数en(j−1)、およびすぐ前のブロックの利得値g(j−2)である。すぐ前のブロックの利得値g(j−2)は、再帰的に算出される。ここで、g(j−2)は、符号化器に使用されている所定の値によって初期化されなければならない。出力は、ステップ/ステージ61からの利得値g(j−1)およびステップ/ステージ62からの非正規化された信号

である。 ステップまたはステージ61において、冪指数を遷移関数に適用する。x(j−1)の値の範囲を復元するために、式(11)は、受信した冪指数e(j−1)および再帰的に算出された利得g(j−2)から遷移ベクトルh(j−1)を算出する。次のブロックの処理のための利得g(j−1)は、h(L−1)に設定される。
ステップまたはステージ62において、逆利得(利得の逆数)が適用される。正規化処理で適用された振幅変調は、
によって逆処理される。ここで、

であり、
は、符号化器側または送信機側で使用されているベクトル要素単位の乗算である。x’(j−1)のサンプルは、x”(j−1)の入力PCMフォーマットによって表現することができず、非正規化は、例えば浮動小数点フォーマットのように、より広い値の範囲のフォーマットへの変換を必要とする。 副情報送信に関して、冪指数e(j−1)の送信に対して、同一の値の範囲の連続するブロックに対して、適用される正規化利得は一定となるだろうから、その確率が一様になると仮定することはできない。したがって、エントロピー符号化は、例えば、ハフマン符号化と同様に、必要なデータ・レートを減少させるために、冪指数値に適用することができる。
上記処理の1つの欠点は、利得値g(j−2)の再帰的な算出であろう。そのため、非正規化処理はHOAストリームの最初からしか開始することができない。
この問題の1つの解決法は、g(j−2)を規則的に算出するための情報を提供するために、アクセス・ユニットをHOAフォーマットに追加することである。この場合、アクセス・ユニットは、t番目のブロック毎に

が算出されて非正規化が開始されるように、t番目のブロック毎に冪指数
を提供しなければならない。 正規化された信号x’(j−1)の知覚符号化処理への影響は、hn(l)の周波数応答
の絶対値によって分析される。周波数応答は、式(15)によって示されているような、hn(l)の高速フーリエ変換(FFT)によって定義される。
図7は、振幅変調によって導入されるスペクトル変形を明確にするために、マグニチュードが(0dBに)正規化されたFFTスペクトルHn(u)を示している。|Hn(u)|の減衰は、小さな冪指数では比較的に急激であり、冪指数が大きくなるほど平坦になる。
時間領域におけるhn(l)によるx(j−1)の振幅変調は、周波数領域におけるHn(u)による畳み込みと同等であるため、周波数応答Hn(u)の急激な減衰により、x’ n(j−1)のFFTスペクトルの隣接するサブバンド間のクロストークが低減する。これは、x’n(j−1)の後続する知覚符号化処理に大いに関連がある。その理由は、サブバンド・クロストークが信号の推定された知覚的な特徴に影響を与えるからである。したがって、急激なH(u)の減衰に対し、非正規化された信号xn(j−1)に対してもまた、x’ n(j−1)に対する知覚符号化処理の仮定が有効である。
これは、小さな冪指数に対して、x’n(j−1)の知覚符号化処理がほぼx(j−1)の知覚符号化処理と同等であることと、さらに、正規化された信号の知覚符号化処理が、冪指数の大きさが小さい限り、非正規化された信号に対してほとんど影響を与えないことを示している。
本発明の処理は、送信側および受信側で単一のプロセッサまたは電子回路によって実行することができ、あるいは、並列に動作する、且つ/または、本発明の処理の複数の異なる部分に対して動作する、幾つかのプロセッサまたは電子回路によって実行することもできる。



  1. HOA信号の係数領域表現(d、D)から前記HOA信号の混合した空間/係数領域表現(d、w;D、W)を生成する方法であって、連続する係数フレーム内で前記HOA信号の数を経時的に可変とすることができ、
    −HOA係数領域信号のベクトル(d、D)を、ある定数(M)のHOA係数を有する係数領域信号の第1のベクトル(d、D)と、経時的に可変数(K)のHOA係数を有する係数領域信号の第2のベクトル(d、D)とに分離するステップ(20、30)と、
    −係数領域信号の前記第1のベクトル(d、D)を、変換行列(Ψ)の逆行列(Ψ−1)で乗算することによって、係数領域信号の前記第1のベクトルを空間領域信号の対応するベクトル(w、W)に変換するステップ(21、31)と、
    −空間領域信号の前記ベクトル(w、W)をPCM符号化してPCM符号化された空間領域信号のベクトル(w’、W’)を取得するステップ(22、32)と、
    −正規化因子
    によって係数領域信号の前記第2のベクトル(d、D)を正規化するステップ(26、36)であって、前記正規化は、係数領域信号の前記第2のベクトル(d、D)の前記HOA係数の現在の値の範囲に対して適応的な正規化であり、前記正規化において前記ベクトルのHOA係数に対して利用可能な値の範囲は超過することがなく、前記ベクトル内の利得を前の第2のベクトルにおける利得(gn(j−2))から後続する第2のベクトルにおける利得(gn(j−1))に連続的に変化させるために、前記正規化において、一様に連続する遷移関数(hn(j−1))が現在の第2のベクトル(xn(j−1))の係数に適用され、前記正規化は対応する復号器側の非正規化のための副情報(e)を提供する、前記ステップ(26、36)と、
    −正規化された係数領域信号の前記ベクトル(d’、D’)をPCM符号化してPCM符号化され正規化された係数領域信号のベクトル(d”、D”)を取得するステップ(27、37)と、
    −PCM符号化された空間領域信号の前記ベクトル(w’、W’)とPCM符号化され正規化された係数領域信号の前記ベクトル(d”、D”)とを多重化するステップ(23、33)と、
    を含むことを特徴とする、前記方法。

  2. HOA信号の係数領域表現(d、D)から前記HOA信号の混合した空間/係数領域表現(d、w;D、W)を生成する装置であって、連続する係数フレーム内で前記HOA信号の数を経時的に可変とすることができ、当該装置は、
    −HOA係数領域信号のベクトル(d、D)を、ある定数(M)のHOA係数を有する係数領域信号の第1のベクトル(d、D)と、経時的に可変数(K)のHOA係数を有する係数領域信号の第2のベクトル(d、D)とに分離するように構成された手段(20、30)と、
    −係数領域信号の前記第1のベクトル(d、D)を、変換行列(Ψ)の逆行列(Ψ−1)で乗算することによって、係数領域信号の前記第1のベクトルを空間領域信号の対応するベクトル(w、W)に変換するように構成された手段(21、31)と、
    −空間領域信号の前記ベクトル(w、W)をPCM符号化してPCM符号化された空間領域信号のベクトル(w’、W’)を取得するように構成された手段(22、32)と、
    −正規化因子
    によって係数領域信号の前記第2のベクトル(d、D)を正規化するように構成された手段(26、36)であって、前記正規化は、係数領域信号の前記第2のベクトル(d、D)の前記HOA係数の現在の値の範囲に対して適応的な正規化であり、前記正規化において前記ベクトルのHOA係数に対する利用可能な値の範囲は超過することがなく、前記ベクトル内の利得を前の第2のベクトルにおける利得(gn(j−2))から後続する第2のベクトルにおける利得(gn(j−1))に連続的に変化させるために、前記正規化において、一様に連続する遷移関数(hn(j−1))が現在の第2のベクトル(xn(j−1))の係数に適用され、前記正規化は対応する復号器側の非正規化のための副情報(e)を提供する、前記手段(26、36)と、
    −正規化された係数領域信号の前記ベクトル(d’、D’)をPCM符号化してPCM符号化され正規化された係数領域信号のベクトル(d”、D”)を取得するように構成された手段(27、37)と、
    −PCM符号化された空間領域信号の前記ベクトル(w’、W’)とPCM符号化され正規化された係数領域信号の前記ベクトル(d”、D”)とを多重化するように構成された手段(23、33)と、
    を備える、前記装置。

  3. 前記正規化は、
    −現在の第2のベクトル(D、xn(j))の各係数を前の第2のベクトル(xn(j−1))の正規化処理から保持された利得値(gn(j−2))と乗算すること(41)と、
    −結果として得られた前記正規化された第2のベクトルから前記絶対値の最大値(xn,max)を求めること(42)と、
    −前記最大値(xn,max)に時間的なスムージングを適用すること(43)であって、該適用は前の該スムージング済みの最大値(xn,max,sm(j−2))を受信する再帰的フィルタを使用することによって行い、その結果現在の時間的なスムージング済みの最大値(xn,max,sm(j−1))を得て、前記時間的なスムージングは、前記最大値(xn,max)が所定の値の範囲にある場合にのみ適用され、前記最大値(xn,max)が所定の値の範囲にない場合には、前記最大値(xn,max)がそのまま取得される、前記時間的なスムージングを適用すること(43)と、
    −前記現在の時間的なスムージング済みの最大値(xn,max,sm(j−1))から「2」を底とする冪指数として正規化利得を算出すること(44)によって、量子化された冪指数値(en(j−1))を取得することと、
    −前記量子化された冪指数値(en(j−1))を遷移関数(hn(j−1))に適用すること(45)によって現在の利得値(gn(j−1))を取得することであって、前記遷移関数は、前記前の利得値(gn(j−2))から前記現在の利得値(gn(j−1))への連続的な遷移に使用される、前記適用することと、
    −前記遷移関数(hn(j−1))によって前の第2のベクトル(xn(j−1))の各係数を重み付けすること(46)によって、係数領域信号の前記正規化された第2のベクトル(D’2)を取得することと、
    を含む、請求項1に記載の方法または請求項2に記載の装置。

  4. 前記現在の時間的なスムージング済みの最大値(xn,max,sm(j−1))が下記の式によって算出され、
    n,maxは前記最大値を示し、0<a≦1は減衰定数であり、jは、HOA信号ベクトルの入力行列の連続するインデックスである、請求項3に記載の方法または請求項3に記載の装置。

  5. 前記多重化された(23、33)HOA信号は知覚符号化される、請求項1または3または4に記載の方法、または請求項2〜4のいずれか1項に記載の装置。

  6. 符号化されたHOA信号の混合した空間/係数領域表現(d、w;D、W)を復号する方法であって、連続する係数フレーム内で前記HOA信号の数を経時的に可変とすることができ、符号化されたHOA信号の前記混合した空間/係数領域表現(d、w;D、W)は請求項1に従って生成されており、当該復号方法は、
    −PCM符号化された空間領域信号(w’、W’)とPCM符号化され正規化された係数領域信号(d”、D”)との前記多重化されたベクトルを逆多重化するステップ(24、34)と、
    −PCM符号化された空間領域信号の前記ベクトル(w’、W’)を前記変換行列(Ψ)と乗算することによってPCM符号化された空間領域信号の前記ベクトル(w’、W’)を係数領域信号の対応するベクトル(d’1、D’1)に変換するステップ(25、35)と、
    −PCM符号化され正規化された係数領域信号の前記ベクトル(d”、D”)を非正規化するステップ(28、38)であって、当該非正規化は、
    −−受信された前記副情報(e)の対応する冪指数en(j−1)および再帰的に算出された利得値gn(j−2)を使用して、遷移ベクトルhn(j−1)を算出すること(61)であって、処理されるPCM符号化され正規化された係数領域信号の後続するベクトル(D”)の対応する処理に対する利得値gn(j−1)が保持され、jはHOA信号ベクトルの入力行列の連続するインデックスである、前記遷移ベクトルを算出すること(61)と、
    −−PCM符号化され正規化された信号の現在のベクトル(x”(j−1)、D”)に対して対応する逆利得値を適用して前記PCM符号化され非正規化された信号の対応するベクトル
    を取得すること(62)と、
    を含む、前記非正規化するステップと、
    −係数領域信号の前記ベクトル(d’1、D’1)および非正規化された係数領域のベクトル
    を合成して可変数のHOA係数を有することができるHOA係数領域信号の結合されたベクトル(d’、D’)を取得するステップ(29、39)と、
    を含む、前記方法。

  7. 符号化されたHOA信号の混合した空間/係数領域表現(d、w;D、W)を復号する装置であって、連続する係数フレーム内で前記HOA信号の数を経時的に可変とすることができ、符号化されたHOA信号の前記混合した空間/係数領域表現(d、w;D、W)は請求項1に従って生成されており、前記復号装置は、
    −PCM符号化された空間領域信号(w’、W’)とPCM符号化され正規化された係数領域信号(d”、D”)との前記多重化されたベクトルを逆多重化するように構成された手段(24、34)と、
    −PCM符号化された空間領域信号の前記ベクトル(w’、W’)を前記変換行列(Ψ)と乗算することによってPCM符号化された空間領域信号の前記ベクトル(w’、W’)を係数領域信号の対応するベクトル(d’1、D’1)に変換するように構成された手段(25、35)と、
    −PCM符号化され正規化された係数領域信号の前記ベクトル(d”、D”)を非正規化するように構成された手段(28、38)であって、当該非正規化は、
    −−受信された前記副情報(e)の対応する冪指数en(j−1)および再帰的に算出された利得値gn(j−2)を使用して、遷移ベクトルhn(j−1)を算出すること(61)であって、処理されるPCM符号化され正規化された係数領域信号の後続するベクトル(D”)の対応する処理に対する利得値gn(j−1)が保持され、jはHOA信号ベクトルの入力行列の連続するインデックスである、前記遷移ベクトルを算出すること(61)と、
    −−PCM符号化され正規化された信号の現在のベクトル(x”(j−1)、D”)に対して対応する逆利得値を適用することによって、前記PCM符号化され非正規化された信号の対応するベクトル
    を取得すること(62)と、
    を含む、前記非正規化するように構成された手段と、
    −係数領域信号の前記ベクトル(d’1、D’1)および非正規化された係数領域のベクトル
    を合成して可変数のHOA係数を有することができるHOA係数領域信号の結合されたベクトル(d’、D’)を取得するように構成された手段(29、39)と、
    を備える、前記装置。

  8. 前記多重化(23、33)され知覚符号化されたHOA信号は、対応して、逆多重化される(24、34)前に知覚復号される、請求項6に記載の方法、または請求項7に記載の装置。

  9. 実行可能な命令を記憶した記憶媒体であって、該実行可能な命令は、実行された際にコンピュータに請求項6に記載の方法を実行させる、前記記憶媒体。

 

 

Patent trol of patentswamp
類似の特許
入力チャネル設定の複数の入力チャネルを出力チャネル設定の出力チャネルにマッピングする方法は前記複数の入力チャネルの各入力チャネルに関連付けされ、前記関連付けされた入力チャネルと出力チャネル群との間の異なるマッピングを定義する規則セットを提供する。前記複数の入力チャネルにおける各入力チャネルに対して、当該入力チャネルに関連付けされた規則を参照し、前記参照した規則において定義される前記出力チャネル群が前記出力チャネル設定に存在するか決定し、前記参照した規則において定義されている前記出力チャネル群が出力チャネル設定に存在する場合、前記参照した規則を選択する。前記選択した規則に応じて前記入力チャネルを前記出力チャネルにマッピングする。
入力チャネル設定の第1の入力チャネル及び第2の入力チャネルを出力チャネル設定の少なくとも1個の出力チャネルにマッピングするための装置であって、各入力チャネル及び各出力チャネルは対応するラウドスピーカが中央のリスナー位置に対して配置される方向を有し、前記装置は前記第1の入力チャネルを前記出力チャネル設定の第1の出力チャネルにマッピングする。前記装置は、更に、少なくともa)前記第2の入力チャネルを前記第1の出力チャネルにマッピングし、前記マッピングは少なくとも1個の等化フィルタ及び非相関フィルタを前記第2の入力チャネルに適用することにより前記第2の入力チャネルを処理するステップを備え、及び/又はb)前記第2の入力チャネルの方向と前記第1の出力チャネルの方向との間の角度差が、前記第2の入力チャネルの方向と前記第2の出力チャネルとの間の角度差より少ない、及び/又は前記第2の入力チャネルの方向と前記第3の出力チャネルの方向との間の角度差より少ないことに関わらず、前記第2の出力チャネルと前記第3の出力チャネルとの間のパニングにより、前記第2の入力チャネルを前記第2の出力チャネル及び前記第3の出力チャネルにマッピングするよう構成される装置を提供する。
1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、出力チャンネルミキシング情報を算出するパラメータプロセッサ(110)と、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(120)とを備える。ダウンミックスプロセッサ(120)は1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されており、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされている。オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則に依存する。第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示す。さらに、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。パラメータプロセッサ(110)は第2のミキシング規則に関する情報を受信するように構成されており、第2のミキシング規則に関する情報は1つ以上のオーディオトランスポートチャンネルが得られるように複数のプリミックスされた信号を混合する方法を示す。さらに、パラメータプロセッサ(110)は、2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するように構成されている。ダウンミックスプロセッサ(120)は、出力チャンネルミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
【選択図】図1
本発明の実施形態は適応的なオーディオ・コンテンツ生成に関する。具体的には、適応的なオーディオ・コンテンツを生成するための方法が提供される。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出し、少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成することを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。
本開示は、オーディオ符号化システムにおいてパラメータのベクトルをエンコードおよびデコードするための方法、装置およびコンピュータ・プログラム・プロダクトを提供する。本開示はさらに、オーディオ・デコード・システムにおいてオーディオ・オブジェクトを再構成するための方法および装置に関する。本開示によれば、非周期的な量のベクトルの符号化およびエンコードのためのモジュロ差分アプローチが、符号化効率を改善するとともにエンコーダおよびデコーダに低減されたメモリ要求を提供しうる。さらに、疎な行列をエンコードおよびデコードするための効率的な方法が提供される。
少なくとも1個の周波数帯(36)を有し、少なくとも1個の周波数帯(36)において複数の入力チャネル(38)を有する入力音声信号(37)を処理するよう構成される音声信号処理デコーダであって、デコーダ(2)は、入力音声信号(37)を分析するよう構成され、入力チャネル(38)間のチャネル間依存性(39)が特定され、デコーダ(2)は、特定されたチャネル間依存性(39)に応じて入力チャネル(38)の位相をアライメントするよう構成され、入力チャネル(38)の位相はそのチャネル間依存性(39)が高いほど相互に対してよりアライメントされ、デコーダ(2)は、アライメントされた入力音声信号を、入力チャネル(38)の数より少ない数の出力チャネル(41)を有する出力音声信号(40)にダウンミックスするよう構成される。
【選択図】図1
オーディオ入力データ(101)を符号化してオーディオ出力データ(501)を取得するオーディオ符号器は、複数のオーディオチャネルと複数のオーディオオブジェクトと前記複数のオーディオオブジェクトの1つ以上に関連するメタデータとを受信する入力インターフェイス(100)と、前記複数のオブジェクトと前記複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー(200)であって、各プレミクスされたチャネルは1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む、ミキサー(200)と、コア符号器入力データをコア符号化するコア符号器(300)と、前記複数のオーディオオブジェクトの1つ以上に関連する前記メタデータを圧縮するメタデータ圧縮部(400)とを備える。前記オーディオ符号器は、前記コア符号器がコア符号器入力データとして前記入力インターフェイスにより受信された前記複数のオーディオチャネルと前記複数のオーディオオブジェクトとを符号化する第1モードと、前記コア符号器(300)が前記コア符号器入力データとして前記ミキサー(200)により生成された前記複数のプレミクス済みチャネルを受信する第2モードとを含む、少なくとも2つのモードからなる1クループの両モードにおいて作動するよう構成されている。
【選択図】 図1
1つ以上のオーディオチャネルを生成する装置(100)が提供される。この装置は、制御信号に依存して1つ以上の処理済みメタデータ信号から1つ以上の再生メタデータ信号を生成するメタデータ復号器(110)であって、1つ以上の再生メタデータ信号の各々は1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、1つ以上の再生メタデータ信号の各々について複数の再生メタデータサンプルを決定することにより1つ以上の再生メタデータ信号を生成する、メタデータ復号器(110)を備える。さらにこの装置は、1つ以上のオーディオオブジェクト信号と1つ以上の再生メタデータ信号とに依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部(120)を備える。メタデータ復号器(110)は、1つ以上の処理済みメタデータ信号の各々の複数の処理済みメタデータサンプルと、制御信号とを受信する。さらに、メタデータ復号器(110)は、1つ以上の再生メタデータ信号の各再生メタデータ信号の複数の再生メタデータサンプルの各再生メタデータサンプルを、制御信号が第1状態=0)を示すときには、再生メタデータサンプルが1つ以上の処理済みメタデータ信号の1つにおける処理済みメタデータサンプルの1つと再生メタデータ信号の他の1つの既に生成された再生メタデータサンプルとの合計であり、制御信号が第1状態とは異なる第2状態=1)を示すときには、再生メタデータサンプルが1つ以上の処理済みメタデータ信号の1つにおける処理済みメタデータサンプルの1つであるように、決定する。
【選択図】 図1
オブジェクト・ベース・オーディオのエンコードおよびデコードのためのエンコード方法およびデコード方法が提供される。例示的なエンコード方法は、なかんづく、m≦nであるとして、n個のオーディオ・オブジェクトの組み合わせを形成することによってm個のダウンミックス信号を計算する段階と;前記m個のダウンミックス信号からの、前記n個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを計算する段階とを含む。前記m個のダウンミックス信号の計算は、いかなるラウドスピーカー配位とも独立な基準に従ってなされる。
低周波数オーディオ・データを処理するための改善された方法および装置が提供される。ベース抽出プロセスは、受領されたオーディオ・オブジェクト信号に低域通過フィルタを適用して、抽出された低周波数オーディオ信号を生成することに関わる。ベース抽出プロセスは、オーディオ・オブジェクトをスピーカー・フィード信号にレンダリングするプロセスに先立って実行されてもよい。ベース管理プロセスは、抽出された低周波数オーディオ信号を、低周波数オーディオ信号を再生できる一つまたは複数のスピーカーにルーティングすることに関わってもよい。
To top