マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現

著者らは特許

G10L19/008 - マルチチャネルオーディオ信号の符号化及び復号化,チャネル間の関係を使用して冗長性を減少させるもの,例.ジョイントステレオ,インテンシティ符号化又はマトリキシング
H04S - ステレオ方式
H04S3/00 - 3チャンネル以上,例.4チャンネル,を用いる方式,(H04S5/00,H04S7/00が優先)
H04S3/02 - マトリクス形式,すなわち.入力信号が代数学的に組み合わされるもの,例.互いに関して位相推移がなされた後組み合わされるもの

の所有者の特許 JP2016528811:

フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ

 

符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づいて、符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするように構成される。マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するように構成され、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するように構成される。マルチチャネル・オーディオ・エンコーダは、オーディオ・デコーダを制御するための非相関化方法パラメータを供給する。
【選択図】図1

 

 

本発明による実施の形態は、符号化表現に基づいて、少なくとも2つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダに関する。
本発明による更なる実施の形態は、少なくとも2つの入力オーディオ信号に基づいて、符号化表現を供給するためのマルチチャネル・オーディオ・エンコーダに関する。
本発明による更なる実施の形態は、符号化表現に基づいて、少なくとも2つの出力オーディオ信号を供給するための方法に関する。
本発明による更なる実施の形態は、少なくとも2つの入力オーディオ信号に基づいて、符号化表現を供給するための方法に関する。
本発明による更なる実施の形態は、前記方法のうちの1つを実行するためのコンピュータ・プログラムに関する。
本発明による更なる実施の形態は、符号化オーディオ表現に関する。
一般的に言って、本発明による実施の形態は、マルチチャネル・ダウンミックス/アップミックスパラメトリックオーディオ・オブジェクト符号化システムのための非相関化コンセプトに関する。
近年、オーディオ・コンテンツの記憶および送信の需要は、着実に増加した。さらに、オーディオ・コンテンツの記憶および送信のための良質な要件も、着実に増加した。従って、オーディオ・コンテンツの符号化および復号化のためのコンセプトは、強化されている。
例えば、いわゆる、開発された「先進的音響符号化(Advanced Audio Coding(AAC))」は、国際標準ISO/IEC 13818−7:2003において記述されている。さらに、例えば、国際標準ISO/IEC 23003−1:2007において、例えば、記述された、いわゆる「MPEGサラウンド」のように、いくつかの空間的な拡張が作成された。さらに、オーディオ信号の空間的な情報の符号化および復号化のためのさらなる改良が、いわゆる「空間オーディオ・オブジェクト符号化(Spatial Audio Object Coding)」に関する国際標準ISO/IEC 23003−2:2010において記述される。
さらに、良好な符号化効率を有する一般のオーディオ信号およびスピーチ信号の両方の符号化して、マルチチャネル・オーディオ信号を扱うという可能性を提供する切り替え可能なオーディオ符号化/復号化のコンセプトは、いわゆる「統一のスピーチおよびオーディオ符号化(Unified Speech and Audio Object Coding)」に関する国際標準ISO/IEC23003−3:2012において記述される。
さらに、更なる従来の概念が、本記述の最後において言及される参考文献において記述される。
国際公開第2006/026452号
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[Blauert]J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997.
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.
[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.
[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.
[OCD] J. Vilkamo, T. Baeckstroem, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

しかしながら、3次元オーディオ場面の効果的な符号化および復号化のためのさらなる進歩的な概念を提供することが切望されている。
本発明による実施の形態は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダをもたらす。マルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づいて、符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするように構成される。マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するように構成される。さらに、マルチチャネル・オーディオ・デコーダは、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号を結合するように構成される。
本発明による実施の形態は、オーディオ品質が、複数の復号化オーディオ信号に基づいて得られるレンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出することによって、および、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合することによって、マルチチャネル・オーディオ・デコーダにおいて改良されうるという知見に基づく。レンダリングの前、またはレンダリングの間に追加の非相関化信号と比較した場合、レンダリングの後、追加の非相関化信号によって出力オーディオ信号の相関特性または共分散特性を調整することがより効率的であることが分かっている。非相関化が、レンダリングの前またはレンダリングの間に実行された場合、より非相関器が必要とされるので、レンダリングされたオーディオ信号よりもレンダリングに入力される復号化オーディオ信号がある一般のケースにおいて、このコンセプトはより効率的であることが分かっている。さらに、レンダリングは、典型的には、復号化オーディオ信号の結合をもたらすので、非相関化信号は、レンダリングの前に復号化オーディオ信号を追加する場合に、アーティファクトが供給されることが分かっている。従って、本発明の本実施の形態による概念は、非相関化信号が、レンダリングの前に追加されるという点で、従来のアプローチより優れている。例えば、レンダリングされた信号の所望の相関特性または共分散特性を直接的に推定し、実際にレンダリングされた信号に非相関化オーディオ信号の供給を適応させることが可能である。そして、それは、効率とオーディオ品質との間のより良好なトレードオフを結果として得て、同時に、しばしば増加した効率およびより良好な品質を結果として得る。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、パラメトリック再構成を使用して複数のレンダリングされたオーディオ信号を得るためにレンダリングされる復号化オーディオ信号を得るように構成される。本発明による概念は、オーディオ信号のパラメトリック再構成と結合して効果をもたらすことが分かっており、ここで、例えば、パラメトリック再構成は、オブジェクト信号を記述しているサイド情報および/またはオブジェクト信号の間の関係に基づいている(オブジェクト信号は、復号化オーディオ信号を構成しうる。)。例えば、この種のコンセプトにおける比較的かなりの数のオブジェクト信号(復号化オーディオ信号)があり、レンダリングされたオーディオ信号に基づいて非相関化のアプリケーションが特に効率的であり、この種のシナリオにおいて、アーティファクトを回避することが分かっている。
好ましい実施の形態において、復号化オーディオ信号は、再構成オブジェクト信号(例えば、パラメータ的に再構成されたオブジェクト信号)であり、そして、マルチチャネル・オーディオ・デコーダは、サイド情報を使用して1つ以上のダウンミックス信号から再構成オブジェクト信号を導出するように構成される。従って、レンダリングされたオーディオ信号または出力オーディオ信号の数よりも多い比較的かなりの数の再構成オブジェクト信号がある場合であっても、レンダリングされたオーディオ信号に基づくレンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号との結合は、出力オーディオ信号における相関特性または共分散特性の効果的な再構成を許容する。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、サイド情報からアンミキシング係数を導出し、アンミキシング係数を使用して1つ以上のダウンミックス信号から(パラメータ的に)再構成オブジェクト信号を導出するために、アンミキシング係数を適用するように構成される。従って、レンダリングのための入力信号は、オブジェクトに関連したサイド情報(例えば、オブジェクト間の相関情報またはオブジェクト・レベル差情報のように、その結果が、絶対のエネルギーを使用することによって得られる)であるサイド情報から導出される。
好ましい実施の形態において、出力オーディオ信号の所望の相関特性または共分散特性を少なくとも部分的に獲得するために、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号とを結合するように構成されうる。レンダリングされたオーディオ信号から導出される、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号との結合は、所望の相関特性または共分散特性の調整(または再構成)を許容することが分かっている。さらに、聴覚器官印象に対して、出力オーディオ信号における適当な相関特性または共分散特性を有することが重要であり、そして、これが非相関化オーディオ信号を使用してレンダリングされたオーディオ信号を修正することによって最も達成されうることが分かっている。例えば、レンダリングされたオーディオ信号とレンダリングされたオーディオ信号に基づく非相関化オーディオ信号とを結合する場合、以前の処理ステージにおいて生じる如何なる低下も考慮されうる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号を得るためにレンダリングされる復号化オーディオ信号のパラメトリック再構成の間におけるエネルギー損失を少なくとも部分的に補償するために、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号とを結合するように構成される。非相関化オーディオ信号のポストレンダリングアプリケーションは、例えば、復号化オーディオ信号のパラメトリック再構成によってレンダリング前の処理によって生じる信号欠損を修正することを許容することが分かっている。従って、それは高い精度を伴って、レンダリングに入力される復号化オーディオ信号の相関特性または共分散特性を再構成する必要がない。これは、復号化オーディオ信号の再構成を単純化し、そして、したがって、高効率をもたらす。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、出力オーディオ信号の所望の相関特性または共分散特性を決定するように構成される。さらに、マルチチャネル・オーディオ・デコーダは、得られた出力オーディオ信号の相関特性または共分散特性が所望の相関特性または共分散特性に近似するか、または等しいように、出力オーディオ信号を得るために、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号とを結合を調整するように構成される。レンダリングされたオーディオ信号と非相関化オーディオ信号との結合の後に到達される出力オーディオ信号の所望の相関特性または共分散特性を算出(または決定)することによって、次々に比較的正確な再構成を許容する、処理の遅いステージで相関特性または共分散特性を調整することは可能である。従って、出力オーディオ信号の空間的な聴取印象は、所望の聴取印象によく適応される。
好ましい実施の形態において、複数のレンダリングされたオーディオ信号を得るために、符号化表現に基づいて得られる複数の復号化オーディオ信号のレンダリングを記述しているレンダリング情報に基づいて、所望の相関特性または所望の共分散特性を決定するように構成される。所望の相関特性または所望の共分散特性の決定におけるレンダリング処理を考慮することによって、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号との結合を調整するための正確な情報を獲得することは可能である。そして、それは、所望の聴取印象にマッチする出力オーディオ信号を有する可能性をもたらす。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、複数のオーディオ・オブジェクトの特性および/または複数のオーディオ・オブジェクトの間の関係を記載しているオブジェクト相関情報またはオブジェクト共分散情報に基づいて、所望の相関特性または所望の共分散特性を決定するように構成される。従って、処理の後、すなわち、レンダリングの後、オーディオ・オブジェクトに適応される相関特性または共分散特性を復元することが可能である。従って、オーディオ・オブジェクトを復号化するための複雑さが低減される。さらに、レンダリングの後のオーディオ・オブジェクトの相関特性または共分散特性を考慮することによって、レンダリングの有害な影響が回避されえ、相関特性または共分散特性は、良好な精度で再構成される。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、符号化表現に含まれるサイド情報に基づいて、オブジェクト相関情報またはオブジェクト共分散情報を決定するように構成される。従って、コンセプトは、サイド情報を使用する空間的なオーディオ・オブジェクト符号化アプローチに良好に適している。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号の現実の相関特性または共分散特性に基づいて、出力オーディオ信号を得るために、レンダリングされたオーディオ信号の現実の相関特性または共分散特性を決定し、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号との結合を調整するように構成される。従って、オーディオ・オブジェクトを再構成するか、またはレンダリングによって欠損が生じた場合、例えば、エネルギー損失のような初期の処理ステージにおいて欠損が渡されうる。このように、現実のレンダリングされたオーディオ信号と非相関化オーディオ信号との結合が所望の特性を結果として得られるように、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号との結合は、ニーズに非常に正確な方法で調整されうる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号とを結合するように構成され、ここで、レンダリングされたオーディオ信号は、第1の混合行列Pを使用して重み付けされ、1つ以上の非相関化オーディオ信号は、第2の混合行列Mを使用して重み付けされる。これは、レンダリングされたオーディオ信号に適用される混合行列Pによって記述され、1つ以上の非相関化オーディオ信号に適用される混合行列Mによって記述される一次結合が実行される。
好ましい実施の形態において、得られた出力オーディオ信号の相関特性または共分散特性が所望の相関特性または所望の共分散特性と近似するかまたは等しくなるように、マルチチャネル・オーディオ・デコーダは、混合行列Pおよび混合行列Mの少なくとも1つを調整するように構成される。このように、適度な効率および良好な結果を典型的に可能である1つ以上の混合行列を調整する方法がある。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、混合行列Pおよび混合行列Mを一緒に算出するように構成される。従って、得られた出力オーディオ信号の相関特性または共分散特性が所望の相関特性または所望の共分散特性と近似するかまたは等しくなりうるように混合行列を得ることができる。さらに、混合行列Pおよび混合行列Mを一緒に算出した場合、混合行列Pと混合行列Mを前提条件に適合されることが可能であるように、いくつかの自由度は典型的に利用できる。
好ましい実施の形態において、得られた出力オーディオ信号の共分散行列が所望の共分散行列に等しくなるように、マルチチャネル・オーディオ・デコーダは、混合行列Pおよび混合行列Mを含む結合混合行列Fを得るように構成される。
好ましい実施の形態において、結合混合行列は、以下に示される式に従って算出されうる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号および非相関化オーディオ信号を記述する第1の共分散行列と、出力オーディオ信号の所望の共分散特性を記述する第2の共分散行列との特異値分解を使用して決定される行列を使用して、結合混合行列Fを決定するように構成される。この種の特異値分解を使用することが、結合混合行列を決定する数値的に効率的な解決案を構成する。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、単位行列またはその倍数である混合行列Pを設定し、混合行列Mを算出するように構成される。これは、所望の空間印象を保存するのを助ける異なるレンダリングされたオーディオ信号の混合を回避する。さらに、自由度の数が低減される。
好ましい実施の形態において、所望の共分散行列とレンダリングされたオーディオ信号の共分散行列との間の差が、混合行列Mを混合した後、1つ以上の非相関化信号の共分散と近似するかまたは等しくなるように、マルチチャネル・オーディオ・デコーダは、混合行列Mを決定するように構成される。このように、混合行列Mを得るための計算的にシンプルなコンセプトが与えられる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、所望の共分散行列とレンダリングされたオーディオ信号の共分散行列との差と、1つ以上の非相関化信号の共分散行列との特異値分解を使用して決定される行列を使用して混合行列Mを決定するように構成される。これは、混合行列Mを決定するために計算的に非常に効率的な方法である。
好ましい実施の形態において、所与のレンダリングされたオーディオ信号は、所与のレンダリングされたオーディオ信号自身の非相関化バージョンを混合されるだけの制約のもと、マルチチャネル・オーディオ・デコーダは、混合行列P,Mを決定するように構成される。このコンセプトは、小さい改善(例えば、不完全な非相関化がある場合)に制限し、または相互相関特性もしくは相互共分散特性(例えば、理想的な非相関化がある場合)を防ぎ、そして、従って、認められたオブジェクトポジションの変化を回避するために、場合によっては、価値がある。しかしながら、非理想的な非相関化がある場合には、自己相関値(または自己共分散値)が明確に修正され、そして、交差項における変化は無視される。
好ましい実施の形態において、相互相関特性または相互共分散特性が小さい値(例えば、不完全な非相関化がある場合)によって変更されないままかまたは修正されるとともに、レンダリングされたオーディオ信号の自己相関値または自己共分散値のみが修正されるように、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号とを結合するように構成される。また、オーディオ・オブジェクトの認められた位置の劣化が回避されうる。さらに、複雑な計算量が低減されうる。しかしながら、例えば、自己共分散値がエネルギー(自己相関値)の修正の結果として修正される一方、相互相関値は、修正されないままである(それらは、相互共分散値の規格化されたバージョンを表わす)。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、単位行列またはその倍数である混合行列Pを設定し、Mが対角行列であるという制約のもと、混合行列Mを算出するように構成される。このように、相互相関特性または相互共分散特性の修正は、回避されうるか、または小さい値(例えば、不完全な非相関化がある場合)に制限されうる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、出力オーディオ信号を得るために、レンダリングされたオーディオ信号と1つ以上の非相関化オーディオ信号とを結合するように構成され、ここで、対角行列Mは、1つ以上の非相関化オーディオ信号Wに適用される。この場合、出力オーディオ信号の共分散行列の対角要素が所望のエネルギーに等しいように、マルチチャネル・オーディオ・デコーダは、混合行列Mの対角要素を算出するように構成される。従って、レンダリング処理によって、および/または1つ以上のダウンミックス信号および空間サイド情報に基づくオーディオ・オブジェクトの再構成によって、得られうるエネルギー損失が、補償されうる。このように、出力オーディオ信号の適当な強度が獲得される。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、所望の共分散行列の対角要素、レンダリングされたオーディオ信号の共分散行列の対角要素、および1つ以上の非相関化信号の共分散行列の対角要素に基づいて、混合行列Mの要素を算出するように構成されうる。混合行列Mの対角要素でない要素は、ゼロに設定され、所望の共分散行列は、レンダリング処理およびオブジェクト共分散行列に対して使用されるレンダリング行列に基づいて算出されうる。さらにまた、閾値は、信号に追加される非相関化の量を制限するために使用されうる。このコンセプトは、混合行列Mの要素の非常に計算的に効果的な決定を提供する。
好ましい実施の形態において、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するための方法を決定する場合、非相関化されたオーディオ信号の相関特性または共分散特性を考慮するように構成されうる。従って、非相関化の欠損が考慮されうる。
好ましい実施の形態において、所与の出力オーディオ信号が、2つ以上のレンダリングされたオーディオ信号および少なくとも1つの非相関化オーディオ信号に基づいて供給されるように、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と非相関化オーディオ信号とを混合するように構成されうる。このコンセプトを使用することによって、相互相関特性は、(聴覚器官の空間印象を劣化させうる)大量の非相関化信号を導く必要なく、能率的に調整されうる。
好ましい実施の形態において、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するための方法を決定することを異なる制約が適用される場合において、マルチチャネル・オーディオ・デコーダは、異なるモードの間で切り替えるように構成されうる。従って、複雑さおよび処理の特徴が、処理される信号に調整されうる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第1のモード、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第2のモード、およびレンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化信号が、所与の非相関化信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第3のモード、の間で切り替えるために構成されうる。このように、複雑さおよび処理の特徴の両方が、現在のレンダリングされたオーディオ信号のタイプに調整されうる。オーディオ信号の空間の印象がこの種の修正によって劣化する場合、例えば、自己相関特性または自己共分散特性のみを修正し、明確に相互相関特性または相互共分散特性を修正することが有用でありうる。その一方で、にもかかわらず、出力オーディオ信号の強度を調整することは望ましい。一方、出力オーディオ信号の相互相関特性または相互共分散特性を調整することが望ましい場合がある。ここで、記載のマルチチャネル・オーディオ・デコーダは、この種の調整を許容する。ここで、第1のモードにおいて、相互相関特性または相互共分散特性を調整するために必要とされる非相関化信号の要素の量(または強度)が比較的小さいように、レンダリングされたオーディオ信号を結合することは可能である。このように、「ローカライザ可能な」信号要素は、相互相関特性または相互共分散特性を調整するために、第1のモードにおいて使用される。その一方、第2のモードにおいて、非相関化信号は、異なる聴取印象を自然にもたらす相互相関特性または相互共分散特性を調整するために使用される。従って、3つの異なるモードを提供することによって、オーディオ・デコーダは、扱っているオーディオ・コンテンツによく適応されうる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するための3つのモードを指し示す符号化表現のビットストリーム要素を評価し、そして、ビットストリーム要素に基づいてモードを選択するために構成される。したがって、オーディオ・エンコーダは、オーディオ・コンテンツのその情報に基づいて、適切なモードの信号を送信することができる。このように、出力オーディオ信号の最大の品質が、いかなる環境のもとでも達成されうる。
本発明による実施の形態は、少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給するためのマルチチャネル・オーディオ・エンコーダをもたらす。マルチチャネル・オーディオ・エンコーダは、少なくとも2つの入力オーディオ信号に基づき、1つ以上のダウンミックス信号を供給するように構成される。さらに、マルチチャネル・オーディオ・エンコーダは、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータを供給するように構成される。さらに、マルチチャネル・オーディオ・エンコーダは、オーディオ・エンコーダのサイドで使用されるべき複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するように構成される。従って、マルチチャネル・オーディオ・エンコーダは、現在の符号化されるオーディオ信号のタイプに良く適応される適切な非相関化モードを使用するようにオーディオ・デコーダを制御しうる。このように、ここで記載されるマルチチャネル・オーディオ・エンコーダは、以前議論されたマルチチャネル・オーディオ・デコーダと協調するためによく適応される。
好ましい実施の形態において、マルチチャネル・オーディオ・エンコーダは、非相関化方法パラメータを選択的に供給し、オーディオ・デコーダの処理のための、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第1のモード、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化オーディオ信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第2のモード、およびレンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化オーディオ信号が、所与の非相関化オーディオ信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第3のモード、である以上に示す3つのモードの1つの信号を送信するように構成される。このように、マルチチャネル・オーディオ・エンコーダは、オーディオ・コンテンツに基づいて、上記において議論された3つのモードを通してマルチチャネル・オーディオ・デコーダを切り替えることができ、ここで、マルチチャネル・オーディオ・デコーダが処理するモードは、現在の符号化されたオーディオ・コンテンツのタイプにマルチチャネル・オーディオ・エンコーダによってよく適応されうる。しかしながら、いくつかの実施の形態において、オーディオ・デコーダの処理のための上記の3つのモードの1つか2つのみが使用されうる(または利用されうる。)。
好ましい実施の形態において、マルチチャネル・オーディオ・エンコーダは、入力オーディオ信号が比較的高い相関か比較的低い相関を含むかどうかに基づいて、非相関化方法パラメータを選択するように構成される。このように、デコーダにおいて使用される非相関化の適応は、現在の符号化されるオーディオ信号の重要な特徴に基づいてなされうる。
好ましい実施の形態において、マルチチャネル・オーディオ・エンコーダは、入力オーディオ信号の間の相関または共分散が比較的高い場合、第1のモードまたは第2のモードを指定するための非相関化方法パラメータを選択し、入力オーディオ信号の間の相関または共分散が比較的低い場合、第3のモードを指定するための非相関化方法パラメータを選択するように構成される。従って、入力オーディオ信号の間の比較的小さい相関または共分散の場合において、相互共分散特性または相互相関特性の修正でない復号化モードが選択される。そのような信号は実質的に独立しているので、これは、相互相関または相互共分散の適応のための必要を取り除く、比較的低い相関(または共分散)を有する信号に大して効果的な選択であることが分かっている。むしろ、(比較的小さい相関または共分散を有する)実質的な独立入力オーディオ信号のための相互相関または相互共分散の調整は、典型的には、オーディオの品質を劣化させ、そして、同時に復号化の複雑さを増加させる。このように、このコンセプトは、マルチチャネル・オーディオ・エンコーダに入力される信号に、マルチチャネル・オーディオ・デコーダの合理的な適応を許容する。
本発明による実施の形態は、符号化表現に基づく少なくとも2つの出力オーディオ信号を供給するための方法をもたらす。方法は、複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づいて、符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするステップを含む。方法は、レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するステップと、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するステップも含む。この方法は、上記したマルチチャネル・オーディオ・デコーダと同じ考察に基づく。さらに、方法は、マルチチャネル・オーディオ・デコーダに関して上記について議論された特徴および機能のいずれかによって補充されることができる。
本発明による他の実施の形態は、少なくとも2つの入力オーディオ信号に基づく符号化表現を供給するための方法をもたらす。方法は、少なくとも2つの入力オーディオ信号に基づく1つ以上のダウンミックス信号を供給するステップと、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータを供給するステップと、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップと、を含む。この方法は、上記したマルチチャネル・オーディオ・エンコーダと同じ考察に基づく。さらに、方法は、マルチチャネル・オーディオ・エンコーダに関して本願明細書において議論された特徴および機能のいずれかによって補充されうる。
本発明による他の実施の形態は、上記の方法の1つ以上を実行するためのコンピュータ・プログラムをもたらす。
本発明による他の実施の形態は、ダウンミックス信号の符号化表現と、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現と、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータを含む。この符号化オーディオ表現は、適切な非相関化モードの信号を送信することを許容し、従って、マルチチャネル・オーディオ・エンコーダおよびマルチチャネル・オーディオ・デコーダに関して記載される効果を実装するのに役立つ。
本発明の好ましい実施の形態は、添付の図面に関してその後述べられる。
図1は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダのブロック概略図を示す。 図2は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダのブロック概略図を示す。 図3は、本発明の実施の形態による符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法のフローチャートを示す。 図4は、本発明の実施の形態による少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給するための方法のフローチャートを示す。 図5は、本発明の実施の形態による符号化オーディオ表現の概略図を示す。 図6は、本発明の実施の形態によるマルチチャネル非相関器のブロック概略図を示す。 図7は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダのブロック概略図を示す。 図8は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダのブロック概略図を示す。 図9は、本発明の実施の形態による複数の非相関化入力信号に基づいて複数の非相関化信号を供給するための方法のフローチャートを示す。 図10は、本発明の実施の形態による符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法のフローチャートを示す。 図11は、本発明の実施の形態による少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給するための方法のフローチャートを示す。 図12は、本発明の実施の形態による符号化表現の概略図を示す。 図13は、パラメトリックダウンミックス/アップミックスのコンセプトに基づくMMSEの概観を提供する概略図である。 図14は、3次元空間における直角原理のための幾何学的な表現を示す。 図15は、本発明の実施の形態によるレンダリングされた出力に適用される非相関化を伴うパラメトリック再構成システムのブロック概略図を示す。 図16は、非相関化装置のブロック概略図を示す。 図17は、本発明の実施の形態による低減された複雑さの非相関化装置のブロック概略図を示す。 図18は、本発明の実施の形態によるスピーカ位置のテーブル表現を示す。 図19aは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19bは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19cは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19dは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19eは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19fは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19gは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図20aは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図20bは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図20cは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図20dは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図21aは、N=8およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21bは、N=8およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21cは、N=8およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21dは、N=7およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21eは、N=7およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21fは、N=7およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図22aは、N=5およびK=3である係数のプレミキシングのテーブル表現を示す。 図22bは、N=5およびK=2であるプレミキシング係数のテーブル表現を示す。 図23は、N=2およびK=1であるプレミキシング係数のテーブル表現を示す。 図24は、チャネル信号のグループのテーブル表現を示す。 図25は、SAOCSpecifigConfig()の構文または同等のSAOC3DSpecificConfig()に含まれる付加的なパラメータの構文表現を示す。 図26は、ビットストリーム変数bsDecorrelationMethodのための異なる値のテーブル表現を示す。 図27は、ビットストリーム変数bsDecorrelationLevelによって指し示される異なる非相関化レベルおよび出力構成のための非相関器の数のテーブル表現を示す。 図28は、ブロック概略図の形式において、3Dオーディオ・エンコーダの上の概要を示す。 図29は、ブロック概略図の形式において、3Dオーディオ・デコーダの上の概要を示す。 図30は、フォーマット変換器の構造のブロック概略図を示す。 図31は、本発明の実施の形態によるダウンミックス・プロセッサのブロック概略図を示す。 図32は、SAOCダウンミックスオブジェクトの異なる数のための復号化モードのテーブル表現を示す。 図33a−1は、ビットストリーム要素「SAOC3DSpecificConfig」の構文表現を示す。 図33a−2は、ビットストリーム要素「SAOC3DSpecificConfig」の構文表現を示す。 図33bは、ビットストリーム要素「SAOC3DSpecificConfig」の構文表現を示す。
1.図1によるマルチチャネル・オーディオ・デコーダ
図1は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ100のブロック概略図を示す。
マルチチャネル・オーディオ・デコーダ100は、符号化表現110を受信して、それに基づいて、少なくとも2つの出力オーディオ信号112,114を供給するように構成される。
好ましくは、マルチチャネル・オーディオ・デコーダ100は、符号化表現110に基づいて復号化オーディオ信号122を供給するように構成されるデコーダ120を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、複数のレンダリングされたオーディオ信号134,136を得るために、1つ以上のレンダリング・パラメータ132に基づいて、(例えば、デコーダ120によって)符号化表現110に基づいて得られる複数の復号化オーディオ信号122をレンダリングするために構成されるレンダラ130を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、レンダリングされたオーディオ信号134,136から1つ以上の非相関化オーディオ信号142,144を導出するように構成される非相関器140を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、出力オーディオ信号112,114を得るために、レンダリングされたオーディオ信号134,136またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号142,144とを結合するように構成されるコンバイナ150を含む。
しかしながら、上記の機能が与えられる限り、マルチチャネル・オーディオ・デコーダ100の異なるハードウェア構成が可能である点に留意されたい。
マルチチャネル・オーディオ・デコーダ100の機能に関して、非相関化オーディオ信号142,144は、レンダリングされたオーディオ信号134,136から導出され、非相関化オーディオ信号142,144は、出力オーディオ信号112,114を得るために、レンダリングされたオーディオ信号134,136と結合される点に留意されたい。レンダリングされたオーディオ信号134,136から非相関化オーディオ信号142,144を導出することによって、レンダリングされたオーディオ信号134,136の数は、典型的には、レンダラ130に入力される復号化オーディオ信号122の数から独立しているので、特に効果的な処理が達成されうる。このように、典型的には、非相関化の効果は、実施効率を改良する復号化オーディオ信号122の数から独立している。さらに、レンダリングの後の非相関化を適用することは、非相関化がレンダリングの前に適用される場合において、複数の非相関化信号を結合する場合に、レンダラによって引き起こされるアーティファクトの導入を回避する。さらに、レンダリングされたオーディオ信号の特性は、典型的には、良好な品質の出力オーディオ信号を結果として得る非相関器140によって実行される非相関化において考慮されうる。
さらに、マルチチャネル・オーディオ・デコーダ100が、本願明細書において記載されている特徴および機能によって補充されうる点に留意されたい。特に、本願明細書において記載されるような個々の改良は、それによる処理の効率化および/または出力オーディオ信号の品質の改良のために、マルチチャネル・オーディオ・デコーダ100に導入されうる点に留意されたい。
2.図2によるマルチチャネル・オーディオ・エンコーダ
図2は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ200のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ200は、2つ以上の入力オーディオ信号210,212を受信し、それに基づいて符号化表現214を供給するように構成される。マルチチャネル・オーディオ・エンコーダは、少なくとも2つ以上の入力オーディオ信号210,212に基づいて、1つ以上のダウンミックス信号222を供給するように構成されるダウンミックス信号プロバイダ220を含む。さらに、マルチチャネル・オーディオ・エンコーダ200は、少なくとも2つの入力オーディオ信号210,214の間の関係(例えば、相互相関、相互共分散、レベル差等)を記述している1つ以上のパラメータ232を供給するように構成されるパラメータ・プロバイダ230を含む。
さらに、マルチチャネル・オーディオ・エンコーダ200は、オーディオ・デコーダのサイドにおいて使用されるべき複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータ242を供給するように構成される非相関化方法パラメータ・プロバイダ240も含む。1つ以上のダウンミックス信号222、1つ以上のパラメータ232および非相関化方法パラメータ242は、例えば、符号化表現214に、符号化の形式で含まれる。
しかしながら、上記のような機能が満足される限り、マルチチャネル・オーディオ・エンコーダ200のハードウェア構成は異なりうることに留意されたい。換言すれば、個々のブロック(例えば、ダウンミックス信号プロバイダ220に、パラメータ・プロバイダ230に、そして非相関化方法パラメータ・プロバイダ240に)マルチチャネル・オーディオ・エンコーダ200の機能の配分は、例として、考慮されるべきである。
マルチチャネル・オーディオ・エンコーダ200の機能に関して、1つ以上のダウンミックス信号222および1つ以上のパラメータ232が、例えば、SAOCマルチチャネル・オーディオ・エンコーダまたはUSACマルチチャネル・オーディオ・エンコーダにおけるような従来の方法において供給される点に留意されたい。しかしながら、マルチチャネル・オーディオ・エンコーダ200によっても供給され、そして、符号化表現214に含まれる非相関化方法パラメータ242は、入力オーディオ信号210,212にまたは所望の再生品質に非相関化モードを適用するために使用されうる。従って、非相関化モードは、オーディオ・コンテンツの異なるタイプに適用されうる。例えば、異なる非相関化モードは、入力オーディオ信号210,212が強く相関しているオーディオ・コンテンツのタイプに対して、および入力オーディオ信号210,212が独立しているオーディオ・コンテンツのタイプに対して、選択される。さらに、異なる非相関化モードは、空間印象が特に重要であるオーディオ・コンテンツのタイプに対して、および空間印象がより重要でないかまたは下位の重要性(例えば、個々のチャネルの再生と比較した場合)におけるオーディオ・コンテンツのタイプに対して、非相関化モードパラメータ242によって信号を送信されうる。従って、符号化表現214を受信するマルチチャネル・オーディオ・デコーダは、マルチチャネル・オーディオ・エンコーダ200によって制御され、復号化の複雑さと再生品質の間の最良の可能な妥協をもたらす復号化モードを設定されうる。
さらに、マルチチャネル・オーディオ・エンコーダ200は、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載されている可能な付加的な特徴および改良は、それによって、マルチチャネル・オーディオ・エンコーダ200を改良するように(または強化するように)、個々にまたは組み合わせて、マルチチャネル・オーディオ・エンコーダ200に追加されうる点に留意されたい。
3.図3による少なくとも2つの出力オーディオ信号を供給するための方法
図3は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法300のフローチャートを示す。方法は、複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づいて得られた複数の復号化オーディオをレンダリングするステップ310を含む。方法300は、また、レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するステップ320を含む。方法300は、また、出力オーディオ信号332を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するステップ330を含む。
方法300は、図1によるマルチチャネル・オーディオ・デコーダ100と同じ考察に基づく点に留意されたい。さらに、方法300は、(個々に、または組み合わせて)本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。
4.図4による符号化表現を提供するための方法
図4は、少なくとも2つの入力オーディオ信号に基づく符号化表現を供給するための方法400のフローチャートを示す。方法400は、少なくとも2つの入力オーディオ信号に基づく1つ以上のダウンミックス信号を供給するステップ410を含む。さらに、方法400は、少なくとも2つの入力オーディオ信号412の間の関係を記述している1つ以上のパラメータを供給するステップ420と、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップ430とを含む。従って、好ましくは、1つ以上のダウンミックス信号の符号化表現、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータ、および非相関化方法パラメータを含む符号化表現432が供給される。
上記の説明も適用されるように、方法400は、マルチチャネル・オーディオ・エンコーダ200と同じ考察に基づく点に留意されたい。
さらに、ステップ410,420,430の命令は、柔軟に変化することができ、これが、方法400のための実行環境において可能な限り、ステップ410,420,430も、並行して実行可能である点に留意されたい。さらに、方法400は、個々に、または組み合わせて、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、方法400は、マルチチャネル・オーディオ・エンコーダに関して本願明細書において記載される特徴および機能のいずれかによって補充されうる。しかしながら、符号化表現432を受信する本願明細書に記載されるマルチチャネル・オーディオ・デコーダの特徴および機能に対応する特徴および機能を含むことも可能である。
5.図5による符号化オーディオ表現
図5は、本発明の実施の形態による符号化オーディオ表現500の概略図を示す。
符号化オーディオ表現500は、ダウンミックス信号の符号化表現510、少なくとも2つのオーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現520を含む。符号化オーディオ表現500は、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータ530も含む。従って、符号化オーディオ表現は、オーディオ・エンコーダからオーディオ・デコーダに非相関化モードの信号を送信することを許容する。従って、符号化オーディオ表現は、(例えば、1つ以上のダウンミックス信号の符号化表現510によって、および少なくとも2つのオーディオ信号(例えば、1つ以上のダウンミックス信号の符号化表現510にダウンミックスされている少なくとも2つのオーディオ信号))の間の関係を記述している1つ以上のパラメータの符号化表現520によって記述されるオーディオ・コンテンツの特性によく適応される非相関化モードを得ることが可能である。このように、符号化オーディオ表現500は、特に良好な聴覚器官の空間印象および/または特に、聴覚器官の空間印象と復号化の複雑さとの間の良好なトレードオフを伴う符号化オーディオ表現500によって表わされるオーディオ・コンテンツのレンダリングを許容する。
さらに、符号化表現500が、個々に、または組み合わせて、マルチチャネル・オーディオ・エンコーダおよびマルチチャネル・オーディオ・デコーダに関して記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
6.図6によるマルチチャネル非相関器
図6は、本発明の実施の形態によるマルチチャネル非相関器600のブロック概略図を示す。
マルチチャネル非相関器600は、N個の非相関器入力信号610a〜610nの第1のセットを受信し、それに基づいて、N’個の非相関器出力信号612a〜612n’の第2のセットを供給するように構成される。換言すると、マルチチャネル非相関器600は、非相関器入力信号610a〜610nに基づいて複数の(少なくともおよそ)非相関化信号612a〜612n’を提供するように構成される。
マルチチャネル非相関器600は、N個の非相関器入力信号610a〜610nの第1のセットをK個の非相関器入力信号622a〜622kの第2のセットにプレミックスするように構成される、プレミキサ620を含み、Kは、Nよりも小さい(KおよびNは整数である)。マルチチャネル非相関器600は、K個の非相関器入力信号622a〜622kの第2のセットに基づいてK’個の非相関器出力信号632a〜632k’の第1のセットを供給するように構成される非相関化(または非相関器の主要部)も含む。さらに、マルチチャネル非相関器は、K’個の非相関器出力信号632a〜632k’の第1のセットをN’個の非相関器出力信号612a〜612n’の第2のセットにアップミックスするように構成されるポスト・ミキサ640を含み、N’はK’より大きい(N’およびK’は整数である)。
しかしながら、マルチチャネル非相関器600の所与の構成は、例として考慮されるべきであり、本願明細書において記載されている機能が提供される限り、マルチチャネル非相関器600を機能的なブロック(例えば、プレミキサ620、非相関化もしくは非相関器の主要部630、およびポスト・ミキサ640)にさらに分割することは必要ない点に留意されたい。
マルチチャネル非相関器600の機能に関して、現実の非相関化が、例えば、直接、N個の非相関器入力信号が適用されるコンセプトを比較したとき、N個の非相関器入力信号の第1のセットからK個の非相関器入力信号の第2のセットを導出するようにプレミックスを実行し、そして、(プレミックスされまたは「ダウンミックされた」)K個の非相関器入力信号の第2のセットに基づいて非相関化を実行するコンセプトは、複雑さの低減をもたらすことに留意されたい。さらに、N’個の非相関器出力信号の第2の(アップミックスされた)セットは、アップミキサ640によって実行されうるポストミキシングに基づいて、現実の非相関化の結果である非相関器出力信号の第1の(元の)セットに基づいて得られる。このように、マルチチャネル非相関器600は、(外側からみられたとき)効果的にN個の非相関器入力信号を受信し、そして、それに基づいて、N’個の非相関器出力信号を供給する。その一方で、現実の非相関器の主要部630は、より少ない数の信号(すなわち、K個の非相関器入力信号の第2のセットのK個のダウンミックスされた非相関器入力信号622a〜622k)のみを処理するだけである。このように、マルチチャネル非相関器600の複雑さは、従来の非相関器と比較したとき、非相関化(または非相関器の主要部)630の入力サイドでの(好ましくは、いかなる非相関化の機能のない線形のプレミキシングである)ダウンミックまたは「プレミキシング」を実行することによって、そして、非相関化(または非相関器の主要部630)の(元の)出力信号632a〜632k’に基づいて、(例えば、いかなる追加の非相関化の機能のない線形のアップミキシングである)アップミキシングまたは「ポストミキシング」を実行することによって、実質的に低減されうる。
さらに、マルチチャネル非相関器600は、マルチチャネル非相関化に関して、またマルチチャネル・オーディオ・デコーダにも関して、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載される特徴は、それによって、マルチチャネル非相関器600を改良するかまたは強化するように、個々に、または、組み合わせて、マルチチャネル非相関器600に追加されうる点に留意されたい。
複雑さの低減のないマルチチャネル非相関器は、K=N(そして、おそらくK’=N’またはK=N=K’=N’でさえ)、に対して上記したマルチチャネル非相関器から導出されうる点に留意されたい。
7.図7によるマルチチャネル・オーディオ・デコーダ
図7は本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ700のブロック概略図を示す。
マルチチャネル・オーディオ・デコーダ700は、符号化表現710を受信し、それに基づいて、少なくとも2つの出力信号712,714を供給するように構成される。マルチチャネル・オーディオ・デコーダ700は、図6によるマルチチャネル非相関器600と実質的に同一であるマルチチャネル非相関器720を含む。さらに、マルチチャネル・オーディオ・デコーダ700は、従来技術において当業者により知られている、または他のマルチチャネル・オーディオ・デコーダに関して本願明細書に記載されるようなマルチチャネル・オーディオ・デコーダの特徴または機能のいずれかを含みうる。
さらに、マルチチャネル・オーディオ・デコーダ700が、高効率のマルチチャネル非相関器720を使用するので、マルチチャネル・オーディオ・デコーダ700は、従来のマルチチャネル・オーディオ・デコーダと比較した場合、特に高い効率を含む。
8.図8によるマルチチャネル・オーディオ・エンコーダ
図8は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ800のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ800は、少なくとも2つの入力オーディオ信号810,812を受信し、それに基づいて、入力オーディオ信号810,812によって表わされるオーディオ・コンテンツの符号化表現814を供給するように構成される。
マルチチャネル・オーディオ・エンコーダ800は、少なくとも2つの入力オーディオ信号810,812に基づいて1つ以上のダウンミックス信号822を供給するように構成されるダウンミックス信号プロバイダ820を含む。マルチチャネル・オーディオ・エンコーダ800は、1つ以上のパラメータ832(例えば、相互相関パラメータもしくは相互共分散パラメータ、または内部オブジェクト相関パラメータおよび/もしくはオブジェクト・レベル差パラメータ)を供給するように構成されるパラメータ・プロバイダ830も含む。さらに、マルチチャネル・オーディオ・エンコーダ800は、(符号化表現814を受信する)オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータ842を供給するように構成される非相関化複雑さパラメータ・プロバイダ840を含む。1つ以上のダウンミックス信号822、1つ以上のパラメータ832、および非相関化複雑さパラメータ842が、好ましくは符号化形式において符号化表現814に含まれる。
しかしながら、マルチチャネル・オーディオ・エンコーダ800(例えば、ダウンミックス信号プロバイダ820、パラメータ・プロバイダ830および非相関化複雑さパラメータ・プロバイダ840の存在)の内部構造は、単なる例示として考慮されるべきである。異なる構成は、本願明細書に記載されている機能が達成する限り、可能である。
マルチチャネル・オーディオ・エンコーダ800の機能に関して、マルチチャネル・エンコーダは、符号化表現814を供給する点に留意されたい。ここで、1つ以上のダウンミックス信号822および1つ以上のパラメータ832は、(例えば、従来のSAOCオーディオ・エンコーダまたはUSACオーディオ・エンコーダのような)従来のオーディオ・エンコーダによって供給されるダウンミックス信号およびパラメータに近似するか、または等しい。しかしながら、マルチチャネル・オーディオ・エンコーダ800は、オーディオ・デコーダのサイドにおいて適用される非相関化の複雑さを決定することを許容する、非相関化複雑さパラメータ842も供給するように構成される。従って、非相関化の複雑さは、現在符号化されるオーディオ・コンテンツに適応されうる。例えば、入力オーディオ信号の特性についてエンコーダ側の情報に基づいて、達成可能なオーディオ品質に対応する所望の非相関化の複雑さの信号を送信することが可能である。例えば、空間的な特性がオーディオ信号に対して重要であることが分かっている場合、空間的な特性が重要でないとき、非相関化複雑さパラメータ842を使用して、より高い非相関化の複雑さの信号の送信がされうる。あるいは、高い複雑さの非相関化が、他の理由のためのオーディオ・デコーダのサイドで必要とされるような、オーディオ・コンテンツ、または全てのオーディオ・コンテンツの通過であることが分かっている場合、高い非相関化の複雑さの使用は、非相関化複雑さパラメータ842を使用して、信号の送信がされうる。
要約すると、マルチチャネル・オーディオ・エンコーダ800は、信号特性、またはマルチチャネル・オーディオ・エンコーダ800によって設定されうる所望の再生特性に適用される非相関化の複雑さを使用するために、マルチチャネル・オーディオ・デコーダを制御する可能性を提供する。
さらに、マルチチャネル・オーディオ・エンコーダ800が、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記述される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記載される特徴のいくつかまたは全ては、マルチチャネル・オーディオ・エンコーダ800に追加されうる。さらに、マルチチャネル・オーディオ・エンコーダ800は、本願明細書において記載されるマルチチャネル・オーディオ・デコーダとの協力に対して適応されうる。
9.図9による複数の非相関器入力信号に基づいて複数の非相関化信号を供給するための方法
図9は、複数の非相関器入力信号に基づいて、複数の非相関信号を供給するような方法900のフローチャートを示す。
方法900は、N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスするステップ910を含み、Kは、Nよりも小さい。方法900は、K個の非相関器入力信号の第2のセットに基づいて、K’個の非相関器出力信号の第1のセットを供給するステップ920も含む。例えば、K’個の非相関器出力信号の第1のセットは、非相関化を使用してK個の非相関器入力信号の第2のセットに基づいて供給され、そして、それは、例えば、非相関器の主要部を使用するか、または非相関化アルゴリズムを使用して実行されうる。更に、方法900は、K’個の非相関器出力信号の第1のセットをN’個の非相関器出力信号の第2のセットにポストミックスするステップ930を含み、N’はK’よりも大きい(N’およびK’は整数である)。従って、方法900の出力であるN’個の非相関器出力信号の第2のセットは、方法900に入力されるN個の非相関器入力の第1のセットに基づいて供給されうる。
方法900が、上記のマルチチャネル非相関器と同じ考察に基づく点に留意されたい。さらに、方法900は、個々に、または、組み合わせて、マルチチャネル非相関器に関して(そして、適用できる場合、マルチチャネル・オーディオ・エンコーダに関して)、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
10.図10による符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給する方法
図10は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法1000のフローチャートを示す。
方法1000は、符号化表現1012に基づいて少なくとも2つの出力オーディオ信号1014,1016を供給するステップ1010を含む。方法1000は、図9による方法900に従って、複数の非相関器入力信号に基づいて複数の非相関化信号を供給するステップ1020を含む。
方法1000は、図7によるマルチチャネル・オーディオ・デコーダ700と同じ考察に基づく点に留意されたい。
また、方法1000は、個々に、または、組み合わせて、マルチチャネル・デコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
11.図11による少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給する方法
図11は、少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給する方法1100のフローチャートを示す。
方法1000は、少なくとも2つの入力オーディオ信号1112,1114に基づいて1つ以上のダウンミックス信号を供給するステップ1110を含む。方法1100は、少なくとも2つの入力オーディオ信号1112,1114の間の関係を記述している1つ以上のパラメータを供給するステップ1120も含む。さらに、方法1100は、オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータを供給するステップ1130を含む。従って、符号化表現1132は、少なくとも2つの入力オーディオ信号1112,1114に基づいて供給される。ここで、符号化表現は、典型的には、符号化形式において、1つ以上のダウンミックス信号、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータ、および非相関化複雑さパラメータを含む。
ステップ1110,1120,1130は、並行して、または本発明によるいくつかの実施の形態における異なる命令において実行されうる。さらに、方法1100は、図8によるマルチチャネル・オーディオ・エンコーダ800として同じ考察に基づき、そして、方法1100は、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。さらに、方法1100は、マルチチャネル・オーディオ・デコーダおよび本願明細書において記載されている少なくとも2つの出力オーディオ信号を供給するための方法をマッチするように適応されうる点に留意されたい。
12.図12による符号化オーディオ表現
図12は、本発明の実施の形態による符号化オーディオ表現の概略図を示す。符号化オーディオ表現は、ダウンミックス信号の符号化表現1210、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現1220、およびオーディオ・デコーダのサイドにおいて使用される非相関化の複雑さを記述している符号化非相関化複雑さパラメータ1230を含む。従って、符号化オーディオ表現1200は、改良された復号化効率、および改良されたオーディオ品質または符号化効率とオーディオ品質とのトレードオフの改良の可能性をもたらすマルチチャネル・オーディオ・デコーダによって使用される非相関化の複雑さを調整することを許容する。さらに、符号化オーディオ表現1200は、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって供給されえ、そして、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって使用されうる点に留意されたい。従って、符号化オーディオ表現1200は、マルチチャネル・オーディオ・エンコーダに関しておよびマルチチャネル・オーディオ・デコーダに関して記載される特徴のいずれかによって補充されうる。
13.表記法および基本的な検討事項
近年では、複数のオーディオ・オブジェクトを含んでいるオーディオ・シーンのビットレートの効果的な伝送/格納のためのパラメータの技術は、オーディオ符号化の分野(例えば、参考文献[BCC][JSC][SAOC][SAOC1][SAOC2]を参照)およびインフォームド(informed)音源分離の分野(例えば、参考文献[ISS1][ISS2][ISS3][ISS4][ISS5][ISS6]を参照)において提案されている。これらの技術は、伝送され/格納されたオーディオ・シーンおよび/またはオーディオ・シーンにおける音源オブジェクトを記述している追加のサイド情報に基づいて、所望の出力オーディオ・シーンまたはオーディオ音源オブジェクトを再構成することを意図する。この再構成は、パラメータのインフォームド音源分離を使用してデコーダにおいて生じる。さらに、参照は、例えば、国際標準ISO/IEC 23003−1:2007において記載されるいわゆる「MPEG Surround(MPEGサラウンド)」のコンセプトにもなされる。さらに、参照は、国際標準ISO/IEC 23003−2:2010において記載されるいわゆる「Spatial Audio Object Coding(空間オーディオ・オブジェクト符号化)」にもなされる。さらに、参照は、国際規格ISO/IEC 23003−3:2012において記載されるいわゆる「Unified Speech and Audio Coding(音声音響統合符号化方式)」にもなされる。これらの標準からのコンセプトは、例えば、本願明細書において記載されるマルチチャネル・オーディオ・エンコーダおよび本願明細書において記載されるマルチチャネル・オーディオ・デコーダにおいて、本発明による実施の形態において使用される。ここで、いくつかの適応は必要とされうる。
以下に、いくつかの背景情報が、記載される。特に、パラメータの分離方式における概要は、MPEG空間オーディオ・オブジェクト符号化(Spatial Audio Object Coding:SAOC)技術(例えば、参考文献[SAOC]を参照)の実施例を使用して、提供される。この方法の数学的プロパティは、考慮される。

一般的な損失なしに、方程式の可読性を改良するために、すべての導入される変数に対して、時間および周波数依存を表示しているインデックスは、この明細書において省略される。
13.2 パラメータ分離システム
一般的なパラメータ分離システムは、(例えば、内部チャネル相関値、内部チャネルレベル差値、内部オブジェクト相関値および/またはオブジェクト・レベル差情報のような)補助的なパラメータ情報を使用して信号混合(ダウンミックス)からオーディオ音源の数を推定することを意図する。この作業の典型的な解決は、最小2乗平均誤差(Minimum Mean Squared Error:MMSE)推定アルゴリズムのアプリケーションに基づく。SAOC技術は、パラメトリックオーディオ符号化/復号化システムのような1つの実施例である。
図13は、SAOCエンコーダ/デコーダ構造の一般的な原理を示す。換言すれば、図13は、パラメトリックダウンミックス/アップミックスのコンセプトに基づくMMSEの概観を、ブロック概略図の形式で示す。
エンコーダ1310は、複数のオブジェクト信号1312a,1312b〜1312nを受信する。さらに、エンコーダ1310は、例えば、ダウンミックス・パラメータであるミキシング・パラメータD,1314も受信する。エンコーダ1310は、それに基づいて、1つ以上のダウンミックス信号1316a,1316b等を供給する。さらに、エンコーダは、サイド情報1318を供給する。1つ以上のダウンミックス信号およびサイド情報は、例えば、符号化形式で供給されうる。
エンコーダ1310は、典型的には、オブジェクト信号1312a〜1312nを受信し、ミキシング・パラメータ1314に基づいて、オブジェクト信号1312a〜1312nを結合して(例えば、ダウンミックスして)1つ以上のダウンミックス信号1316a,1316bを作成するように構成されるミキサ1320を含む。さらに、エンコーダは、オブジェクト信号1312a〜1312nからサイド情報1318を導出するように構成されるサイド情報推定器1330を含む。例えば、サイド情報推定器1330は、サイド情報が、例えば、(「内部オブジェクト相関」(IOC:inter−object−correlation))として指定されうる)オブジェクト信号の間の相互相関および/または(「オブジェクト・レベル差情報」(OLD:object level information)として指定されうる)オブジェクト信号の間のレベル差を記述している情報である、オブジェクト信号の間の関係を記述するようなサイド情報1318を導出するように構成されうる。
1つ以上のダウンミック信号1316a,1316bおよびサイド情報1318は、参照番号1340に示されるように、デコーダ1350に格納されおよび/または送信されうる。
デコーダ1350は、(例えば、符号化形式で)1つ以上のダウンミックス信号1316a,1316bおよびサイド情報1318を受信し、そして、それに基づいて、複数の出力オーディオ信号1352a〜1352nを供給する。デコーダ1350は、(レンダリング行列を定義しうる)1つ以上のレンダリング・パラメータを含みうるユーザ相互作用情報1354も受信する。デコーダ1350は、パラメトリック・オブジェクト・セパレータ1360、サイド情報プロセッサ1370およびレンダラ1380を含む。サイド情報プロセッサ1370は、サイド情報1318を受信し、それに基づいて、パラメトリック・オブジェクト・セパレータ1360に対して制御情報1372を供給する。パラメトリック・オブジェクト・セパレータ1360は、ダウンミックス信号1360a,1360bおよびサイド情報プロセッサ1370によってサイド情報1318から導出された制御情報1372に基づいて、複数のオブジェクト信号1362a〜1362nを供給する。例えば、オブジェクト・セパレータは、符号化ダウンミックス信号およびオブジェクト分離の復号化を実行しうる。レンダラ1380は、それによって出力オーディオ信号1352a〜1352nを得るために、再構成オブジェクト信号1362a〜1362nをレンダリングする。
以下に、パラメータ・ダウンミックス/アップミックスのコンセプトに基づくMMSEの機能が述べられる。
一般的なパラメトリックダウンミックス/アップミックス処理は、時間/周波数の選択的な方法で実行され、以下のステップのシーケンスとして記載されうる。
・「エンコーダ」1310は、入力された「オーディオ・オブジェクト」Xおよび「ミキシング・パラメータ」Dを有する。「ミキサ」1320は、「ミキシング・パラメータ」D(例えば、ダウンミックスゲイン)を使用して「オーディオ・オブジェクト」Xをいくつかの「ダウンミックス信号」Yにダウンミックスする。「サイド情報推定器」は、入力された「オーディオ・オブジェクト」X(例えば、共分散特性)の特性を記述しているサイド情報1318を抽出する。
・「ダウンミックス信号」Yおよびサイド情報は、送信されるか、または格納される。これらのダウンミックスオーディオ信号は、さらに、オーディオコーダ(例えば、MPEG−1/2 Layer IIまたはIII,MPEG−2/4 Advanced Audio Coding(AAC),MPEG Unified Speech and Audio Coding(USAC)等)を使用して圧縮されうる。サイド情報は、(例えば、オブジェクトパワーおよびオブジェクト相関係数の無損失性符号化関係として)効果的に再構成され、符号化されうる。

さらに、エンコーダ1310およびデコーダ1350に関して記載されている機能は、同様に本願明細書において記載されている他のオーディオ・エンコーダおよびオーディオ・デコーダにおいて使用されうる点に留意されたい。

結果として、推定誤差および推定自身は、直交する。

幾何学的に、図14に示される例によって、これを視覚化しうる。





我々に、2つのオーディオ信号を使用して音源を再生する実施例を考慮させる。IOC値が1に近い場合、音は、極めて局所化された点の音源として知覚される。IOC値がゼロに近い場合、音源の知覚された幅は増加し、そして、極端な例では、2つの異なった音源としてとして知覚されることさえある[Blauert,第3章]。
13.6 再構成誤りの補償
不完全なパラメトリック再構成の場合、出力信号は、元のオブジェクトと比較して低いエネルギーを示しうる。共分散行列の対角要素の誤差は、(理想的な参照出力と比較して)聞き取れるレベル差、および歪められた空間音像における非対角要素での誤差を結果として得る。提案された方法は、この課題を解決するための目的を有する。
MPEG Surround(MPS)において、例えば、この問題は、いくつかの特定のチャネル・ベースの処理シナリオ、すなわち、モノラル/ステレオダウンミックスおよび限られた静的な出力構造(例えば、モノラル,ステレオ,5.1,7.1等)ためだけに扱われる。SAOCのようにモノラル/ステレオダウンミックスも使用するオブジェクト指向技術において、この課題は、5.1の出力構造だけのためのMPS後処理レンダリングを適用することによって扱われる。
既存の解決策は、標準の出力構成および入出力チャネルの定数に限られる。すなわち、それらは、ちょうど「モノラル対ステレオ」(または「ステレオ対3チャネル」)のチャネル非相関を実装しているいくつかのブロックの結果として生じるアプリケーションとして理解される。
それゆえに、パラメトリック再構成誤りの補償のための一般的な解決策(例えば、エネルギーレベルおよび相関特性修正方法)が所望され、そして、それは柔軟な数のダウンミックス/出力チャネルおよび任意の出力構成セットアップに対して適用されうる。
13.7 結論
結論として、表記法に関する概要が提供された。さらに、パラメトリック分離システムは、本発明による実施の形態がベースであることが述べられた。さらに、最小2乗平均誤差推定に適用される直交原理が概説された。さらに、再構成誤差XErrorの存在において適用する共分散行列EXの算出のための方程式が提供された。また、例えば、本発明による実施の形態において、(パラメトリックサイド情報において含まれうる)内部オブジェクト相関値から所望の共分散特性(または相関特性)を導出し、そして、おそらくオブジェクト・レベル差を形成するために適用されうる、いわゆる内部オブジェクト相関および共分散行列EXの要素との間の関係が提供された。さらに、再構成オブジェクト信号の特性が、不完全な再構成のため、所望の特性と異なることが概説された。さらに、課題を取り扱う既存の解決策が、いくつかの特定の出力構成に限られており、従来の解決策の変更できない標準ブロックの特定の結合に依拠することが概説された。
14.図15による実施の形態
14.1 コンセプトの概要
本発明による実施の形態は、任意の数のダウンミックス/アップミックスチャネルのための非相関化の解決策を有するパラメトリックオーディオ分離方式において使用されるMMSEパラメトリック再構成方法を拡張する。例えば、発明の装置および発明の方法のような本発明による実施の形態は、パラメトリック再構成の間のエネルギー損失を補償することができ、そして、推定されたオブジェクトの相関特性を復元しうる。
図15は、統合された非相関化経路を有するパラメトリックダウンミックス/アップミックスのコンセプトの概要を提供する。換言すれば、ブロック概略図の形式において、レンダリングされた出力に適用される非相関化を伴うパラメトリック再構成システムを示す。
図15に記載のシステムは、図13に記載のエンコーダ1310と実質的に同一であるエンコーダ1510を含む。エンコーダ1510は、複数のオブジェクト信号1512a〜1512nを受信し、そして、それに基づいて、1つ以上のダウンミックス信号1516a,1516bおよびサイド情報1518を供給する。ダウンミックス信号1516a,1516bは、ダウンミックス信号1316a,1316bと実質的に同一でありえ、そして、Yによって指定される。サイド情報1518は、サイド情報1318と実質的に同一でありうる。しかしながら、例えば、サイド情報は、非相関化モードパラメータ、または非相関化方法パラメータ、または非相関化複雑さパラメータを含む。さらに、エンコーダ1510は、ミキシング・パラメータ1514を受信しうる。
パラメトリック再構成システムは、1つ以上のダウンミックス信号1516a,1516bおよびサイド情報1518の送信および/または格納も含む。ここで、送信および/または格納は、1540で指定され、1つ以上のダウンミックス信号1516a,1516bおよび(パラメトリックサイド情報を含みうる)サイド情報1518が、符号化されうる。
さらに、図15によるパラメトリック再構成システムは、送信されまたは格納された1つ以上の(あるいは符号化)ダウンミックス信号1516a,1516bおよび送信されまたは格納された(あるいは符号化)サイド情報1518を受信し、そして、それに基づいて、出力オーディオ信号1552a〜1552nを供給するように構成される、デコーダ1550を含む。(マルチチャネル・オーディオ・デコーダとして考慮されうる)デコーダ1550は、パラメトリック・オーディオ・セパレータ1560およびサイド情報プロセッサ1570を含む。さらに、デコーダ1550は、レンダラ1580、非相関器1590およびミキサ1598を含む。

非相関器1590は、レンダリングされたオーディオ信号1582a〜1582nを受信し、そして、それに基づいて、Wでも指定される非相関化オーディオ信号1592a〜1592nを供給する。ミキサ1598は、レンダリングされたオーディオ信号1582a〜1582nおよび非相関化オーディオ信号1592a〜1592nを受信し、そして、レンダリングされたオーディオ信号1582a〜1582nと非相関化オーディオ信号1592a〜1592nとを結合し、それによって、出力オーディオ信号1552a〜1552nを得る。ミキサ1598は、後述するように、符号化サイド情報1518からサイド情報プロセッサ1570によって導出される制御情報1574も使用しうる。
14.2 非相関器の関数
以下に、非相関器1590に関する若干の詳細が記載される。しかしながら、いくつか後述されるように、異なる非相関器が使用されうる点に留意されたい。


非相関器の関数の実装のための正確な仕様は、この説明の範囲の外である。例えば、MPEG Surround Standardにおいて特定された非相関器に基づく、いくつかの無限インパルス応答(IIR)フィルタのバンクは、非相関化の目的のために利用されうる([MPS])。

これらの関係から、

を結果として得る。 非相関器出力Wは、入力として予測された信号を使用することによって、(予測誤差が予測信号に対して直交することを記憶している)MMSE推定器における予測誤りを補償するように使用されうる。
それは、予測誤差がそれら自身の間において直交する一般的な場合ではない点に留意されたい。このように、結果として得られるミクスチャーの共分散行列(例えば、出力オーディオ信号1552a〜1552n)が所望の出力の共分散行列に類似することになるように、本発明のコンセプト(例えば、方法)の目的1つは、「ドライ」(すなわち、非相関器入力)信号(例えば、レンダリングされたオーディオ信号1582a〜1582n)および「ウェット」(すなわち、非相関器出力)信号(例えば、非相関化オーディオ信号1592a〜1592n)のミクスチャーを作成することである。
さらに、以下に詳細に記載され、そして、しかしながら、受け入れられる、非相関化信号のいくつかの欠点をもたらす、非相関化装置のための複雑さの低減が使用される点に留意されたい。
14.3 非相関化信号を使用している出力共分散修正
以下に、コンセプトが、合理的に良好な聴覚印象を得るように、出力オーディオ信号1552a〜1552nの共分散特性を調整することを記載している。

しかしながら、この方程式は、もっとも一般的な定式化と考えられる点に留意されたい。変化は、本願明細書において記載されているすべての「簡略化された方法」に通用する(または、させ得る)上記の公式に、任意に適用されうる。


あるいは、一方、後で詳しく述べるように、以下の方程式

が、適用されうる。
理想的に作成されレンダリングされた出力シーンのターゲット共分散Cは、

C=REXH

として、定義される。


原型の行列Hは、直接的なおよび非相関信号パスのために所望の加重に従って選択されうる。
例えば、可能な原型行列Hは、

として、決定されうる。 以下に、一般の行列Fの構造のための若干の数学的な導出が提供される。
換言すれば、一般的な解決法のための混合行列Fの導出は、以下において記載される。
共分散行列ESおよびCは、

S=VQVH,C=UTUH

として、例えば、特異値分解(SVD)を使用して表わされ、TおよびQは、それぞれCおよびESの特異値を有する対角行列であり、UおよびVは、特異ベクトルに対応するユニタリ行列である。
(SVDの代わりに)シューア三角化または固有値分解のアプリケーションが、類似の結果(または、対角行列QおよびTが正値に限定される場合、同一の結果)に至ることに留意されたい。



原型行列Hは、直接的なおよび非相関化信号パスのための所望の加重によって選択される。例えば、可能な原型行列Hは、

として、決定されうる。 結合信号の共分散行列ESの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。

しかしながら、あるいは、サイド情報プロセッサ1570は、情報1574として、ミキサ1598に直接的に混合行列Fを供給も、しうる。
さらに、混合行列Fのための計算規則は、特異値分解を使用することを記載されていた。しかしながら、原型行列Hの入力ai,iおよびbi,iが選択されうるので、ある自由度がある点に留意されたい。好ましくは、原型行列Hの入力は、およそ0および1の間で選択される。非相関化オーディオ信号のインパクトは、比較的小さく、そして、それは、若干の状況において望ましくもある一方、値ai,iが1に近づくように選択されうる場合、レンダリングされた出力オーディオ信号の重要な混合がある。しかしながら、レンダリングされたオーディオ信号の間における弱い混合がある一方、若干の他の状況において、非相関化オーディオ信号の比較的大きいインパクトを有することをより望まれうる。この場合、値bi,iは、ai,iより大きいように典型的に選択される。このように、デコーダ1550は、原型行列Hの入力を適切に選択することによって、前提条件に適応されうる。
14.4 出力共分散修正のための簡略化された方法
このセクションにおいて、前述の混合行列Fのための2つの変形例の構造は、その値を決定するための典型的なアルゴリズムとともに記載される。2つの変形例は、異なる入力コンテンツ(例えば、オーディオ・コンテンツ)のために設計される。

− 高い相関コンテンツ(例えば、異なるチャネル対の間の高い相関を伴うチャネル・ベースの入力)のための共分散調整方法
− 独立入力信号(例えば、たいてい独立とみなされる、オブジェクト・ベースの入力)のためのエネルギー補償方法

非相関化信号Wの混合が操作されれば、混合行列Pは、単位行列(または、その倍数)に低減されうる。このように、この簡略化された方法は、

による設定によって、記載されうる。 システムの最後の出力は、

として、表わされうる。 従って、システムの最後の出力共分散は、

として、表わされうる。
従って、混合行列Mは、

のように、決定される。
このアプローチは、ドライ出力(例えば、レンダリングされたオーディオ信号1582a〜1582n)を使用する良好な相互相関再構成の最大化を確実にし、そして、非相関化信号のみの混合の自由を利用する。換言すれば、レンダリングされたオーディオ信号(または、そのスケール化バージョン)と1つ以上の非相関化オーディオ信号とを結合する場合、異なるレンダリングされたオーディオ信号の間の混合は許容されない。しかしながら、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号は、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンを結合することを許容する。ここで、定義されるように、例えば、結合は、行列Mによって定義される。
以下に、制限行列F構造のためのいくつかの数学的な導出が提供される。
換言すれば、簡略化された方法「A」のための混合行列Mの導出が説明される。
共分散行列ΔEおよびEWは、

ΔE=UTUH,EW=VQVH

として、例えば、特異値分解(SVD)を使用して表わされ、TおよびQは、それぞれΔEおよびEWの特異値を有する対角行列であり、UおよびVは、対応する特異ベクトルを含むユニタリ行列である。
(SVDの代わりに)シューア三角化または固有値分解のアプリケーションが、類似の結果(または、対角行列QおよびTが正値に限定される場合、同一の結果)に至ることに留意されたい。

方程式の両側が行列の正方形を表す点に留意して、我々は積算を落とし、全行列Mのために解決する。
混合行列Mは、

として、決定されうることになる。 この方法は、

として理解される原型行列Hを設定することによって、一般的な方法から導出されうる。 ウェット信号の共分散行列EWの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。
14.4.2 エネルギー補償方法(B)
時々(アプリケーション・シナリオに応じて)、(例えば、レンダリングされたオーディオ信号の)パラメトリック再構成または非相関化信号の混合を許容することを望まないが、しかし、個々に、各パラメータ的に再構成された信号(例えば、レンダリングされたオーディオ信号)とそれ自身の非相関化信号のみを混合することが望ましい。
この前提条件を達成するために、追加の制約は、簡略化方法「A」にもたらされうる。現在、ウェット信号(非相関化信号)の混合行列Mが、対角形式を有することを必要とする。

このアプローチの主な目標は、パラメトリック再構成(例えば、レンダリングされたオーディオ信号)におけるエネルギーの損失を補償するように、非相関化信号を使用することになっている一方、出力信号の共分散行列の対角線の修正が無視される、すなわち、相互相関の直接的な取り扱いは、ない。従って、出力オブジェクト/チャネルの間(例えば、レンダリングされたオーディオ信号の間)のクロスリークは、非相関化信号のアプリケーションにおいて導かれない。
その結果、ターゲット共分散行列(または所望の共分散行列)の主対角線のみに達し、非対角は、パラメトリック再構成および付加的な非相関化信号の精度の軽減にある。この方法は、信号が相関関係のないように考慮されるオブジェクトのみのベースのアプリケーションに最も適している。

Cは、一般のケースのために前述したように決定されうる。
例えば、混合行列Mは、(オーディオ・デコーダによって決定されうる)非相関化信号のエネルギーを伴う補償信号の所望のエネルギー((相互共分散行列Cの対角要素によって記述されうる)所望のエネルギーと(オーディオ・デコーダによって決定されうる)パラメトリック再構成のエネルギーとの間の差)を分割することによって直接的に導出されうる。

ここで、λDecは、出力信号(例えば、λDec=4)に加えられる非相関化の構成要素の量を制限するために用いられる0以上の閾値である。 エネルギーは、(例えば、OLD,IOC、およびレンダリング係数を使用して)パラメータ的に再構成されうるか、または、(典型的に、より計算的に価値のある)デコーダによって実質的に算出されうる点に留意されたい。
この方法は、

に示されるような原型行列Hを設定することによって一般的な方法から導出されうる。 この方法は、明確に、ドライのレンダリングされた出力の使用を最大にする。共分散行列が非対角の入力を有さない場合、方法は、単純化の「A」を伴うものと等価である。
この方法は、低減された計算量の複雑さを有する。
しかしながら、エネルギー補償方法は、相互相関条件が修正されないことを必ずしも意味するものではない点に留意されたい。我々が、理想的な非相関器および非相関化装置のための複雑さの低減でないことを使用する場合だけ、これは保持する。方法の意図は、エネルギーを回復して、交差項における修正を無視することである(交差項における変化は、相関特性を実質的に修正せず、全体の空間印象に影響を及ぼさない)。
14.5 混合行列Fの前提条件
以下に、混合行列F、セクション14.3および14.4において記載されているその導出は、低下を回避する必要性を満たすと説明される。
出力における低下を回避するために、パラメトリック再構成誤差のための補償をするいかなる方法が、以下の特性を有する結果をもたらさなければならない。レンダリング行列が、ダウンミックス行列に等しい場合、そのとき、出力チャネルは、ダウンミックスチャネルと等しい(または、少なくとも近似する)べきである。提案されたモデルは、この特性を満足させる。レンダリング行列は、ダウンミックス行列と等しい場合R=D、パラメトリック再構成は、

によって、与えられ、そして、所望の共分散行列は、

C=REXH=DEXH=EY

である。
これは、非相関化信号が、合計する際において、加重ゼロ(zero−weight)を有し、最後の出力は、ドライ信号によって与えられ、そして、それは、ダウンミックス信号と同一である。

その結果、このレンダリングシナリオにおいて、ダウンミックス信号に等しいようなシステム出力のための所与の前提条件は満たされる。
14.6 信号共分散行列ESの推定
混合行列Fを得るために、結合信号Sの共分散行列ESの情報が必要とされるか、または、少なくとも価値がある。


非相関器は理想的である(すなわち、エネルギーを保つこと、入力に対して、出力は直交すること、そして、すべての出力は、相互に直交すること)と仮定するならば、共分散行列ESは、

として、簡略化された形式を使用して表されうる。

相互に直交および/またはエネルギー保存の仮定が妨害される(例えば、利用可能な非相関器の数が、非相関化される信号の数よりも少ないときのケースにおける)場合、そのとき、共分散行列EWは、

として、推定される。 14.7 任意の改良:非相関化信号およびエネルギー調整装置を使用する出力共分散修正
以下に、特に、有利なコンセプトが記載され、そして、それは、本願明細書において記載される他のコンセプトと組み合わされうる。


しかしながら、この方程式は、最も一般的な定式化と考慮されうる点に留意されたい。変化は、本願明細書において記載されている全ての「簡略化された方法」に対して有効である上記の公式に、任意に適用されうる。
以下に、例えば、エネルギー調整装置によって実行されうる機能性が記載される。






上記の方程式において、例えば、独立変数Cestim(i,i)およびεの最大値を供給する分母における「max(.)」は、ゼロによる除算を回避するために、εまたは他のメカニズムの追加によって取り替えられる。



以下に、いくつかのさらなる簡略化したものが、記載される。換言すれば、出力共分散修正のための簡略化された方法が記載される。

非相関化(ウェット)信号Wの混合が操作されれば、混合行列Pは、単位行列に低減されうる。この場合、パラメータ的に再構成された(ドライ)信号に対応するエネルギー調整行列も、単位行列に低減されうる。このように、簡略化された方法は、

による設定によって、記載されうる。 システムの最後の出力は、

として、表されうる。 15.非相関化装置のための複雑さの低減
以下に、本発明による実施の形態において使用される非相関器の複雑さがどのように低減されうるかが記載される。
非相関器の機能の実装は、しばしば、計算的に複雑である点に留意されたい。いくつかのアプリケーション(例えば、ポータブル・デコーダ・ソリューション)において、非相関器の数の制限は、制限された計算機のリソースのために導入されることを必要とされうる。このセクションは、適用される非相関器(または非相関化)の数を制御することによって、非相関器の装置の複雑さの低減のための手段の記載を提供する。非相関化装置のインターフェースは、図16および図17において表現される。



非相関化装置1700は、非相関器出力信号の第1のセットのK個の非相関器出力信号1732a〜1732kを受信し、それに基づいて、(「外部の」非相関器出力信号を構成する)非相関器出力信号の第2のセットのN個の信号1712a〜1712nを供給するように構成される、ポスト・ミキサ1740を含む。
プレミキサ1720は、プレミキシング行列Mpreによって記載される線形混合処理を、好ましくは実行しうる。さらに、ポスト・ミキサ1740は、K個の非相関器出力信号1732a〜1732kの第1のセットから(すなわち、非相関器の主要部1730の出力信号から)非相関器出力信号の第2のセットのN個の非相関器出力信号1712a〜1712nを導出するために、ポストミキシング行列Mpreによって表されうる、線形混合(または、アップミックス)処理を、好ましくは実行する。
提案された方法と装置の主要な考えは、以下によって、NからKへ、非相関器への(または非相関器の主要部への)入力信号の数を低減することである。
・次式を伴う数を下げるために、信号(例えば、レンダリングされたオーディオ信号)をプレミックスする。

・次式を伴う利用可能なK個の非相関器(例えば、非相関器の主要部)を使用して非相関化を適用する。

・次式を伴うN個のチャネルへ非相関化信号をアップミックスする。



使用される非相関器(または、個々の非相関器)の数Kは、特定されず、所望の計算量の複雑さおよび利用可能な非相関器に依存している。その値は、(最も高い計算量の複雑さの)N個から(最も低い計算量の複雑さの)1個に至るまで変化する。
非相関器の装置への入力信号の数Nは、任意であり、そして、提案された方法は、システムのレンダリング構造において独立していて、いかなる入力信号の数を支持する。
例えば、3Dのオーディオ・コンテンツを使用しているアプリケーションにおいて、多数の出力チャネルについては、出力構成に応じて、プレミキシング行列Mpreのためのある可能な表現が後述される。
以下において、非相関化装置1700がマルチチャネル・オーディオ・デコーダにおいて使用された場合、プレミキサ1720(および、従って、ポスト・ミキサ1740によって実行されるポストミックス)によって実行されるプレミックスが、どのように調整されるかを記載する。ここで、非相関器入力信号の第1のセットの非相関器入力信号1710a〜1710nは、オーディオ・シーンの異なる空間的な位置と関連している。
この目的のために、図18は、異なる出力フォーマットのために使用されるスピーカ位置のテーブル表現を示す。
図18の表1800において、第1列1810は、スピーカのインデックスナンバーを記載する。第2列1820は、スピーカラベルを記載する。第3列1830は、それぞれのスピーカの方位角の位置を記載し、第4列1832は、スピーカの位置の方位角の許容差を記載する。第5列1840は、それぞれのスピーカの位置の仰角を記載し、第6列1842は、対応する仰角許容差を記載する。第7列1850は、スピーカが出力フォーマットO−2.0のために使用されることを指し示す。第8列1860は、スピーカが出力フォーマットO−5.1のために使用されることを示す。第9列1864は、スピーカが出力フォーマットO−7.1のために使用されることを示す。第10列1870は、スピーカが出力フォーマットO−8.1のために使用されることを示し、第11列1880は、スピーカが出力フォーマットO−10.1のために使用されることを示し、そして、第12列1890は、スピーカが出力フォーマットO−22.2のために使用されることを示す。表に示されるように、2個のスピーカが、出力フォーマットO−2.0のために使用され、6個のスピーカが、出力フォーマットO−5.1のために使用され、8個のスピーカが、出力フォーマット7.1のために使用され、9個のスピーカが、出力フォーマットO−8.1のために使用され、11個のスピーカが、出力フォーマットO−10.1に対して使用され、そして、24個のスピーカが、出力フォーマットO−22.2のために使用される。
しかしながら、1つの低音効果のスピーカは、出力フォーマットO−5.1,O−7.1,O−8.1およびO−10.1のために使用され、2つの低音効果のスピーカ(LFE1,LFE2)は、出力フォーマットO−22.2のために使用される点に留意されたい。さらに、好ましい実施の形態において、1つ以上の低音効果のスピーカを除いて、1つのレンダリングされたオーディオ信号(例えば、レンダリングされたオーディオ信号1582a〜1582nのうちの1つ)が、スピーカの各々に関連している点に留意されたい。従って、2つのレンダリングされたオーディオ信号は、O−2.1フォーマットにより使用される2個のスピーカに関連しており、O−5.1フォーマットが使用される場合、5つのレンダリングされたオーディオ信号は、5個の低音効果でないスピーカに関連しており、O−7.1フォーマットが使用される場合、7つのレンダリングされたオーディオ信号は、7個の低音効果でないスピーカに関連しており、O−8.1フォーマットが使用される場合、8つのレンダリングされたオーディオ信号は、8個の低音効果でないスピーカに関連しており、O−10.1フォーマットが使用されう場合、10個のレンダリングされたオーディオ信号が、10個の低音効果でないスピーカに関連しており、そして、O−22.2フォーマットが使用される場合、22個のレンダリングされたオーディオ信号は、22個の低音効果でないスピーカに関連している。

図19a〜図19gは、N=22のレンダリングされたオーディオ信号があるという仮定のもとに、レンダリングされたオーディオ信号1582a〜1582nをプレミックスするための異なるオプションを表す。例えば、図19aは、プレミキシング行列Mpreの入力のテーブル表現を示す。図19aにおける1〜11のラベルを付けられた行は、プレミキシング行列Mpreの行を表し、1〜22のラベルを付けられた列は、プレミキシング行列Mpreの列を表す。さらに、プレミキシング行列Mpreの行の各々は、非相関器入力信号の第2のセットのK個の非相関器入力信号1722a〜1722kのうちの1つ(すなわち、非相関器の主要部の入力信号)に関連している点に留意されたい。さらに、プレミキシング行列Mpreの列の各々は、非相関器入力信号の第1のセットのN個の非相関器入力信号1710a〜1710nのうちの1つに関連しており、そして、その結果、(非相関器入力信号の第1のセットの非相関器入力信号1710a〜1710nが、実施の形態におけるレンダリングされたオーディオ信号1582a〜1582nに典型的に同一であるので)レンダリングされたオーディオ信号1582a〜1582nに関連している。従って、プレミキシング行列Mpreの列の各々は、特定のスピーカに関連し、そして、特定の空間的な位置に関連しているので、その結果、スピーカは空間的な位置に関連している。行1910は、プレミキシング行列Mpreの列が関連しているスピーカ(およびその結果、空間的な位置)を示す(ここで、スピーカのラベルは、表1800の列1820において定義される)。
以下において、図19aのプレミキシングMpreによって定義される機能が、さらに詳細に記載される。表に示すように、スピーカ(または、スピーカ位置と同等)「CH_M_000」および「CH_L_000」に関連するレンダリングされたオーディオ信号は、非相関器入力信号の第2のセットの第1の非相関器入力信号(すなわち、第1のダウンミックスされた非相関器入力信号)を得るために結合され、そして、それは、プレミキシング行列Mpreの第1行の第1列および第2列における「1」の値によって指し示される。同様に、スピーカ(または、スピーカ位置と同等)「CH_U_000」および「CH_T_000」に関連するレンダリングされたオーディオ信号は、第2のダウンミックスされた非相関器入力信号(すなわち、非相関器入力信号の第2のセットの第2の非相関器入力信号)を得るために結合される。さらに、11個のダウンミックスされた非相関器入力信号が、22個のレンダリングされたオーディオ信号から導出されるように、図19aのプレミキシング行列Mpreは、2つのレンダリングされたオーディオ信号の11の組み合わせを定義することが示されうる。(プレミキシング行列の1〜4列および1および2行を参照して)2つのダウンミックスされた非相関器入力信号を得るために、4つの中心の信号が結合されることを示す。さらに、他のダウンミックスされた非相関器入力信号が、オーディオ・シーンの同じ側に関連している2つのオーディオ信号を結合することによって各々得られることを示す。例えば、プレミキシング行列の第3行によって表される、第3のダウンミックスされた非相関器入力信号は、+135°(「CH_M_L135」;「CH_U_L135」)の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。さらに、(プレミキシング行列の第4行によって表される)第4の非相関器入力信号は、−135°(「CH_M_R135」;「CH_U_R135」)の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。従って、ダウンミックスされた非相関器入力信号の各々は、その(または同等の)方位角の位置(または、同等の水平位置)に関連している2つのレンダリングされたオーディオ信号を結合することによって得られる。ここで、典型的には、異なる仰角(または、同等の垂直位置)に関連している信号の結合を有する。
(プレミキシング行列Mpreの入力)N=22およびK=10に対するプレミキシング係数を示す図19bを現在、参照する。図19bの表の構成は、図19aの表の構成と同一である。しかしながら、表に示されるように、第1行が、チャネルID(または位置)「CH_M_000」、「CH_L_000」、「CH_U_000」および「CH_T_000」を有する4つのレンダリングされたオーディオ信号の結合を記載する点において、図19bによるプレミキシング行列Mpreは、図19aのプレミキシング行列Mpreと異なる。換言すれば、垂直に隣接する位置に関連している4つのレンダリングされたオーディオ信号は、必要な非相関器(図19aによる行列のための11個の非相関器の代わりに10個の非相関器)の数を低減するためにプレミキシングにおいて結合される。
(プレミキシング行列Mpreの入力)N=22およびK=9に対するプレミキシング係数を示す図19cを現在、参照し、表に示すように、図19cによるプレミキシング行列Mpreは、9行のみにより構成される。さらに、第2のダウンミックスされた非相関器入力信号(非相関器入力信号の第2のセットの非相関器入力信号)を得るために、チャネルID(または位置)「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」に関連するレンダリングされたオーディオ信号が結合される点において、図19cのプレミキシング行列Mpreの第2行から示されうる。表に示すように、図19aおよび図19bによりプレミキシング行列によって別々にダウンミックスされた非相関器入力信号に結合されているレンダリングされたオーディオ信号は、図19cによる共通のダウンミックスされた非相関器入力信号にダウンミックスされる。さらに、チャネルID「CH_M_L135」および「CH_U_L135」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの同じ側における同一の水平位置(または方位角位置)および空間的に隣接する垂直位置(または仰角)に関連しており、そして、チャネルID「CH_M_R135」および「CH_U_R135」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの第2の側における同一の水平位置(または方位角位置)および空間的に隣接する垂直位置(または仰角)に関連している点に留意されたい。さらに、チャネルID「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」を有するレンダリングされたオーディオ信号は、左側の位置および右側の位置を含んでいる空間的な位置の水平のペア(または、水平の4つの部分から構成される)に関連している。換言すれば、単一の所与の非相関器を使用して非相関化するように結合される4つのレンダリングされたオーディオ信号の2つが、オーディオ・シーンの左側の空間的な位置に関連しており、同じ所与の非相関器を使用して非相関化するように結合される4つのレンダリングされたオーディオ信号の2つが、オーディオ・シーンの右側の空間的な位置に関連している、図19cのプレミキシング行列Mpreの第2行において示されうる。さらに、レンダリングされたオーディオ信号の「対称な」4つの部分から構成されることは、単一の(個々の)非相関器を使用して非相関化するようにプレミックスすることによって結合されるように、(前記4つのレンダリングされたオーディオ信号の)左側のレンダリングされたオーディオ信号は、(前記4つのレンダリングされたオーディオ信号の)右側のレンダリングされたオーディオ信号に関連している空間的な位置を伴って、オーディオ・シーンの中心面に関して対称的である空間的な位置に関連している。
図19d,19e,19fおよび19gを参照して、ますますレンダリングされたオーディオ信号が、(個々の)非相関器の数が減少とともに(すなわち、Kの減少とともに)結合されることが分かる。図19a〜図19gに示すように、典型的に、2つに分かれたダウンミックスされた非相関器入力信号にダウンミックスされるレンダリングされたオーディオ信号は、1によって非相関器の数を減少させる場合、結合される。さらに、典型的に、空間的な位置の「対称な4つの部分から構成される」に関連している、この種のレンダリングされたオーディオ信号が、結合される。ここで、非相関器の比較的高い数に対して、等しいか、少なくとも類似の水平位置(または方位角位置)に関連しているレンダリングされたオーディオ信号が結合される。その一方で、非相関器の比較的低い数に対して、オーディオ・シーンの対向側における空間的な位置に関連しているレンダリングされたオーディオ信号も結合される。
今、図20a〜20d、21a〜21c、22a〜22bおよび23を参照して、類似のコンセプトが、レンダリングされたオーディオ信号の異なる数に対しても適用されうる。
例えば、図20a〜20dは、N=10およびKは2と5の間に対する、プレミキシング行列Mpreの入力を記載する。
同様に、図21a〜21cは、N=8およびKは2と4の間に対する、プレミキシング行列Mpreの入力を記載する。
同様に、図21d〜21fは、N=7およびKは2と4の間に対する、プレミキシング行列Mpreの入力を記載する。
図22aおよび22bは、N=5ならびにK=2およびK=3に対する、プレミキシング行列の入力を示す。
最後に、図23は、N=2およびK=1に対する、プレミキシング行列の入力を示す。
要約すると、マルチチャネル・オーディオ・デコーダの一部であるマルチチャネル非相関器において、図19〜23によるプレミキシング行列は、切り替え可能な方法で使用されうる。プレミキシング行列の間の切り替えは、例えば、(N個のレンダリングされたオーディオ信号を典型的に決定する)所望の出力構成に基づき、そして、(例えば、パラメータKを決定し、そして、オーディオ・コンテンツの符号化表現において含まれる複雑さの情報に基づいて調整されうる)非相関化の所望の複雑さにも基づいて、実行されうる。
今、図24を参照して、22.2出力フォーマットのための複雑さの低減が、詳細に記載されている。既に、上で概説されるように、プレミキシング行列およびポストミキシング行列を構成するための1つの可能な解決法は、一緒に混合されたチャネルを選択するために、再生レイアウトの空間的情報を使用することであり、そして、ミキシング係数を算出する。それらの位置に基づいて、幾何学的に関連したスピーカ(および、例えば、それに関連しているレンダリングされたオーディオ信号)は、図24において記載されるように垂直および水平の対を与え、グループ化される。換言すれば、図24は、表の形式において、レンダリングされたオーディオ信号に関連しうるように、スピーカの位置のグループ分けを示す。例えば、第1行2410は、オーディオ・シーンの中央におけるスピーカ位置の第1グループを記載する。第2行2412は、空間的に関連しているスピーカ位置の第2グループを表す。スピーカ位置「CH_M_L135」および「CH_U_L135」は、同一の方位角位置(または水平位置に同等)および隣接する仰角位置(または垂直に隣接する位置に同等)に関連している。同様に、位置「CH_M_R135」および「CH_U_R135」は、同一の方位角(または同一の水平位置に同等)および同様の仰角(または垂直に隣接する位置に同等)を含む。さらに、位置「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」は、位置の4つの部分から構成される。ここで、位置「CH_M_L135」および「CH_U_L135」は、オーディオ・シーンの中心面に関して、位置「CH_M_R135」および「CH_U_R135」に対称である。さらに、位置「CH_M_180」および「CH_U_180」も同一の方位角の位置(または同一の水平位置に同等)および同様の仰角(または隣接する垂直位置に同等)を含む。
第3行2414は、位置の第3グループを表す。位置「CH_M_L030」および「CH_L_L045」は、空間的に隣接する位置であり、同様な方位角(または同様な水平位置に同等)および同様な仰角(または同様な垂直位置に同等)を含む点に留意されたい。同じことは、位置「CH_M_R030」および「CH_L_R045」に対しても維持する。さらに、位置の第3グループの位置は、位置の4つの部分から構成されるように形成される。ここで、位置「CH_M_L030」および「CH_L_045」は、位置「CH_M_R030」および「CH_L_R045」に空間的に隣接しており、オーディオ・シーンの中心面に関して対称である。
第4行2416は、4つの追加の位置を表し、第2行の第1の4つの位置と比較したとき、同様の特性を有しており、位置の対称に4つの部分から構成されるように形成する。
第5行2418は、対称の位置「CH_M_L060」、「CH_U_L045」、「CH_M_R060」および「CH_U_R045」の他の4つの部分から構成されることを表す。
さらに、位置の異なるグループの位置に関連しているレンダリングされたオーディオ信号は、非相関器の数の減少とともにますます結合されうる点に留意されたい。例えば、マルチチャネル非相関器における11個の個々の非相関器において、第1および第2列における位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。加えて、第3および第4列において表される位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。さらに、第5および第6列において示される位置に関連しているレンダリングされたオーディオ信号は、第2グループに対して結合される。従って、(個々の非相関器に入力される)11個のダウンミックス非相関器入力信号が得られうる。しかしながら、より少ない個々の非相関器を有することが望ましい場合、1〜4列において示される位置に関連しているレンダリングされたオーディオ信号は、1つ以上のグループに対して結合されうる。また、個々の非相関器の数をさらに減少することが望ましい場合、第2のグループのすべての位置に関連しているレンダリングされたオーディオ信号が結合されうる。
要約すると、出力レイアウト(例えば、スピーカに)に供給される信号は、水平および垂直依存があり、非相関化処理の間、維持されなければならない。従って、異なるスピーカのグループに対応するチャネルが一緒に混合されないように、ミキシング係数は算出される。
利用可能な非相関器の数、または非相関化の所望のレベルに応じて、各グループにおいて、第1は、(中間層および上層との間、または中間層および下層の間における)垂直のペアを一緒に混合される。第2に、(左と右の間における)水平のペアまたは残りの垂直のペアが一緒に混合される。例えば、グループ3において、最初に、左の垂直のペア(「CH_M_L030」および「CH_L_L045」)と右の垂直のペア(「CH_M_R030」および「CH_L_R045」)におけるチャネルが一緒に混合され、このようにして、4から2まで、このグループのための必要な非相関器の数を減少する。非相関器の数をより減らすことが望ましい場合、得られた水平ペアは、1つのチャネルのみにダウンミックスされ、このグループのための必要な非相関器の数は、4から1まで減らされる。
提示された混合規則に基づいて、(例えば、図19〜23において示される)前述の表は、所望の非相関器の異なるレベルに対して(または、所望の非相関器の複雑さの異なるレベルに対して)導出される。
16.第2の外部のレンダラ/フォーマット変換器との互換性
SAOCデコーダ(または、さらに一般的にいえば、マルチチャネル・オーディオ・デコーダ)が、外部の第2のレンダラ/フォーマット変換器と共に使用される場合、以下において、提案されたコンセプト(方法または装置)に対する変更が、使用されうる。

− 非相関器の数が、レンダラ/フォーマット変換器から受信されたフィードバック情報に基づいて算出されるプレミキシング行列Mpreを有するセクション15において記載される方法を使用して低減される(例えば、Mpre=Dconvert、ここで、Dconvertは、フォーマット変換器の内部で使用されるダウンミックス行列である。)。SAOCデコーダの外側で一緒に混合されるチャネルは、一緒にプレミックスされ、そして、SAOCデコーダの内部の同じ非相関器に供給される。
外部フォーマット変換器を用いて、SAOC内部レンダラは、中間の構造(例えば、最多数のスピーカの構造)にプレレンダラする。
結論として、プレミキシング行列が、外部レンダラに実際に結合される(非相関器入力信号の第1のセットの)この種の非相関器入力信号の組み合わせを定義するように、いくつかの実施の形態において、出力オーディオ信号についての情報は、外部レンダラにおいて一緒に混合されるか、またはフォーマット変換器がプレミキシング行列Mpreを決定するように使用される。このように、(マルチチャネル非相関器の出力オーディオ信号を受信する)外部レンダラ/フォーマット変換器から受信された情報は(例えば、マルチチャネル・オーディオ・デコーダの内部レンダリング行列が固有にセットされるか、または、中間のレンダリング構造から導出されたミキシング係数に初期化するように設定される場合)、プレミキシング行列を選択もしくは調整するように使用され、そして、外部レンダラ/フォーマット変換器は、マルチチャネル・オーディオ・デコーダに関して、上記したように出力オーディオ信号を受信するように接続される。
17.ビットストリーム
以下において、追加の信号伝達情報がビットストリームにおいて(または、オーディオ・コンテンツの符号化表現において、同等に)使用されうることが記載される。本発明による実施の形態において、非相関化の方法は、所望の品質レベルを確実にするためのビットストリームに信号を送信されうる。このような方法で、ユーザ(またはオーディオ・エンコーダ)は、コンテンツに基づいて方法を選択するように、より多くの柔軟性を有する。この目的のために、MPEG SAOCビットストリーム構文は、例えば、使用された非相関化の方法を特定するための2ビットおよび/または構造(または複雑さ)を特定するための2ビットによって延長されうる。
図25は、例えば、ビットストリーム部「SAOCSpecifigConfig()」または「SAOC3DSSpecificConfig()」に追加されうる、ビットストリーム要素「bsDecorrllationMethod」および「bsDecorrelationLevel」の構文表現を示す。図25に示されるように、2つのビットは、ビットストリーム要素「bsDecorrelationMethod」のために使用され、そして、2つのビットは、ビットストリーム要素「bsDecorrelationLevel」のために使用されうる。
図26は、表の形式において、ビットストリーム変数「bsDecorrelationMethod」の値と異なる非相関化方法との間の関連性を示す。例えば、3つの異なる非相関化の方法が、前記ビットストリーム変数の異なる値によって信号を送信されうる。例えば、セクション14.3において記載されるように、例えば、非相関化信号を使用する出力共分散修正は、オプションのうちの1つとして信号を送信されうる。他のオプションとして、例えば、セクション14.4.1において記載されるように、共分散調整方法が信号を送信されうる。さらにもう1つのオプションとして、例えば、セクション14.4.2において記載されるように、エネルギー補償方法が信号を送信されうる。従って、レンダリングされたオーディオ信号および非相関化オーディオ信号に基づいて出力オーディオ信号の信号特性の再構成のための3つの異なる方法は、ビットストリーム変数に依存して選択されうる。
エネルギー補償モードは、セクション14.4.2において記載される方法を使用し、、制限された共分散調整モードは、セクション14.4.1において記載される方法を使用し、一般の共分散調整モードは、セクション14.3において記載される方法を使用する。
今、表の表現の形式において、異なる非相関化レベルが、ビットストリーム変数「bsDecorrelationLevel」によってどのように信号を送信されうるかを示す図27への参照することで、非相関化の複雑さを選択する方法が記載される。換言すれば、前記変数は、非相関化の複雑さが使用されるかについて決定するように、上記のマルチチャネル非相関器を含むマルチチャネル・オーディオ・デコーダによって評価されうる。例えば、前記ビットストリーム・パラメータは、値0,1,2および3を示されうる異なる非相関化「レベル」の信号を送信しうる。
(例えば、非相関化レベルとして示されうる)非相関化の構成の例が、図27の表において与えられる。図27は、異なる「レベル」(例えば、非相関化レベル)および出力構造のための非相関器の数の表の表現を示す。換言すれば、図27は、マルチチャネル非相関器によって使用される(非相関器入力信号の第2のセットの)K個の非相関器入力信号を示す。図27の表において示されるように、ビットストリーム・パラメータ「bsDecorrelationLevelによって信号を送信される「非相関化レベル」に基づいて、マルチチャネル非相関器において使用される(個々の)非相関器の数は、22.2の出力構造に対して、11,9,7および5の間において切り替えられる。10.1の出力構造に対して、選択は、10,5,3および2の個々の非相関器の間においてなされ、8.1の構造に対して、選択は、8,4,3または2の個々の非相関器の間においてなされ、そして、7.1の出力構造に対して、選択は、前記ビットストリーム・パラメータによって信号を送信される「非相関化レベル」に依存する、7,4,3および2の間において切り替えられる。5.1の出力構造において、個々の非相関器の数、すなわち、5,3または2のような個々の非相関器の数のための3つの有効なオプションのみを有する。2.1の出力構造に対して、2つの個々の非相関器(非相関化レベル0)と1つの個々の非相関器(非相関化レベル1)との間の選択のみである。
要約すると、非相関化の方法は、計算機のパワーおよび利用可能な非相関器の数に基づいて、デコーダ側で決定されうる。加えて、非相関器の数の選択は、エンコーダ側でなされ、ビットストリーム・パラメータを使用して信号の送信がなされる。
従って、出力オーディオ信号を得るために、非相関化オーディオ信号がどのように適用されるか2つの方法が適用され、そして、非相関化信号の供給のための複雑さが、図25において示されるビットストリームを使用してオーディオ・エンコーダのサイドから制御され、そして、図26および27においてより詳細に定義される。
18.発明の処理のためのアプリケーションの分野
オーディオ・シーンの人間の認識のためのより大きな重要性である導かれた方法の目的のうちの1つが、オーディオ・キューを復元することである点に留意されたい。本発明による実施の形態は、エネルギーのレベルおよび相関特性の再構成の正確さを改良し、従って、最後の出力信号の知覚的なオーディオ品質を増加させる。本発明による実施の形態は、任意の数のダウンミックス/アップミックスチャネルのために適用されうる。さらに、本願明細書において記載される方法および装置は、既存のパラメータのソース分離アルゴリズムと結合されうる。本発明による実施の形態は、適用される非相関化の機能の数における設定の制約によってシステムの計算の複雑さを制御することを許容する。本発明による実施の形態は、MPSとトランスコーディング・ステップを取り除くことによって、SAOCのようなオブジェクト・ベースのパラメトリック構造アルゴリズムの簡略化に通じうる。
19.符号化/復号化の環境
以下において、本発明によるコンセプトにおけるオーディオ符号化/復号化の環境が記載される。
本発明によるコンセプトが使用されうる3Dオーディオ・コーデック・システムは、チャネルの符号化のためのMPEG−D USACコーデックおよびオブジェクトの大量の符号化のための効率を増加させるためのオブジェクト信号に基づく。MPEG−SAOC技術は、適応されている。レンダラの3つのタイプは、チャネルのレンダリングオブジェクト、ヘッドホンへのレンダリングチャネル、または異なるスピーカセットへのレンダリングチャネルのタスクを実行する。オブジェクト信号が、SAOCを使用して明確に送信されるか、またはパラメータ的に符号化される場合に、対応するオブジェクトのメタデータ情報が圧縮され、そして、3Dオーディオ・ストリームに多重化される。
図28,29および30は、3Dオーディオ・システムの異なるアルゴリズムのブロックに示す。
図28は、この種のオーディオ・エンコーダのブロック概略図を示し、そして、図29は、この種のオーディオ・デコーダのブロック概略図を示す。換言すれば、図28および29は、3Dオーディオ・システムの異なるアルゴリズムのブロックを示す。
3Dオーディオ・エンコーダ2900のブロック概略図を示す図28を参照することで、いくつかの詳細は説明される。エンコーダ2900は、1つ以上のチャネル信号2912および1つ以上のオブジェクト信号2914を受信し、そして、それに基づいて、1つ以上のチャネル信号2916および1つ以上のオブジェクト信号2918,2920を供給するオプションのプレレンダラ/ミキサ2910を含む。オーディオ・エンコーダは、USACエンコーダ2930および任意にSAOCエンコーダ2940も含む。SAOCエンコーダ2940は、1つ以上のSAOCトランスポート・チャネル2942およびSAOCエンコーダに供給される1つ以上のオブジェクト2920に基づいてSAOCサイド情報2944を供給するように構成される。さらに、USACエンコーダ2930は、プレレンダラ/ミキサ2910からチャネルおよびプレレンダリングされたオブジェクトを含むチャネル信号2916を受信し、プレレンダラ/ミキサ2910から1つ以上のオブジェクト信号2918を受信し、そして、1つ以上のSAOCトランスポート・チャネル2942およびSAOCサイド情報2944を受信し、そして、それに基づいて、符号化表現2932を供給するように構成される。さらに、オーディオ・エンコーダ2900は、(プレレンダラ/ミキサ2910によって評価されうる)オブジェクト・メタデータ2952を受信し、符号化オブジェクト・メタデータ2954を得るためにオブジェクト・メタデータを符号化するように構成される、オブジェクト・メタデータ・エンコーダ2950も含む。符号化メタデータは、USACエンコーダ2930によっても受信され、符号化表現2932を供給するために使用される。
オーディオ・エンコーダ2900の個々の構成要素に関するいくつかの詳細が以下に説明される。
図29を参照することで、オーディオ・デコーダ3000が記載される。オーディオ・デコーダ3000は、符号化表現3010を受信し、それに基づいて、マルチチャネル・スピーカ信号3012、ヘッドホン信号3014および/または代替フォーマットにおける(例えば、5.1フォーマットにおける)スピーカ信号3016を供給するように構成される。オーディオ・デコーダ3000は、符号化表現3010に基づいて、1つ以上のチャネル信号3022、1つ以上のプレレンダリングされたオブジェクト信号3024、1つ以上のオブジェクト信号3026、1つ以上のSAOCトランスポート・チャネル3028、SAOCサイド情報3030および圧縮されたオブジェクト・メタデータ情報3032を供給する、USACデコーダ3020を含む。オーディオ・デコーダ3000は、1つ以上のオブジェクト信号3026およびオブジェクト・メタデータ情報3044に基づいて、1つ以上のレンダリングされたオブジェクト信号3042を供給するように構成されるオブジェクト・レンダラ3040も含む。ここで、オブジェクト・メタデータ情報3044は、圧縮されたオブジェクト・メタデータ情報3032に基づいて、オブジェクト・メタデータ・デコーダ3050によって供給される。オーディオ・デコーダ3000は、SAOCトランスポート・チャネル3028およびSAOCサイド情報3030を受信し、それに基づいて、1つ以上のレンダリングされたオブジェクト信号3062を供給するように構成されるSAOCデコーダ3060も任意に含む。オーディオ・デコーダ3000は、チャネル信号3022、プレレンダリングされたオブジェクト信号3024.レンダリングされたオブジェクト信号3042、およびレンダリングされたオブジェクト信号3062を受信し、それに基づいて、例えば、マルチチャネル・スピーカ信号3012を構成する複数の混合チャネル信号3072を供給するように構成されるミキサ3070も含む。オーディオ・デコーダ3000は、例えば、混合チャネル信号3072を受信し、それに基づいて、ヘッドホン信号3014を供給するように構成される、バイノーラル・レンダラ3080も含む。さらに、オーディオ・デコーダ3000は、混合チャネル信号3072および再構成レイアウト情報3092を受信し、それに基づいて、代替のスピーカセットのためにスピーカ信号3016を供給するように構成されるフォーマット変換器3090を含みうる。
以下において、オーディオ・エンコーダ2900およびオーディオ・デコーダ3000の構成要素に関するいくつかの詳細が、記載されている。
19.1 プレレンダラ/ミキサ
プレレンダラ/ミキサ2910は、符号化前に、チャネルに加えて、オブジェクト入力シーンをチャネル・シーンに変換するために任意に使用されうる。機能的に、例えば、それは、後述するオブジェクト・レンダラ/ミキサと同一もありうる。
オブジェクトのプレレンダリングは、同時に能動的なオブジェクト信号の数から独立しているエンコーダ入力での決定論的な信号エントロピーを、例えば、確実にしうる。
オブジェクトのプレレンダリングについて、オブジェクト・メタデータの伝送は、必要とされない。
個別のオブジェクト信号は、エンコーダが使用するように構成されるチャネル・レイアウトにレンダリングされ、各チャネルに対するオブジェクトの重みは、関連するオブジェクト・メタデータ(OAM)1952から得られる。
19.2 USACはの主要部のコーデック
スピーカチャネル信号、個々のオブジェクト信号、オブジェクト・ダウンミックス信号およびプレレンダリングされた信号のための主要部のコーデック2930,3020は、MPEG−D USAC技術に基づく。それは、入力チャネルおよびオブジェクト割り当ての幾何学的および意味論的な情報に基づくチャネルおよびオブジェクト・マッピング情報による多数の信号の復号化を扱う。このマッピング情報は、どのように、入力チャネルおよびオブジェクトがUSACチャネル要素(CPE,SCE,LFE)にマッピングされるか、そして、対応する情報は、デコーダに送信されるかを記載する。
SAOCデータまたはオブジェクト・メタデータのようなすべての追加のペイロードは、拡張要素を通して渡しており、エンコーダにおいて考慮されている。オブジェクトの復号化は、レンダラのためレート/歪みの前提条件および双方向性の前提条件によって決まる異なる方法で可能である。以下のオブジェクト符号化変数が可能である。
・ プレレンダリングされたオブジェクト:オブジェクト信号は、符号化前にプレレンダリングされ、22.2チャネル信号に混合される。次の符号化チェーンは、22.2チャネル信号を参照する。
・ 別々のオブジェクト波形:エンコーダにモノラル波形として適用されるようなオブジェクト。エンコーダは、チャネル信号に加えて、オブジェクトを送信するために単一のチャネル要素SCEを使用する。復号化オブジェクトは、レンダリングされ、受信側で混合される。圧縮されたオブジェクト・メタデータ情報は、同時に、受信機/レンダラに送信される。
・ パラメータのオブジェクト波形:オブジェクト特性および各々に対するそれらの関係は、SAOCパラメータによって記載されている。オブジェクト信号のダウンミックスは、USACによって符号化される。パラメータ情報は、同時に送信される。ダウンミックスの数は、オブジェクトの数および全体のデータレートに応じて選択される。圧縮されたオブジェクト・メタデータ情報は、SAOCレンダラに送信される。
19.3. SAOC
オブジェクト信号のためのSAOCエンコーダ2940およびSAOCデコーダ3060は、MPEG SAOC技術に基づく。システムは、送信されたチャネルおよび付加的なパラメータ・データ(オブジェクト・レベル差OLD、内部オブジェクト相関IOC、ダウンミックス・ゲインDMG)より少ない数に基づいて、オーディオ・オブジェクトの数を再形成し、修正し、そしてレンダリングすることができる。付加的なパラメータのデータは、復号化を非常に効率的にし、個々に、すべてのオブジェクトを送信するための必要であるより著しく低いデータレートを示す。SAOCエンコーダは、モノラル波形としてオブジェクト/チャネル信号を入力し、そして、(3Dオーディオ・ビットストリーム2932,3010に圧縮される)パラメトリック情報および(単一のチャネル要素を使用して符号化され、送信される)SAOCトランスポート・チャネルを出力する。SAOCデコーダ3000は、復号化SAOCトランスポート・チャネル3028およびパラメータの情報3030からオブジェクト/チャネル信号を再構成し、再構成レイアウト、展開されたオブジェクト・メタデータ情報およびユーザ相互作用情報のオプションに基づいて、出力オーディオ・シーンを生成する。
19.4. オブジェクト・メタデータ・コーデック
オブジェクト毎に、3D空間におけるオブジェクトの幾何学的な位置および量を特定する関連するメタデータは、時間および空間のオブジェクト特性の量子化によって、効率よく符号化される。圧縮されたオブジェクト・メタデータcOAM2954,3032は、サイド情報として受信機に送信される。
19.5. オブジェクト・レンダラ/ミキサ
オブジェクト・レンダラは、所与の再構成フォーマットに従ってオブジェクト波形を生成するために、展開されたオブジェクト・メタデータOAM3044を利用する。各オブジェクトは、そのメタデータに従って、特定の出力チャネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から結果を得る。
コンテンツと個々の/パラメータのオブジェクトに基づく両方のチャネルが復号化される場合、結果として得られる波形を出力する前に(または、バイノーラル・レンダラもしくはスピーカ・レンダラ・モジュールのようなポスト・プロセッサ・モジュールにそれらを供給する前に)、チャネル・ベースの波形とレンダリングされたオブジェクトの波形が混合される。
19.6. バイノーラル・レンダラ
各入力チャネルが仮想音源によって表されるように、バイノーラル・レンダラ・モジュール3080は、マルチチャネル・オーディオ材料のバイノーラルのダウンミックスを生じる。処理は、QMF領域にフレームごとに実行される。バイノーラル化は、測定されたバイノーラルの部屋のインパルス応答に基づく。
19.7 スピーカ・レンダラ/フォーマット変換器
スピーカ・レンダラ3090は、送信されたチャネル構成および所望の再生フォーマットとの間で変換する。以下において、それは、「フォーマット変換器」と呼ばれる。フォーマット変換器は、より少ない数の出力チャネルに変換する、すなわち、ダウンミックスを生成する。システムは、自動的に入出力フォーマットの所与の組み合わせのための最適化されたダウンミックス行列を生成して、ダウンミックス処理においてこれらの行列を適用する。フォーマット変換器は、標準のスピーカの構成と同様に、非標準のスピーカの位置を有するランダムな構成を許容する。
図30は、フォーマット変換器のブロック概略図を示す。換言すれば、図30は、フォーマット変換器の構造を示す。
図で示されるように、フォーマット変換器3100は、ミキサ出力信号3110、例えば、混合チャネル信号3072を受信し、スピーカ信号3112、例えば、スピーカ信号3016を供給する。フォーマット変換器は、QMF領域におけるダウンミックス処理3120およびダウンミックス・コンフィギュレータ3130を含む。ここで、ダウンミックス・コンフィギュレータは、ミキサ出力レイアウト情報3032および再構成レイアウト情報3034に基づいて、コンフィギュレーション情報をダウンミックス処理3020に供給する。
19.8.概論
さらに、本願明細書において記載されたコンセプト、例えば、オーディオ・デコーダ100、オーディオ・エンコーダ200、マルチチャネル非相関器600、マルチチャネル・オーディオ・デコーダ700、オーディオ・エンコーダ800またはオーディオ・デコーダ1550が、オーディオ・エンコーダ2900および/またはオーディオ・デコーダ3000において使用されうる点に留意されたい。例えば、前述のオーディオ・エンコーダ/デコーダは、SAOCエンコーダ2940の一部としておよび/またはSAOCデコーダ3060の一部として使用されうる。一方、前述のコンセプトは、3Dオーディオ・デコーダ3000および/またはオーディオ・エンコーダ2900の他の位置でも使用されうる。
当然、前述の方法は、図28および29に従って、オーディオ情報を符号化または復号化するためのコンセプトにおいても使用されうる。
20.付加的な実施の形態
20.1 はじめに
以下において、本発明による他の実施の形態が、記載される。
図31は、本発明の実施の形態によるダウンミックス・プロセッサのブロック概略図を示す。
ダウンミックス・プロセッサ3100は、アップミキサ3110、レンダラ3120、コンバイナ3130およびマルチチャネル非相関器3140を含む。レンダラは、レンダリングされたオーディオ信号Ydryをコンバイナ3130およびマルチチャネル非相関器3140に供給する。マルチチャネル非相関器は、(非相関器入力信号の第1のセットとしてみなされうる)レンダリングされたオーディオ信号を受信し、それに基づいて非相関器入力信号のプレミックスされた第2のセットを非相関器の主要部3160に供給する、プレミキサ3150を含む。非相関器の主要部は、ポスト・ミキサ3170によって利用するために、非相関器入力信号の第2のセットに基づいて、非相関器出力信号の第1のセットを供給する。ポスト・ミキサは、コンバイナ3130に供給されるポストミックスされた非相関器出力信号の第2のセットを得るために、非相関器の主要部3160によって供給された非相関器出力信号をポストミックス(または、アップミックス)する。
レンダラ3130は、例えば、レンダリングするための行列Rを適用し、プレミキサは、例えば、プレミックスするための行列Mpreを適用し、ポスト・ミキサは、例えば、ポストミックスするための行列Mpostを適用し、そして、コンバイナは、例えば、結合するための行列Pを適用する。
ダウンミックス・プロセッサ3100または個々の構成要素またはその機能は、本願明細書において記載されるオーディオ・デコーダにおいて、使用されうる点に留意されたい。さらに、ダウンミックス・プロセッサは、本願明細書において記載されるいくつかの特徴および機能によって補充されうる点に留意されたい。
20.2. SAOC 3D処理
ISO/IEC 23003−1:2007に記載されているハイブリッド・フィルタバンクが適用される。DMG、OLD、IOCパラメータの逆量子化は、ISO/IEC 23003−2:2010の7.1.2において定義されるように同じ規則に従う。
20.2.1 信号およびパラメータ
オーディオ信号は、あらゆる時間枠nおよびあらゆるハイブリッド・サブバンドkに対して定義される。対応するSAOC 3Dパラメータは、各パラメータ時間枠lおよび処理バンドmに対して定義される。ハイブリッドおよびパラメータ領域間の次のマッピングは、ISO/IEC 23003−1:2007の表A.31によって特定される。それゆえ、すべての計算は、特定の時間/バンド・インデックスに関して実行され、そして、対応する次元は、各導入変数に対して暗に定義される。
SAOC 3Dデコーダで利用可能なデータは、マルチチャネル・ダウンミックス信号X、共分散行列E、レンダリング行列Rおよびダウンミックス行列Dで構成される。

ここで、逆量子化オブジェクト・パラメータは、

OLDi=DOLD(i,l,m),IOCi,j=DIOC(i,j,l,m)

として、得られる。


ここで、逆量子化ダウンミックス・パラメータは、

DMGi,j=DDMG(i,j,l)

として、得られる。





20.2.2 復号化
SAOC 3Dパラメータおよびレンダリング情報を用いて出力信号を得るための方法が記載される。SAOC 3Dデコーダは、例えば、SAOC 3Dパラメータ・プロセッサおよびSAOC 3Dダウンミックス・プロセッサから構成されうる。
20.2.2.1 ダウンミックス・プロセッサ
(ハイブリッドQMF領域において表される)ダウンミックス・プロセッサの出力信号は、SAOC 3Dデコーダの最後の出力を得ている、ISO/IEC 23003−1:2007において記載されるように、対応する合成フィルタバンクに供給される。ダウンミックス・プロセッサの詳細な構造は、図31において表現される。

ここで、Uは、パラメトリック・アンミキシング行列を表し、20.2.2.1.1および20.2.2.1.2.において定義される。
混合行列P=(Pdrywet)は、20.2.3において記載される。異なる出力構成のための行列Mpreは、図19〜23において与えられ、以下の方程式を使用して得られる。

図32において示されるように、復号化モードは、ビットストリーム要素bsNumSaocDmxObjestsによって制御される。
20.2.2.1.1 結合復号化モード
結合復号化モードの場合において、パラメトリック・アンミキシング行列Uは、

U=ED*

によって、与えられる。







ここで、行列Δの特異ベクトルvは、以下の特性方程式を使用して得られる。





20.2.4.1 エネルギー補償モード
エネルギー補償モードは、パラメトリック再構成においてエネルギーの損失に対して補償するために、非相関化信号を使用する。混合行列PdryおよびPwetは、

によって、与えられる。
ここで、λDec=4は、出力信号に加えられる非相関化要素の量を制限するために使用される定数である。





ターゲット共分散行列Cは、

として、特異値非相関化を使用して分解される。








20.2.5.2 更なる概念および詳細
更なる概念および付加的な詳細に関して、参照は、セクション20.2.4.2〜20.2.4.4にもなされる。
20.3 表記法に関する見解
異なる表記法が本出願の範囲内で用いられる点に留意する点に留意されたい。一方、特定の方程式に適用される表記法は、前後関係から明確である。


21. 実施変形例
いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、ブロックあるいは装置は、方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェアによって(または使用して)実行されうる。いくつかの実施の形態において、最も重要な方法のステップの1つ以上は、この種の装置によって実行されうる。
本発明の符号化された音声信号は、デジタル記憶媒体に保存されるか、または、ワイヤレス伝送媒体または例えば、インターネットのような有線の伝送媒体のような伝送媒体上に送信されうる。
特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータ・システムと協働するか(または、協働することができる)、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。
本発明による若干の実施の形態は、本願明細書において記載される方法のうちの1つが実行されるように、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。
通常、本発明の実施の形態は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの1つを実行するために作動される。プログラムコードは、機械可読キャリアに、例えば、格納されうる。
他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
換言すれば、従って、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、一般的には、有形でありおよび/または、暫定的である。
従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。
更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。
更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。
本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの1つを実行するためのコンピュータ・プログラムを(例えば、電子的にまたは光学的に)転送するために構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイルサーバを含む。
いくつかの実施の形態において、プログラミング可能な論理回路(例えば、現場でプログラム可能なゲートアレイ(Field Programmable Gate Array))が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。
上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。
参考文献

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[Blauert] J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.

[OCD] J. Vilkamo, T. Baeckstroem, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

International Patent No. WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO CODING" issued on 9 March 2006.



  1. 符号化表現(110;710;1516a;1516b;1518)に基づいて、少なくとも2つの出力オーディオ信号(112,114;712,714;1552a−1552n;3012)を供給するためのマルチチャネル・オーディオ・デコーダ(100;700;1550;3000)であって、
    前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号(142,144;1592a−1592n)を導出する(140;1590)ように構成され、
    前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する(150;1598)ように構成される、マルチチャネル・オーディオ・デコーダ。

  2. 前記マルチチャネル・オーディオ・デコーダは、パラメトリック再構成(120;1560)を使用して、前記複数のレンダリングされたオーディオ信号を得るためにレンダリングされた前記復号化されたオーディオ信号を得るように構成される、請求項1に記載のマルチチャネル・オーディオ・デコーダ。

  3. 前記復号化オーディオ信号は、再構成オブジェクト信号であり、
    前記マルチチャネル・オーディオ・デコーダは、サイド情報(1518)を使用して、1つ以上のダウンミックス信号(1516a,1516b)から前記再構成オブジェクト信号を導出するように構成される、請求項2に記載のマルチチャネル・オーディオ・デコーダ。

  4. 前記マルチチャネル・オーディオ・デコーダは、前記サイド情報からアンミキシング係数を導出し、前記アンミキシング係数を使用して、前記1つ以上のダウンミックス信号から前記再構成オブジェクト信号を導出するための前記アンミキシング係数を適用するように構成される、請求項3に記載のマルチチャネル・オーディオ・デコーダ。

  5. 前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号の所望の相関特性または共分散特性を少なくとも部分的に達成するように、前記レンダリングされたオーディオ信号と前記1つ以上の非相関化オーディオ信号とを結合するように構成される、請求項1ないし請求項4のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  6. 前記マルチチャネル・オーディオ・デコーダは、前記複数のレンダリングされたオーディオ信号を得るためにレンダリングされた前記復号化オーディオ信号(122;1562a−1562n)のパラメトリック再構成(120;1560)の間のエネルギー損失のために少なくとも部分的に補償するように、前記レンダリングされたオーディオ信号と前記1つ以上の非相関化オーディオ信号とを結合するように構成される、請求項1ないし請求項5のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  7. 前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号の所望の相関特性または所望の共分散特性を決定するように構成され、
    前記得られた出力オーディオ信号の相関特性または共分散特性が、前記所望の相関特性または所望の共分散特性(C)に近似するかまたは等しいように、前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号と前記1つ以上の非相関化オーディオ信号との結合(150;1598)を調整するように構成される、請求項1ないし請求項6のいずれかに記載のマルチチャネル・オーディオ・デコーダ。


  8. 前記マルチチャネル・オーディオ・デコーダは、複数のオーディオ・オブジェクトの特性および/または複数のオーディオ・オブジェクトの間における関係を記述しているオブジェクト相関情報またはオブジェクト共分散情報(EX)に基づいて、前記所望の相関特性または所望の共分散特性(C)を決定するように構成される、請求項7または請求項8に記載のマルチチャネル・オーディオ・デコーダ。

  9. 前記マルチチャネル・オーディオ・デコーダは、前記符号化表現に含まれるサイド情報(1518)に基づいて、前記オブジェクト相関情報またはオブジェクト共分散情報(EX)を決定するように構成される、請求項9に記載のマルチチャネル・オーディオ・デコーダ。

  10. 前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号および前記1つ以上の非相関化オーディオ信号の現実の相関特性または共分散特性(ES)を決定するように、および
    前記レンダリングされたオーディオ信号および前記1つ以上の非相関化オーディオ信号の前記現実の相関特性または共分散特性(ES)に基づいて、前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号と前記1つ以上の非相関化オーディオ信号との結合(150;1598)を調整するように構成される、請求項7ないし請求項10のいずれかに記載のマルチチャネル・オーディオ・デコーダ。



  11. 前記マルチチャネル・オーディオ・デコーダは、前記混合行列Pおよび前記混合行列Mを一緒に算出するように構成される、請求項12または請求項13に記載のマルチチャネル・オーディオ・デコーダ。





  12. 前記マルチチャネル・オーディオ・デコーダは、前記混合行列Pおよび前記混合行列Mを一緒に算出するように構成される、請求項17または請求項18に記載のマルチチャネル・オーディオ・デコーダ。



  13. 前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記レンダリングされたオーディオ信号の貢献が制限されるように、前記第1の相関マトリックスを決定するように構成され、および/または
    前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記非相関化オーディオ信号の貢献が制限されるように、前記第2の相関マトリックスを決定するように構成される、請求項17ないし請求項21のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  14. 前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記レンダリングされたオーディオ信号の貢献が制限されるように、前記レンダリングされたオーディオ信号の特性に基づいて、および/または、前記非相関化オーディオ信号の特性に基づいて、および/または、所望の出力オーディオ信号の特性に基づいて、および/または、混合されレンダリングされたオーディオ信号の推定された特性に基づいて、および/または、混合された非相関化オーディオ信号の推定された特性に基づいて、前記第1の相関マトリックスを決定するように構成され、および/または
    前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号に前記非相関化オーディオ信号の貢献が制限されるように、前記レンダリングされたオーディオ信号の特性に基づいて、および/または、前記非相関化オーディオ信号の特性に基づいて、および/または、所望の出力オーディオ信号の特性に基づいて、および/または、混合されレンダリングされたオーディオ信号の推定された特性に基づいて、および/または、混合された非相関化オーディオ信号の推定された特性に基づいて、前記第2の相関マトリックスを決定するように構成される、請求項17ないし請求項22のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  15. 前記レンダリングされたオーディオ信号、および/または、前記非相関化オーディオ信号、および/または、前記所望の出力オーディオ信号、および/または、前記混合されレンダリングされたオーディオ信号、および/または、前記混合された非相関化オーディオ信号の前記特性は、エネルギー特性、または、相関特性、または、共分散特性である、請求項23に記載のマルチチャネル・オーディオ・デコーダ。


  16. 前記閾値は、予め定められた固定閾値であるか、または、前記閾値は、たとえば、エネルギー特性、相関特性、および/または共分散特性のような信号特性に基づく時間変数、および/または周波数変数である、請求項25に記載のマルチチャネル・オーディオ・デコーダ。



  17. 前記マルチチャネル・オーディオ・デコーダは、単位行列であるか、またはその倍数である混合行列Pを設定し、そして、前記混合行列Mを算出するように構成される、請求項12または請求項13に記載のマルチチャネル・オーディオ・デコーダ。



  18. 前記マルチチャネル・オーディオ・デコーダは、所与のレンダリングされたオーディオ信号が、前記所与のレンダリングされたオーディオ信号自身の非相関化バージョンとともに混合されるのみという制約のもとに、前記混合行列P,Mを決定するように構成される、請求項12または請求項13に記載のマルチチャネル・オーディオ・デコーダ。

  19. 相互相関値または相互共分散値が不変である間、レンダリングされたオーディオ信号の自己相関値のみまたは自己共分散値のみが修正されるように、前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号と前記1つ以上の非相関化オーディオ信号とを結合するように構成される、請求項12または請求項13または請求項32に記載のマルチチャネル・オーディオ・デコーダ。

  20. 前記マルチチャネル・オーディオ・デコーダは、単位行列であるか、またはその倍数である前記混合行列Pを設定し、そして、Mが対角行列であるという制限のもと、前記混合行列Mを算出するように構成される、請求項12または請求項13または請求項32または請求項33に記載のマルチチャネル・オーディオ・デコーダ。

  21. ここで、Mは、前記1つ以上の非相関化オーディオ信号Wに適用される対角混合行列であり、そして、
    前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号の共分散行列の対角線要素が所望のエネルギーと等しくなるように、前記混合行列Mの対角線要素を算出するように構成される、請求項32または請求項33または請求項34に記載のマルチチャネル・オーディオ・デコーダ。


  22. 前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合するための方法を決定する場合、前記マルチチャネル・オーディオ・デコーダは、前記非相関化オーディオ信号の相関特性または共分散特性を考慮するように構成される、請求項1ないし請求項36のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  23. 所与の出力オーディオ信号が2つ以上のレンダリングされたオーディオ信号および少なくとも1つの非相関化オーディオ信号に基づいて供給されるように、前記マルチチャネル・オーディオ・デコーダは、レンダリングされたオーディオ信号と非相関化オーディオ信号とを混合するように構成される、請求項1ないし請求項28、または請求項37のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  24. 前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合するための方法を決定するために、異なる制約が適用される場合において、前記マルチチャネル・オーディオ・デコーダは、異なるモードの間で切り替えるように構成される、請求項1ないし請求項38のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  25. 前記マルチチャネル・オーディオ・デコーダは、
    前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第1のモード、
    前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、前記出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第2のモード、および
    前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化信号が、前記所与の非相関化信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第3のモード、
    の間で切り替えるように構成される、請求項1ないし請求項39のいずれかに記載のマルチチャネル・オーディオ・デコーダ。

  26. 前記マルチチャネル・オーディオ・デコーダは、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合するための前記3つのモードが使用されるかについて指し示す前記符号化表現のビットストリーム要素を評価し、そして、前記ビットストリーム要素に基づいて前記モードを選択するように構成される、請求項39または請求項40に記載のマルチチャネル・オーディオ・デコーダ。

  27. 少なくとも2つの入力オーディオ信号(210,212;1512a−1512n;2912,2914)に基づいて符号化表現(214;1516a,1516b,1518;2932)を供給するためのマルチチャネル・オーディオ・エンコーダ(200;1510;2900)であって、
    ここで、前記マルチチャネル・オーディオ・エンコーダは、前記少なくとも2つの入力オーディオ信号に基づき、1つ以上のダウンミックス信号(222;1516a,1516b)を供給する(220)ように構成され、
    前記マルチチャネル・オーディオ・エンコーダは、前記少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータ(232;1518)を供給する(230)ように構成され、そして、
    前記マルチチャネル・オーディオ・エンコーダは、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータ(242;1518)を供給する(240)ように構成される、マルチチャネル・オーディオ・エンコーダ。

  28. 前記マルチチャネル・オーディオ・エンコーダは、前記非相関化方法パラメータを選択的に供給し、オーディオ・デコーダの処理のための、
    前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容される、第1のモード、
    前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、前記出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号が、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンと結合されることが許容される、第2のモード、および
    前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する場合に、異なるレンダリングされたオーディオ信号の間における混合が許容されず、そして、所与の非相関化信号が、前記所与の非相関化信号から導出されたレンダリングされたオーディオ信号以外のレンダリングされたオーディオ信号と結合されることが許容されない、第3のモード、
    である以上に示す3つのモードの1つの信号を送信するように構成される、請求項42に記載のマルチチャネル・オーディオ・エンコーダ。

  29. 前記マルチチャネル・オーディオ・エンコーダは、前記入力オーディオ信号が比較的高い相関または比較的低い相関を含むかどうかに基づいて、前記非相関化方法パラメータを選択するように構成される、請求項42または請求項43に記載のマルチチャネル・オーディオ・エンコーダ。

  30. 前記マルチチャネル・オーディオ・エンコーダは、前記入力オーディオ信号の間の相関が比較的高い場合、前記第1のモードまたは前記第2のモードを指定するための前記非相関化方法パラメータを選択するように構成され、
    前記マルチチャネル・オーディオ・エンコーダは、前記入力オーディオ信号の間の相関が比較的低い場合、前記第3のモードを指定するための前記非相関化方法パラメータを選択するように構成される、請求項43に記載のマルチチャネル・オーディオ・エンコーダ。

  31. 符号化表現に基づく少なくとも2つの出力オーディオ信号を供給するための方法(300)であって、前記方法は、
    複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づいて、前記符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするステップ(310)と、
    前記レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するステップ(320)と、
    前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合するステップ(330)と、を含む、方法。

  32. 少なくとも2つの入力オーディオ信号に基づく符号化表現を供給するための方法(400)であって、前記方法は、
    前記少なくとも2つの入力オーディオ信号に基づく1つ以上のダウンミックス信号を供給するステップ(410)と、
    前記少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータを供給するステップ(420)と、
    オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップ(430)と、を含む、方法。

  33. コンピュータ・プログラムがコンピュータ上で実行されると、前記コンピュータが請求項46、または請求項47に記載の方法を実行する、コンピュータ・プログラム。

  34. 符号化オーディオ表現(500)は、
    ダウンミックス信号の符号化表現(510)、
    前記少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現(520)、および
    オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータ(530)を含む、符号化オーディオ表現。

 

 

Patent trol of patentswamp
類似の特許
1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、ミキシング情報を算出するパラメータプロセッサと、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサとを備える。ダウンミックスプロセッサは、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。1つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合され、1つ以上のオーディオオブジェクト信号はオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。パラメータプロセッサは、1つ以上のオーディオチャンネル信号及び1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成され、パラメータプロセッサは共分散情報を受信するように構成されている。さらに、パラメータプロセッサは、ダウンミックス情報に依存して、及び共分散情報に依存してミキシング情報を算出するように構成されている。ダウンミックスプロセッサは、ミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。共分散情報は1つ以上のオーディオチャンネル信号のうち少なくとも1つに対するレベル差情報を示し、さらに1つ以上のオーディオオブジェクト信号のうち少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと、1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示すことがない。
【選択図】図1
1つ以上のオーディオチャネルを生成する装置(100)が提供される。この装置は、1つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器(110)を備える。1つ以上の圧縮済みメタデータ信号の各々は複数の第1メタデータサンプルを含み、これら第1メタデータサンプルは1つ以上のオーディオオブジェクト信号のうちの1つのオーディオオブジェクト信号に関連する情報を示す。メタデータ復号器(110)は1つ以上の再生メタデータ信号を生成し、その再生メタデータ信号の各々が1つ以上の圧縮済みメタデータ信号の1つにおける第1メタデータサンプルを含み、さらに複数の第2メタデータサンプルを含む。メタデータ復号器(110)は、再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して、1つ以上の再生メタデータ信号の各再生メタデータ信号の第2メタデータサンプルの各々を生成する。さらにこの装置(100)は、1つ以上のオーディオオブジェクト信号に依存しかつ1つ以上の再生メタデータ信号に依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部(120)を備える。
【選択図】 図1
入力チャネル設定の複数の入力チャネルを出力チャネル設定の出力チャネルにマッピングする方法は前記複数の入力チャネルの各入力チャネルに関連付けされ、前記関連付けされた入力チャネルと出力チャネル群との間の異なるマッピングを定義する規則セットを提供する。前記複数の入力チャネルにおける各入力チャネルに対して、当該入力チャネルに関連付けされた規則を参照し、前記参照した規則において定義される前記出力チャネル群が前記出力チャネル設定に存在するか決定し、前記参照した規則において定義されている前記出力チャネル群が出力チャネル設定に存在する場合、前記参照した規則を選択する。前記選択した規則に応じて前記入力チャネルを前記出力チャネルにマッピングする。
入力チャネル設定の第1の入力チャネル及び第2の入力チャネルを出力チャネル設定の少なくとも1個の出力チャネルにマッピングするための装置であって、各入力チャネル及び各出力チャネルは対応するラウドスピーカが中央のリスナー位置に対して配置される方向を有し、前記装置は前記第1の入力チャネルを前記出力チャネル設定の第1の出力チャネルにマッピングする。前記装置は、更に、少なくともa)前記第2の入力チャネルを前記第1の出力チャネルにマッピングし、前記マッピングは少なくとも1個の等化フィルタ及び非相関フィルタを前記第2の入力チャネルに適用することにより前記第2の入力チャネルを処理するステップを備え、及び/又はb)前記第2の入力チャネルの方向と前記第1の出力チャネルの方向との間の角度差が、前記第2の入力チャネルの方向と前記第2の出力チャネルとの間の角度差より少ない、及び/又は前記第2の入力チャネルの方向と前記第3の出力チャネルの方向との間の角度差より少ないことに関わらず、前記第2の出力チャネルと前記第3の出力チャネルとの間のパニングにより、前記第2の入力チャネルを前記第2の出力チャネル及び前記第3の出力チャネルにマッピングするよう構成される装置を提供する。
1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、出力チャンネルミキシング情報を算出するパラメータプロセッサ(110)と、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(120)とを備える。ダウンミックスプロセッサ(120)は1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されており、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされている。オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則に依存する。第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示す。さらに、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。パラメータプロセッサ(110)は第2のミキシング規則に関する情報を受信するように構成されており、第2のミキシング規則に関する情報は1つ以上のオーディオトランスポートチャンネルが得られるように複数のプリミックスされた信号を混合する方法を示す。さらに、パラメータプロセッサ(110)は、2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するように構成されている。ダウンミックスプロセッサ(120)は、出力チャンネルミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
【選択図】図1
本発明の実施形態は適応的なオーディオ・コンテンツ生成に関する。具体的には、適応的なオーディオ・コンテンツを生成するための方法が提供される。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出し、少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成することを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。
本開示は、オーディオ符号化システムにおいてパラメータのベクトルをエンコードおよびデコードするための方法、装置およびコンピュータ・プログラム・プロダクトを提供する。本開示はさらに、オーディオ・デコード・システムにおいてオーディオ・オブジェクトを再構成するための方法および装置に関する。本開示によれば、非周期的な量のベクトルの符号化およびエンコードのためのモジュロ差分アプローチが、符号化効率を改善するとともにエンコーダおよびデコーダに低減されたメモリ要求を提供しうる。さらに、疎な行列をエンコードおよびデコードするための効率的な方法が提供される。
少なくとも1個の周波数帯(36)を有し、少なくとも1個の周波数帯(36)において複数の入力チャネル(38)を有する入力音声信号(37)を処理するよう構成される音声信号処理デコーダであって、デコーダ(2)は、入力音声信号(37)を分析するよう構成され、入力チャネル(38)間のチャネル間依存性(39)が特定され、デコーダ(2)は、特定されたチャネル間依存性(39)に応じて入力チャネル(38)の位相をアライメントするよう構成され、入力チャネル(38)の位相はそのチャネル間依存性(39)が高いほど相互に対してよりアライメントされ、デコーダ(2)は、アライメントされた入力音声信号を、入力チャネル(38)の数より少ない数の出力チャネル(41)を有する出力音声信号(40)にダウンミックスするよう構成される。
【選択図】図1
1つ以上のオーディオチャネルを生成する装置(100)が提供される。この装置は、制御信号に依存して1つ以上の処理済みメタデータ信号から1つ以上の再生メタデータ信号を生成するメタデータ復号器(110)であって、1つ以上の再生メタデータ信号の各々は1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、1つ以上の再生メタデータ信号の各々について複数の再生メタデータサンプルを決定することにより1つ以上の再生メタデータ信号を生成する、メタデータ復号器(110)を備える。さらにこの装置は、1つ以上のオーディオオブジェクト信号と1つ以上の再生メタデータ信号とに依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部(120)を備える。メタデータ復号器(110)は、1つ以上の処理済みメタデータ信号の各々の複数の処理済みメタデータサンプルと、制御信号とを受信する。さらに、メタデータ復号器(110)は、1つ以上の再生メタデータ信号の各再生メタデータ信号の複数の再生メタデータサンプルの各再生メタデータサンプルを、制御信号が第1状態=0)を示すときには、再生メタデータサンプルが1つ以上の処理済みメタデータ信号の1つにおける処理済みメタデータサンプルの1つと再生メタデータ信号の他の1つの既に生成された再生メタデータサンプルとの合計であり、制御信号が第1状態とは異なる第2状態=1)を示すときには、再生メタデータサンプルが1つ以上の処理済みメタデータ信号の1つにおける処理済みメタデータサンプルの1つであるように、決定する。
【選択図】 図1
1つまたは複数のプロセッサを備えるデバイスは、音声信号の複数の適応的に重み付けられたチャンネルを生成するために、適応的に決定された重みを音声信号の複数のチャンネルに適用するように構成される。プロセッサは、結合された信号を生成するために、音声信号の複数の適応的に重み付けられたチャンネルのうちの少なくとも2つを結合するようにさらに構成される。プロセッサは、バイノーラル音声信号を生成するために、バイノーラル室内インパルス応答フィルタを結合された信号に適用するようにさらに構成される。
To top