拡張空間オーディオオブジェクト符号化の装置及び方法

著者らは特許

G10L19/008 - マルチチャネルオーディオ信号の符号化及び復号化,チャネル間の関係を使用して冗長性を減少させるもの,例.ジョイントステレオ,インテンシティ符号化又はマトリキシング
H04S - ステレオ方式
H04S3/00 - 3チャンネル以上,例.4チャンネル,を用いる方式,(H04S5/00,H04S7/00が優先)
H04S3/02 - マトリクス形式,すなわち.入力信号が代数学的に組み合わされるもの,例.互いに関して位相推移がなされた後組み合わされるもの
H04S7/00 - 指示装置;制御装置,例.バランス制御

の所有者の特許 JP2016528542:

フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

 

1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、ミキシング情報を算出するパラメータプロセッサと、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサとを備える。ダウンミックスプロセッサは、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。1つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合され、1つ以上のオーディオオブジェクト信号はオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。パラメータプロセッサは、1つ以上のオーディオチャンネル信号及び1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成され、パラメータプロセッサは共分散情報を受信するように構成されている。さらに、パラメータプロセッサは、ダウンミックス情報に依存して、及び共分散情報に依存してミキシング情報を算出するように構成されている。ダウンミックスプロセッサは、ミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。共分散情報は1つ以上のオーディオチャンネル信号のうち少なくとも1つに対するレベル差情報を示し、さらに1つ以上のオーディオオブジェクト信号のうち少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと、1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示すことがない。
【選択図】図1

 

 

本発明は、オーディオ符号化/復号化に関し、詳しくは空間オーディオ符号化及び空間オーディオオブジェクト符号化に関し、より詳しくは拡張空間オーディオオブジェクト符号化の装置及び方法に関する。
空間オーディオ符号化ツールは、当該技術分野において周知であり、例えば、MPEGサラウンド規格において標準化されている。空間オーディオ符号化は、再生セットアップにおけるチャンネル配置によって識別された5つ又は7つのチャンネルのような元の入力チャンネル、すなわち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャンネルから始まる。空間オーディオエンコーダは、典型的には元のチャンネルから1つ以上のダウンミックスチャンネルを取り出し、その上、チャンネルコヒーレンス値のチャンネル間レベル差、チャンネル間位相差、チャンネル間時間差などのような空間キューに関連するパラメトリックデータを取り出す。1つ以上のダウンミックスチャンネルは、元の入力チャンネルの近似バージョンである出力チャンネルを最終的に得るために、空間キューを示すパラメトリックサイド情報と共に、ダウンミックスチャンネル及び関連付けられたパラメトリックデータを復号化する空間オーディオデコーダに送信される。出力セットアップの中のチャンネルの配置は典型的には固定され、例えば5.1フォーマット、7.1フォーマットなどである。
このようなチャンネルベースのオーディオフォーマットは、各チャンネルが所定の位置に特定のスピーカーに関係するマルチチャンネルオーディオコンテンツを記憶又は送信するため広く使用されている。このようなフォーマットの忠実な再生は、スピーカーがオーディオ信号の生成中に使用されたスピーカーと同じ位置に設置されているというスピーカーセットアップを要件とする。スピーカーの台数を増やすことは、正確没入型3Dオーディオシーンの再生を改善するが、この要件を実現することは、特に、居間のような家庭内環境ではより一層困難になる。
特定のスピーカーセットアップを有する必要性は、スピーカー信号が再生セットアップのために明確にされるオブジェクトベースのアプローチによって克服することができる。
例えば、空間オーディオオブジェクト符号化ツールは、当該技術分野において周知であり、MPEG SAOC規格(SAOC=空間オーディオオブジェクト符号化:spatial audio object coding)において標準化されている。元のチャンネルから始まる空間オーディオ符号化に対比して、空間オーディオオブジェクト符号化は、特定のレンダリング再生セットアップのために自動的に特化されることがないオーディオオブジェクトから始まる。それどころか、再生シーン内のオーディオオブジェクトの配置は自由自在であり、特定のレンダリング情報(rendering information)を空間オーディオオブジェクト符号化デコーダに入力することによりユーザによって決定することができる。それに替えて又はそれに加えて、レンダリング情報、すなわち、特定のオーディオオブジェクトが再生セットアップ内のどの位置に典型的に経時的に置かれるべきであるかという情報は、付加サイド情報又はメタデータとして送信することができる。特定のデータ圧縮を得るために、複数のオーディオオブジェクトがSAOCエンコーダによって符号化される。SAOCエンコーダは、入力オブジェクトから、特定のダウンミックス情報に従ってオブジェクトをダウンミックスすることにより1つ以上のトランスポートチャンネルを算出するものである。さらに、SAOCエンコーダは、オブジェクトレベル差(OLD:object level differences)、オブジェクトコヒーレンス値などのようなオブジェクト間キューを表現するパラメトリックサイド情報を算出する。SAC(SAC=空間オーディオ符号化:Spatial Audio Coding)の場合、オブジェクト間パラメトリックデータが、パラメータ時間/周波数タイルに対して、すなわち、例えば、1024又は2048個のサンプルを含むオーディオ信号の特定のフレームに対して算出されるので、28、20、14又は10個などの処理帯域が考慮され、その結果、最終的に、パラメトリックデータが各フレーム及び各処理帯域に対して存在する。一例として、オーディオ作品が20フレームを有し、かつ、各フレームが28個の処理帯域に細分されるとき、パラメータ時間/周波数タイルの数は560個である。
オブジェクトベースのアプローチでは、音場は離散的なオーディオオブジェクトによって記述される。これは、特に、3D空間内の各音源の時間的に変化する位置を記述するオブジェクトメタデータを要件とする。
従来技術における第1のメタデータ符号化概念は、空間サウンド記述交換フォーマット(SpatDIF:spatial sound description interchange format)であり、今もなお開発中のオーディオシーン記述フォーマットである[M1]。これは、オブジェクトベースのサウンドシーンのための交換フォーマットとして設計されているが、オブジェクト軌道のための圧縮方法を提供しない。SpatDIFは、オブジェクトメタデータを構造化するためにテキストベースのオープンサウンドコントロール(OSC:Open Sound Control)フォーマットを使用する[M2]。しかしながら、単純なテキストベースの表現は、オブジェクト軌道の圧縮伝送のための選択肢ではない。
従来技術における別のメタデータ概念は、オーディオシーン記述フォーマット(ASDF:Audio Scene Description Format)[M3]、すなわち、同じ欠点があるテキストベースの解決策である。そのデータは、拡張マークアップ言語(XML:Extensible Markup Language)[M4]、[M5]の部分集合である同期マルチメディア統合言語(SMIL:Synchronized Multimedia Integration Language)の拡張によって構造化される。
従来技術におけるさらなるメタデータ概念は、オーディオ・バイナリ・フォーマット・フォー・シーン(AudioBIFS:audio binary format for scenes)、すなわち、MPEG−4仕様[M6]、[M7]の一部であるバイナリフォーマットである。これは、オーディオ−ビジュアル3Dシーン及び相互作用仮想現実アプリケーション[M8]の記述のために開発されたXMLベースの仮想現実モデリング言語(VRML:Virtual Reality Modeling Language)に密接に関係している。複雑なAudioBIFS仕様は、オブジェクト移動の経路を特定するためにシーングラフを使用する。AudioBIFSの主な欠点は、制限付きシステム遅延及びデータストリームへのランダムアクセスが要件であるリアルタイム動作のためには設計されていないということである。さらに、オブジェクト位置の符号化は、聴取者の制限付き定位性能を利用しない。オーディオ−ビジュアルシーン内の固定したリスナ位置に対しては、オブジェクトデータは非常に少ないビット数で量子化することができる[M9]。それ故に、AudioBIFSにおいて適用されるオブジェクトメタデータの符号化は、データ圧縮に関して効率的ではない。
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, "MPEG audio technologies-Part2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[VBAP] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning" ; J. Audio Eng. Soc., Level 45, Issue 6, pp. 456-466, June 1997.
[M1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.
[M2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.
[M3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.
[M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.
[M5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.
[M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.
[M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004.
[M8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
[M9] Sporer, T. (2012), "Codierung raumlicher Audisignalemit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.

本発明の目的は、空間オーディオオブジェクト符号化のための改良された概念を提供することである。
本発明の目的は、請求項1に記載の装置、請求項14に記載の装置、請求項16に記載のシステム、請求項17に記載の方法、請求項18に記載の方法、及び請求項19に記載のコンピュータプログラムによって解決される。
1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、ミキシング情報を算出するパラメータプロセッサと、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサとを備える。ダウンミックスプロセッサは、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。1つ以上のオーディオチャンネル信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。パラメータプロセッサはダウンミックス情報と共分散情報を受信するように構成されている。ダウンミックス情報は、1つ以上のオーディオチャンネル信号及び1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すものである。さらに、パラメータプロセッサは、ダウンミックス情報に依存して、かつ、共分散情報に依存してミキシング情報を算出するように構成されている。ダウンミックスプロセッサは、ミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
さらに、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置が提供される。この装置は、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを生成するチャンネル/オブジェクトミキサと、出力インターフェースとを備える。チャンネル/オブジェクトミキサは1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するように構成されており、そのオーディオトランスポート信号の生成は、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、オーディオトランスポート信号内で1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とを混合することによりなされる。1つ以上のオーディオトランスポートチャンネルの数は1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。出力インターフェースは、オーディオトランスポート信号、ダウンミックス情報及び共分散情報を出力するように構成されている。共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと、1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
さらに、システムが提供される。このシステムは、前述のオーディオトランスポート信号を生成する装置と、前述の1つ以上のオーディオ出力チャンネルを生成する装置とを備える。1つ以上のオーディオ出力チャンネルを生成する装置は、オーディオトランスポート信号を生成する装置からオーティオトランスポート信号、ダウンミックス情報、及び共分散情報を受信するように構成されている。さらに、オーディオ出力チャンネルを生成する装置は、ダウンミックス情報に依存して、かつ、共分散情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
さらに、1つ以上のオーディオ出力チャンネルを生成する方法が提供される。この方法は、以下のステップを含む。
− 1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するステップ。その場合、1つ以上のオーディオチャンネル信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。
− 1つ以上のオーディオチャンネル信号及び1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するステップ。
− 共分散情報を受信するステップ。
− ダウミックス情報に依存して、かつ、共分散情報に依存してミキシング情報を算出するステップ。及び
− 1つ以上のオーディオ出力チャンネルを生成するステップ。
ミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成する。共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
さらに、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置が提供される。この方法は以下のステップを含む。
− 1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するステップ。そのオーディオトランスポート信号の生成は、1つ以上のオーディオチャンネル信号及び1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されなければならないかに関する情報を示すダウンミックス情報に依存して、オーディオトランスポート信号内で1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号を混合することによりなされる。1つ以上のオーディオトランスポートチャンネルの数は1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。及び
− オーディオトランスポート信号、ダウンミックス情報及び共分散情報を出力するステップ。
共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
さらに、コンピュータ又は信号プロセッサ上で実行されたときに上記方法を実施するコンピュータプログラムが提供される。
実施形態による1つ以上のオーディオ出力チャンネルを生成する装置を示す図である。 実施形態による1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置を示す図である。 実施形態によるシステムを示す図である。 3Dオーディオエンコーダの第1の実施形態を示す図である。 3Dオーディオデコーダの第1の実施形態を示す図である。 3Dオーディオエンコーダの第2の実施形態を示す図である。 3Dオーディオデコーダの第2の実施形態を示す図である。 3Dオーディオエンコーダの第3の実施形態を示す図である。 3Dオーディオデコーダの第3の実施形態を示す図である。 実施形態による統合処理ユニットを示す図である。
以下、本発明の実施形態を、図面を参照してより詳細に説明する。
本発明の好ましい実施形態を詳細に説明する前に、新しい3Dオーディオコーデックシステムについて説明する。
従来技術においては、低ビットレートで許容可能なオーディオ品質が得られるようにチャンネル符号化とオブジェクト符号化とを組み合わせる自由自在な技術は存在しない。
この制限は新しい3Dオーディオコーデックシステムによって克服される。
好ましい実施形態を詳細に説明する前に、新しい3Dオーディオコーデックシステムについて説明する。
図4は、本発明の実施形態による3Dオーディオエンコーダを示す。この3Dオーディオエンコーダは、オーディオ出力データ501を得るためにオーディオ入力データ101を符号化するために設けられている。この3Dオーディオエンコーダは、CHによって示された複数のオーディオチャンネルと、OBJによって示された複数のオーディオオブジェクトとを受信する入力インターフェースを備える。さらに、図4に示されたように、入力インターフェース1100は、複数のオーディオオブジェクトOBJのうちの1つ以上に関連しているメタデータをさらに受信する。さらに、この3Dオーディオエンコーダは、複数の予め混合されたチャンネルを得るために複数のオブジェクト及び複数のチャンネルを混合するミキサ200を備え、予め混合された各チャンネルは、チャンネルのオーディオデータ及び少なくとも1つのオブジェクトのオーディオデータを含む。
さらに、この3Dオーディオエンコーダは、コアエンコーダ入力データをコア符号化するコアエンコーダ300と、複数のオーディオオブジェクトのうちの1つ以上に関連したメタデータを圧縮するメタデータ圧縮器400とを備える。
さらに、この3Dオーディオエンコーダは、いくつかの動作モードのうちの1つでミキサ、コアエンコーダ及び/又は出力インターフェース500を制御するモードコントローラ600を備えることができる。第1のモードでは、コアエンコーダは、ミキサによる相互作用なしで、すなわち、ミキサ200によって混合することなく、入力インターフェース1100によって受信された複数のオーディオチャンネル及び複数のオーディオオブジェクトを符号化するように構成される。しかしながら、第2のモードでは、ミキサ200がアクティブ状態となっており、コアエンコーダは、複数の混合されたチャンネル、すなわち、ブロック200によって生成された出力を符号化する。後者の場合、もはやオブジェクトデータを符号化しないことが好ましい。その代わりに、オーディオオブジェクトの位置を示すメタデータは、そのメタデータによって示されるとおりにチャンネルでオブジェクトをレンダリング(rendering)するように、ミキサ200によってすでに使用されている。換言すれば、ミキサ200は、オーディオオブジェクトをプリレンダリング(pre-rendering)するために複数のオーディオオブジェクトに関連したメタデータを使用し、その後、プリレンダリングされたオーディオオブジェクトはチャンネルと混合されて、ミキサの出力で混合されたチャンネルが得られる。本実施形態では、オブジェクトは、必ずしも送信されなくてもよく、このことは、ブロック400によって出力されたままの圧縮されたメタデータにも適用される。しかしながら、インターフェース1100に入力された全てのオブジェクトが混合されるのではなく、ある量のオブジェクトだけが混合される場合、その後、残りの混合されていないオブジェクト及び関連付けられたメタデータだけがそれにもかかわらずコアエンコーダ300又はメタデータ圧縮器400にそれぞれ送信される。
図6は3Dオーディオエンコーダのさらなる実施形態を示し、SAOCエンコーダ800をさらに備える。SAOCエンコーダ800は、空間オーディオオブジェクトエンコーダ入力データから1つ以上のトランスポートチャンネル及びパラメトリックデータを生成するために設けられている。図6に示されるように、空間オーディオオブジェクトエンコーダ入力データは、プリレンダラ(pre-renderer)/ミキサによって処理されていないオブジェクトである。あるいは、プリレンダラ/ミキサが個別のチャンネル/オブジェクトがアクティブ状態であるモード1の場合のように迂回されていると仮定すると、入力インターフェース1100に入力された全てのオブジェクトは、SAOCエンコーダ800によって符号化される。
さらに、図6に示されるように、コアエンコーダ300は、好ましくは、USACエンコーダとして、すなわち、MPEG−USAC規格(USAC=音声音響統合符号化:Unified Speech and Audio Coding)において規定され、標準化されたエンコーダとして実現されている。図6に示された全3Dオーディオエンコーダの出力はMPEG 4データストリーム、MPEG Hデータストリーム又は3Dオーディオデータストリームであり、個別のデータタイプのためのコンテナのような構造体(container-like structures)を有する。さらに、メタデータは「OAM」データとして示され、図4におけるメタデータ圧縮器400はUSACエンコーダ300に入力される圧縮されたOAMデータを得るためのOAMエンコーダ400に対応する。USACエンコーダ300は、図6から分かるように、符号化済みチャンネル/オブジェクトデータを有するだけでなく、圧縮されたOAMデータも有するMP4出力データストリームを得るために出力インターフェースをさらに備える。
図8はこの3Dオーディオエンコーダのさらなる実施形態を示しており、図6と対比して、SAOCエンコーダは、このモードではアクティブ状態でないプリレンダラ(pre-renderer)/ミキサ200に供給されたチャンネルをSAOC符号化アルゴリズムを用いて符号化するように、又はそれに替えて、プリレンダリングされたチャンネルとオブジェクトとをSAOC符号化するように構成することができる。このようにして、図8では、SAOCエンコーダ800は、3つの異なった種類の入力データ、すなわち、プリレンダリングされたオブジェクトを含まないチャンネル、チャンネル及びプリレンダリングされたオブジェクト、又はオブジェクト単独に作用することができる。さらに、SAOCエンコーダ800が、その処理のために、元のOAMデータではなく、デコーダ側と同じデータ、すなわち、不可逆的(lossy)圧縮によって得られたデータを使用するように、図8における付加的なOAMデコーダ420を設けることが好ましい。
図8の3Dオーディオエンコーダは、いくつかの個別のモードで動作することができる。
図4との関連で説明した第1のモード及び第2のモードに加えて、図8の3Dオーディオエンコーダは、プリレンダラ/ミキサ200がアクティブ状態ではなかったときに、コアエンコーダが個別のオブジェクトから1つ以上のトランスポートチャンネルを生成する第3のモードでさらに動作することができる。あるいは、又はさらに、この第3のモードでは、SAOCエンコーダ800は、1つ以上の代替的もしくは付加的なトランスポートチャンネルを元のチャンネルから生成することができる、すなわち図4のミキサ200に対応するプリレンダラ/ミキサ200がアクティブ状態ではなかったときに再び生成することができる。
最後に、SAOCエンコーダ800は、3Dオーディオエンコーダが第4のモードで構成されているとき、チャンネルとプリレンダラ/ミキサによって生成されたプリレンダリングされたオブジェクトを符号化することができる。このようにして、第4のモードでは、チャンネルとオブジェクトが、個別のSAOCトランスポートチャンネルと図3及び図5において「SAOC−SI」として示されたような関連付けられたサイド情報に完全に変換され、さらに、この第4のモードでは圧縮されたメタデータを送信する必要がないという事実によって、最低ビットレートアプリケーションが優れた品質を示す。
図5は、本発明の実施形態による3Dオーディオデコーダを示す。この3Dオーディオデコーダは、入力として、符号化済みオーディオデータ、すなわち、図4のデータ501を受信する。
この3Dオーディオデコーダは、メタデータ展開器1400と、コアデコーダ1300と、オブジェクトプロセッサ1200と、モードコントローラ1600と、ポストプロセッサ1700とを備える。
具体的には、この3Dオーディオデコーダは符号化済みオーディオデータを復号化するために設けられ、入力インターフェースは符号化済みオーディオデータを受信するために設けられ、符号化済みオーディオデータは、複数の符号化済みチャンネルと、複数の符号化済みオブジェクトと、特定のモードにおける複数のオブジェクトに関連する圧縮されたメタデータとを含む。
さらに、コアデコーダ1300は複数の符号化済みチャンネル及び複数の符号化済みオブジェクトを復号化するために設けられ、さらに、メタデータ展開器は、圧縮されたメタデータを展開するために設けられている。
さらに、オブジェクトプロセッサ1200は、オブジェクトデータ及び復号化済みチャンネルを含む所定の数の出力チャンネルを得るために、展開されたメタデータを使用してコアデコーダ1300によって生成されたとおりの複数の復号化済みオブジェクトを処理するために設けられている。符号1205で示されたとおりのこれらの出力チャンネルは、その後、ポストプロセッサ1700に入力される。ポストプロセッサ1700は、出力チャンネル1205の数を、バイノーラル出力フォーマット又は5.1、7.1などの出力フォーマットのようなスピーカー出力フォーマットとすることのできる特定の出力フォーマットに変換するために設けられている。
好ましくは、この3Dオーディオデコーダは、モード指示を検出するために符号化済みデータを解析するために設けられたモードコントローラ1600を備える。したがって、モードコントローラ1600は、図5において入力インターフェース1100に接続されている。しかしながら、あるいは、モードコントローラは必ずしもそこになくてもよい。その代わり、この汎用性のあるオーディオデコーダはユーザ入力又はその他のコントロールのようなどんな種類の制御データによってもプリセットすることができる。図5に示され、かつ、好ましくはモードコントローラ1600によって制御されるこの3Dオーディオデコーダは、オブジェクトプロセッサを迂回するように、かつ、複数の復号化済みチャンネルをポストプロセッサ1700に送り込むように構成されている。これは、モード2における動作、すなわち、プリレンダリングされたチャンネルだけが受信される、すなわち、モード2が図4の3Dオーディオエンコーダにおいて適用されたときの動作である。あるいは、モード1が3Dオーディオエンコーダにおいて適用されたとき、すなわち、3Dオーディオエンコーダが個別のチャンネル/オブジェクト符号化を実行したとき、オブジェクトプロセッサ1200は迂回されないが、複数の復号化済みチャンネル及び複数の復号化済みオブジェクトが、メタデータ展開器1400によって生成された展開されたメタデータと共にオブジェクトプロセッサ1200に送り込まれる。
好ましくは、モード1又はモード2が適用されるべきか否かの指示は、符号化済みオーディオデータの中に含まれ、その後、モードコントローラ1600は、モード指示を検出するために符号化済みデータを解析する。モード1は、モード指示が、符号化済みオーディオデータが符号化済みチャンネル及び符号化済みオブジェクトを含むことを示すときに使用され、モード2は、モード指示が、符号化済みオーディオデータがオーディオオブジェクトを含んでいないこと、すなわち、図4の3Dオーディオエンコーダのモード2によって得られたプリレンダリングされたチャンネルだけを含むことを示すときに適用される。
図7は図5の3Dオーディオデコーダと比べて好ましい実施形態を示し、図7の実施形態は図6の3Dオーディオエンコーダに対応する。図5の3Dオーディオデコーダ実施に加えて、図7における3DオーディオデコーダはSAOCデコーダ1800を備える。さらに、図5のオブジェクトプロセッサ1200は、図7では別個のオブジェクトレンダラ1210とミキサ1220として実施されるが、モードに依存して、オブジェクトレンダラ1210の機能はSAOCデコーダ1800によって実施することができる。
さらに、ポストプロセッサ1700は、バイノーラルレンダラ1710又はフォーマットコンバータ1720として実施することができる。あるいは、図5のデータ1205の直接出力は、1730によって示されるように実施することもできる。その結果、フレキシビリティを実現するために22.2又は32のような最高数のチャンネルに関してデコーダにおいて処理を実行し、その後、より小規模のフォーマットが必要とされる場合に後処理することが好ましい。しかしながら、5.1フォーマットのような小さいフォーマットだけが必要とされることが最初から明らかになるとき、好ましくは、ショートカット1727によって図5もしくは図6によって示されるように、不必要なアップミキシング動作及び後に続くダウンミキシング動作を回避するためにSAOCデコーダ及び/又はUSACデコーダの特定の制御を適用することができる。
本発明の好ましい実施形態では、オブジェクトプロセッサ1200はSAOCデコーダ1800を備え、SAOCデコーダは、コアデコーダによって出力された1つ以上のトランスポートチャンネル及び関連付けられたパラメトリックデータを、展開されたメタデータを使用して復号化し、複数のレンダリングされたオーディオオブジェクトを得るために設けられている。このため、OAM出力はボックス1800に接続されている。
さらに、オブジェクトプロセッサ1200は、オブジェクトレンダラ1210によって示されるように、SAOCトランスポートチャンネルにおいて符号化されていないが、典型的に単一のチャンネル化済み要素において個別に符号化され、コアデコーダによって出力された復号化済みオブジェクトをレンダリングするように構成されている。さらに、デコーダは、ミキサの出力をスピーカーへ出力するため出力1730に対応する出力インターフェースを備える。
さらなる実施形態では、オブジェクトプロセッサ1200は、1つ以上のトランスポートチャンネルと、符号化済みオーディオ信号又は符号化済みオーディオチャンネルを表現する関連付けられたパラメトリックサイド情報とを復号化する空間オーディオオブジェクト符号化デコーダ1800を備え、この空間オーディオオブジェクト符号化デコーダは、関連付けられたパラメトリック情報及び展開されたメタデータを、例えば、SAOCの旧バージョンに規定されているように、出力フォーマットを直接レンダリングするため使用可能であるトランスコードされたパラメトリックサイド情報にトランスコードするように構成されている。ポストプロセッサ1700は、復号化済みトランスポートチャンネルとトランスコードされたパラメトリックサイド情報を使用して出力フォーマットのオーディオチャンネルを算出するため構成されている。ポストプロセッサによって実行される処理は、MPEGサラウンド処理に類似するものとすることができ、又はBCC処理などのような他の処理とすることができる。
さらなる実施形態では、オブジェクトプロセッサ1200は、(コアデコーダによって)復号化されたトランスポートチャンネルとパラメトリックサイド情報を使用して出力フォーマットのためにチャンネル信号を直接的にアップミックスし、レンダリングするように構成された空間オーディオオブジェクト符号化デコーダ1800を備える。
さらに、かつ、重要なことには、図5のオブジェクトプロセッサ1200はミキサ1220を付加的に備え、ミキサ1220は、チャンネルと混合されたプリレンダリングされたオブジェクトが存在するとき、すなわち図4のミキサがアクティブ状態であったとき、USACデコーダ1300によって出力されたデータを入力として直接に受信する。さらに、ミキサ1220は、SAOC復号化なしでオブジェクトレンダリングを実行するオブジェクトレンダラからデータを受信する。さらに、ミキサは、SAOCデコーダ出力データ、すなわち、SAOCレンダリングされたオブジェクトを受信する。
ミキサ1220は、出力インターフェース1730、バイノーラルレンダラ1710及びフォーマットコンバータ1720に接続されている。バイノーラルレンダラ1710は、頭部伝達関数又はバイノーラル室内インパルス応答(BRIR)を使用して出力チャンネルを2つのバイノーラルチャンネルにレンダリングするために設けられている。フォーマットコンバータ1720は、出力チャンネルをミキサの出力チャンネル1205よりより少ない数のチャンネルを有する出力フォーマットに変換するために設けられ、フォーマットコンバータ1720は5.1スピーカーなどのような再生レイアウトに関する情報を必要とする。
図9の3Dオーディオデコーダは、SAOCデコーダがレンダリングされたオブジェクトを復号できるだけでなく、レンダリングされたチャンネルを生成することができる点で図7の3Dオーディオデコーダとは異なり、これは、図8の3Dオーディオエンコーダが使用され、チャンネル/プリレンダリングされたオブジェクトとSAOCエンコーダ800の入力インターフェースとの間の接続900がアクティブ状態であるときの事例である。
さらに、ベクトルベース振幅パニング(VBAP:vector base amplitude panning)段1810が設けられており、ベクトルベース振幅パニング段1810は、SAOCデコーダから再生レイアウトに関する情報を受信し、レンダリング行列をSAOCデコーダに出力し、その結果、SAOCデコーダが、最終的に、≡チャンネルフォーマット1205、すなわち、32台のスピーカーにおいて、ミキサのさらなる動作なしでレンダリングされたチャンネルを提供することができるようになる。
VBAPブロックは、好ましくは、レンダリング行列を導き出すために復号化済みOAMデータを受信する。より一般的には、好ましくは、再生レイアウトの幾何学的情報だけでなく、入力信号が再生レイアウト上で再現されるべき位置の幾何学的情報を必要とする。この幾何学的入力データは、オブジェクトのためのOAMデータ、又はSAOCを使用して送信されたチャンネルのためのチャンネル位置情報とすることができる。
しかしながら、特定の出力インターフェースだけが必要とされる場合、VBAP状態1810は、例えば、5.1出力のために必要とされるレンダリング行列を予め提供することができる。SAOCデコーダ1800は、その後、SAOCトランスポートチャンネル、関連付けられたパラメトリックデータ及び展開されたメタデータから、ミキサ1220の相互作用なしに、必要とされる出力フォーマットへの直接レンダリングを実行する。しかしながら、モード間で特定の混合が適用されるとき、すなわち、いくつかのチャンネルがSAOC符号化されているが全てのチャンネルがSAOC符号化されているとは限らない場合、もしくは、いくつかのオブジェクトがSAOC符号化されているが全てのオブジェクトがSAOC符号化されているとは限らない場合、又は、チャンネルを含むある一定量のプリレンダリングされたオブジェクトだけがSAOC符号化され残りのチャンネルがSAOC処理されていないとき、ミキサは、個別の入力部分から、すなわち、コアデコーダ1300から、オブジェクトレンダラ1210から、及びSAOCデコーダ1800からのデータをまとめる。
以下の数学的表記を用いる:
Objects:入力オーディオオブジェクト信号の数
Channels:入力チャンネルの数
N:入力信号の数;
NはNObjects、NChannels又はNObjects+NChannelsと等しくできる
DmxCh:ダウンミックス(処理済み)チャンネルの数
Samples:処理済みデータサンプルの数
OutputChannels:デコーダ側での出力チャンネルの数
D:ダウンミックス行列、サイズNDmxCh×N
X:入力オーディオ信号、サイズN×NSamples
Ex:入力信号共分散行列、サイズN×N、Ex=XXHと定義される
Y:ダウンミックスオーディオ信号、サイズNDmxCh×NSamples、Y=DXと定義される
Ey:ダウンミックス信号の共分散行列、サイズNDmxCh×NDmxCh、Ey=YYHと定義される
G:パラメトリック音源推定行列、サイズN×NDmxCh、ExDH(DExDH)-1を近似する

:パラメトリック再構成された入力信号、サイズNObjects×NSamples、Xを近似し、
と定義される
(・)H:(・)の共役転置を表現する自己共役(エルミート)演算子
R:サイズNOutputChannels×Nのレンダリング行列
S:サイズNOutputChannels×NDmxChの出力チャンネル生成行列、S = RGと定義される
Z:ダウンミックス信号からデコーダ側に生成された出力チャンネル、サイズNOutputChannels×NSamples、Z=SY
:望ましい出力チャンネル、サイズNOutputChannels×NSamples
一般性を失うことなく、式の読みやすさを改善するために、全ての導入された変数に対して、時間依存性及び周波数依存性を表す添字は本明細書では省略する。
3Dオーディオに関し、スピーカーチャンネルはいくつかの高さの層に分布し、その結果、水平及び垂直のチャンネルのペアをもたらす。USACに規定されたような2つのチャンネルだけの統合符号化は、チャンネル間の空間関係と知覚関係を考慮するためには不十分である。
チャンネル間の空間関係と知覚関係を考慮するために、3Dオーディオに関して、入力チャンネル(SAOCエンコーダによって符号化されたオーディオチャンネル信号とオーディオオブジェクト信号)を再構成するためにSAOCのようなパラメトリック技術を使用し、デコーダ側で再構成された入力チャンネル

を得ることがあり得る。SAOC復号化は、最小平均二乗誤差(MMSE)アルゴリズムに基づいている。すなわち、
=GY 但し G≒ExDH(DExDH)-1
である。 再構成された入力チャンネル

を得るために入力チャンネルを再構成する代わりに、出力チャンネルZは、レンダリング行列Rを考慮することによって、デコーダ側で直接的に生成することができる。
Z=RGY
Z=SY ; 但し、S=RG このように、入力オーディオオブジェクトと入力オーディオチャンネルを明示的に再構成する代わりに、出力チャンネルZは、ダウンミックスオーディオ信号Yに出力チャンネル生成行列Sを適用することにより直接的に生成することができる。
出力チャンネル生成行列Sを得るために、レンダリング行列Rは、例えば、決定してもよく、又は例えば、すでにあるものを利用してもよい。さらに、パラメトリック音源推定行列Gは、例えば前述のように計算することができる。出力チャンネル生成行列Sは、その後、レンダリング行列Rとパラメトリック音源推定行列Gから行列積S=RGとして得ることができる。
3Dオーディオシステムは、チャンネルとオブジェクトを符号化するために合成モードを必要とすることがある。
概して、このような合成モードに対して、SAOC符号化/復号化は、2つの異なった方法で適用することができる。
すなわち、一つの方法はSAOCのようなパラメトリックシステムの1つのインスタンスを利用することであり、このようなインスタンスはチャンネルとオブジェクトを処理することができる。この解決策は、計算が複雑であるという欠点があり、入力信号の数が多いので、トランスポートチャンネルの数が類似する再構成品質を維持するために増加する。その結果として、行列DExDHのサイズが増加し、逆行列を求める複雑性が増大する。さらに、このような解決策は、行列DExDHのサイズが増大するにつれて、より一層の数値不安定性を取り込む。さらに、別の欠点として、行列DExDHの逆行列を求めることは、再構成されたチャンネルと再構成されたオブジェクトとの間に付加的なクロストークをもたらすことがある。これが起こる理由は、再構成行列Gの中の零と考えられているいくつかの係数に数値的な不正確さのために零でない値が設定されるからである。
もう一つの方法はSAOCのようなパラメトリックシステムの2つのインスタンスを利用することであり、一方のインスタンスはチャンネルベースの処理用であり、もう一方のインスタンスはオブジェクトベースの処理用である。このような方法は、フィルタバンクの初期化とデコーダ構成のために同じ情報が2回送信される欠点を有する。さらに、必要に応じてチャンネルとオブジェクトをいっしょに混合することができず、その結果、チャンネルとオブジェクトとの間の相関特性を使用することができない。
オーディオオブジェクトとオーディオチャンネルとに対して異なったインスタンスを利用する方法の欠点を回避するために、実施形態は、第1の方法を利用し、効率的な方法で1つのシステムインスタンスだけを使用して、チャンネル、オブジェクト、又はチャンネル及びオブジェクトを処理することができる拡張SAOCシステムを提供する。オーディオチャンネルとオーディオオブジェクトは、同じエンコーダインスタンスとデコーダインスタンスによってそれぞれ処理されるが、効率性概念が提供され、その結果、第1の方法の欠点を回避することができる。
図2は、実施形態による1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置を示す。
この装置は、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを生成するチャンネル/オブジェクトミキサ210と、出力インターフェース220とを備える。
チャンネル/オブジェクトミキサ210は、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とが1つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、オーディオトランスポート信号内で1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とを混合することにより1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するように構成されている。
1つ以上のオーディオトランスポートチャンネルの数は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされている。このように、チャンネル/オブジェクトミキサ210は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少ないチャンネルを有するオーディオトランスポート信号を生成するように適合させられているので、チャンネル/オブジェクトミキサ210は、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とをダウンミックスする能力がある。
出力インターフェース220は、オーディオトランスポート信号、ダウンミックス情報及び共分散情報を出力するように構成されている。
例えば、チャンネル/オブジェクトミキサ210はダウンミックス情報を出力インターフェース220へ送り込むように構成することができ、そのダウンミックス情報は1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号とをダウンミックスするため使用される。さらに、例えば、出力インターフェース220は、例えば、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号を受信するように構成することができ、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号に基づいて共分散情報を決定するようにさらに構成することができる。又は、出力インターフェース220は、例えば、予め決定済みの共分散情報を受信するように構成することができる。
共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
図1は実施形態による1つ以上のオーディオ出力チャンネルを生成する装置を示す。
この装置は、ミキシング情報を算出するパラメータプロセッサ110と、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ120とを備える。
ダウンミックスプロセッサ120は、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されている。1つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合されている。さらに、1つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合されている。1つ以上のオーディオトランスポートチャンネルの数は、1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少ない。
パラメータプロセッサ110は、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成されている。さらに、パラメータプロセッサ110は共分散情報を受信するように構成されている。パラメータプロセッサ110は、ダウンミックス情報に依存し、かつ、共分散情報に依存してミキシング情報を算出するように構成されている。
ダウンミックスプロセッサ120は、ミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
共分散情報は、1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに、1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示す。しかしながら、共分散情報は、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示さない。
実施形態では、共分散情報は、例えば1つ以上のオーディオチャンネル信号の1つずつに対するレベル差情報を示すことがあり、そして、さらに、例えば1つ以上のオーディオオブジェクト信号の1つずつに対するレベル差情報を示すことがある。
実施形態によれば、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で、例えば混合されることがあり、かつ、2つ以上のオーディオチャンネル信号がオーディオトランスポート信号内で、例えば混合されることがある。共分散情報は、例えば、2つ以上のオーディオチャンネル信号のうちの1つと、2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことがある。又は、共分散情報は、例えば、2つ以上のオーディオオブジェクト信号のうちの1つと、2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことがある。又は、共分散情報は、例えば、2つ以上のオーディオチャンネル信号のうちの1つと2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、かつ、2つ以上のオーディオオブジェクト信号のうちの1つと2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことがある。
オーディオオブジェクト信号に対するレベル差情報は、例えば、オブジェクトレベル差(OLD)とすることができる。「レベル」は、例えば、エネルギーレベルに関係させることができる。「差」は、例えば、オーディオオブジェクト信号の間の最大レベルに関する差に関係させることができる。
オーディオオブジェクト信号のうちの1つと、オーディオオブジェクト信号のうちのもう1つとのペアに対する相関情報は、例えば、オブジェクト間相関(IOC:object level difference)とすることができる。
例えば、実施形態によれば、SAOC 3Dの最適性能を保証するために、適合する電力をもつ入力オーディオオブジェクト信号を使用することが推奨されている。(対応する時間/周波数タイルに従って正規化された)2つの入力オーディオ信号の積は、以下のように決定される。

式中、i及びjはそれぞれオーディオオブジェクト信号xi及びxjの添字であり、nは時間を示し、kは周波数を示し、lは時間添字の組を示し、mは周波数添字の組を示す。εは零による除算を回避するための加算定数、例えば、ε=10-9である。 最大エネルギーをもつオブジェクトの絶対オブジェクトエネルギー(NRG)は、例えば、以下のように算出することができる。

対応する入力オブジェクト信号の電力の比(OLD)は、例えば、次式によって与えることができる。

入力オブジェクトの類似性尺度(IOC)は、例えば、以下の相互相関によって与えることができる。

例えば、実施形態では、IOCは、ビットストリーム変数bsRelatedTo[i][j]に1が設定されたオーディオ信号i及びjの全てのペアに対して送信することができる。
オーディオチャンネル信号に対するレベル差情報は、例えば、チャンネルレベル差(CLD:channel level difference)とすることができる。「レベル」は、例えば、エネルギーレベルに関係させることができる。「差」は、例えば、オーディオチャンネル信号の間の最大レベルに関する差に関係させることができる。
オーディオチャンネル信号のうちの1つとオーディオチャンネル信号のうちのもう1つとのペアに対する相関情報は、例えば、チャンネル間相関(ICC:inter-channel correlation)とすることができる。
実施形態では、チャンネルレベル差(CLD)は、上記式中のオーディオオブジェクト信号がオーディオチャンネル信号によって置換されたときの上述のオブジェクトレベル差(OLD)と同じ方法で定義することができる。さらに、チャンネル間相関(ICC)は、上記式中のオーディオオブジェクト信号がオーディオチャンネル信号によって置換されたときの上述のオブジェクト間相関(IOC)と同じ方法で定義することができる。
SAOCでは、SAOCエンコーダは、(ダウンミックス情報に従って、例えば、ダウンミックス行列Dに従って)複数のオーディオオブジェクト信号をダウンミックスして、(例えば、より少ない数の)1つ以上のオーディオトランスポートチャンネルを得る。デコーダ側では、SAOCデコーダは、エンコーダから受信したダウンミックス情報を使用して、かつ、エンコーダから受信した共分散情報を使用して1つ以上のオーディオトランスポートチャンネルを復号化する。共分散情報は例えば共分散行列Eの係数とすることができ、共分散行列Eはオーディオオブジェクト信号のオブジェクトレベル差と、2つのオーディオオブジェクト信号の間のオブジェクト間相関とを示す。SAOCでは、決定済みのダウンミックス行列Dと決定済みの共分散行列Eは、1つ以上のオーディオトランスポートチャンネルの複数のサンプル(例えば、1つ以上のオーディオトランスポートチャンネルの2048個のサンプル)を復号化するために使用される。この概念を利用することにより、ビットレートは、符号化なしで1つ以上のオーディオオブジェクト信号を送信するのと比べて節約される。
実施形態は、オーディオオブジェクト信号とオーディオチャンネル信号が有意な差を示していても拡張SAOCエンコーダによってオーディオトランスポート信号が生成できるので、このようなオーディオトランスポート信号では、オーディオオブジェクト信号だけでなく、オーディオチャンネル信号も混合されるという発見に基づいている。
オーディオオブジェクト信号とオーディオチャンネル信号は著しく異なる。例えば、複数のオーディオオブジェクト信号のそれぞれはサウンドシーンの音源を表現することができる。その結果、一般に、2つのオーディオオブジェクトは、極めて相関が低いことがある。これに対して、オーディオチャンネル信号は、異なるマイクロホンによって記録されているかのように、サウンドシーンの異なるチャンネルを表現する。一般に、このようなオーディオチャンネル信号のうちの2つは、特に、2つのオーディオオブジェクト信号の相関と比べると非常に相関が高く、2つのオーディオオブジェクト信号は、一般に極めて相関が低い。このようにして、実施形態は、オーディオチャンネル信号が特に2つのオーディオチャンネル信号のペアの間の相関を送信することから、そして、この送信された相関値を復号化のため使用することにより恩恵を受けるという成果に基づいている。
さらに、オーディオオブジェクト信号とオーディオチャンネル信号は、位置情報がオーディオオブジェクト信号に割り当てられている点で異なり、その位置情報は、例えばオーディオオブジェクト信号の発生源である音源(例えば、オーディオオブジェクト)の(仮定された)位置を示す。(例えば、メタデータ情報に含まれている)このような位置情報は、デコーダ側でオーディオトランスポート信号からオーディオ出力チャンネルを生成するときに使用することができる。しかしながら、これに対して、オーディオチャンネル信号は位置を示すことがなく、位置情報はオーディオチャンネル信号に割り当てられない。しかしながら、それにもかかわらず、実施形態は、オーディオオブジェクト信号と一緒にオーディオチャネル信号をSAOC符号化することが効率的であるという発見に基づいている。
それは、例えば、オーディオチャンネル信号を生成することが、2つの副次的問題、すなわち、位置情報が必要とされることがない復号化情報を決定すること(例えば、分解(unmix)のための行列Gを決定すること、下記参照)と、(例えば、レンダリング行列Rを決定することにより、下記参照)レンダリング情報を決定することとに分けることができるからである。レンダリング情報の決定のためには、生成されたオーディオ出力チャンネルにおいてオーディオオブジェクトをレンダリングするためにオーディオオブジェクト信号に関する位置情報を利用することができる。
さらに、本発明は、オーディオオブジェクト信号のうちの1つとオーディオチャンネル信号のうちの1つとのペアの間に相関がない(少なくとも有意ではない)という発見に基づいている。そのため、エンコーダは、1つ以上のオーディオチャンネル信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を送信しない。これにより、符号化と復号化の両方のためにかなりの送信帯域幅が節約され、かなりの量の計算時間が節約される。このような有意ではない相関情報を処理しないように構成されているデコーダは、(デコーダ側でオーディオトランスポート信号からオーディオ出力チャンネルを生成するために利用される)ミキシング情報を決定するとき、かなりの量の計算時間を節約する。
実施形態によれば、パラメータプロセッサ110は、例えば、1つ以上のオーディオチャンネル信号と1つ以上のオーディオオブジェクト信号が1つ以上のオーディオ出力チャンネル内でどのように混合されるかに関する情報を示すレンダリング情報を受信するように構成することができる。パラメータプロセッサ110は、例えば、ダウンミックス情報に依存して、共分散情報に依存して、かつレンダリング情報に依存してミキシング情報を算出するように構成することができる。
例えば、パラメータプロセッサ110は、例えば、レンダリング情報としてレンダリング行列Rの複数の係数を受信するように構成することができ、ダウンミックス情報に依存して、共分散情報に依存して及びレンダリング行列Rに依存してミキシング情報を算出するように構成することができる。例えば、パラメータプロセッサは、エンコーダ側から又はユーザからレンダリング行列Rの係数を受信することができる。別の実施形態では、パラメータプロセッサ110は、例えば、メタデータ情報、例えば、位置情報又は利得情報を受信するように構成することができ、そして、例えば、受信したメタデータ情報に依存してレンダリング行列Rの係数を算出するように構成することができる。さらなる実施形態では、パラメータプロセッサは、両方(エンコーダからのレンダリング情報とユーザからのレンダリング情報)を受信するように、そして、両方に基づいてレンダリング行列を作成するように構成することができる(相互作用が実現されていることを基本的に意味する)。
あるいは、パラメータプロセッサは、例えば、レンダリング情報として2つのレンダリング部分行列Rch,objを受信するように構成することができる。R=(Rch,obj)であり、Rchは例えばオーディオチャンネル信号をオーディオ出力チャンネルに混合する方法を示し、RobjはOAM情報から得られたレンダリング行列とすることができる。Robjは図9のVBAPブロック1810から得ることもできる。
特別な実施形態では、2つ以上のオーディオオブジェクト信号は、例えば、オーディオトランスポート信号内で混合することができ、2つ以上のオーディオチャンネル信号はオーディオトランスポート信号内で混合される。このような実施形態では、共分散情報は、例えば、2つ以上のオーディオチャンネル信号のうちの1つと、2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示すことができる。さらに、このような実施形態では、(例えば、エンコーダ側からデコーダ側に送信される)共分散情報は、1つ以上のオーディオオブジェクト信号のうちの1つと1つ以上のオーディオオブジェクト信号のうちのもう1つとのいずれかのペアに対する相関情報を示すことはない。なぜならば、オーディオオブジェクト信号間の相関は非常に小さいので無視することができ、よって、例えば、ビットレート及び処理時間を節約するために送信されないからである。このような実施形態では、パラメータプロセッサ110は、ダウンミックス情報に依存して、1つ以上のオーディオチャンネル信号の1つずつのレベル差情報に依存して、1つ以上のオーディオオブジェクト信号の1つずつの第2のレベル差情報に依存して、及び2つ以上のオーディオチャンネル信号のうちの1つと2つ以上のオーディオチャンネル信号のうちのもう1つとの1つ以上のペアの相関情報に依存してミキシング情報を算出するように構成されている。このような実施形態は、オーディオオブジェクト信号間の相関が概して比較的低く、無視されるべきであり、2つのオーディオチャンネル信号間の相関が概して比較的高く、考慮されるべきであるという上記の発見を利用する。オーディオオブジェクト信号間の無関係な相関情報を処理しないことにより処理時間を節約することができる。オーディオチャンネル信号間の関係のある相関情報を処理することにより符号化効率は改善することができる。
特別な実施形態では、1つ以上のオーディオチャンネル信号はオーディオトランスポートチャンネルの1つ以上からなる第1のグループ内で混合され、1つ以上のオーディオブジェクト信号はオーディオトランスポート信号の1つ以上からなる第2のグループ内で混合され、第1のグループのうちの各オーディオトランスポートチャンネルは第2のグループに分類されることはなく、第2のグループのうちの各オーディオトランスポートチャンネルは第1のグループに分類されることはない。このような実施形態では、ダウンミックス情報は、1つ以上のオーディオチャンネル信号が1つ以上のオーディオトランスポートチャンネルからなる第1のグループ内でどのように混合されるかに関する情報を示す第1のダウンミックスサブ情報を含み、ダウンミックス情報は、1つ以上のオーディオオブジェクト信号が1つ以上のオーディオトランスポートチャンネルからなる第2のグループ内でどのように混合されるかに関する情報を示す第2のダウンミックスサブ情報を含む。このような実施形態では、パラメータプロセッサ110は、第1のダウンミックスサブ情報に依存して、第2のダウンミックスサブ情報に依存して、及び共分散情報に依存してミキシング情報を算出するように構成され、ダウンミックスプロセッサ120は、ミキシング情報に依存して、1つ以上のオーディオトランスポートチャンネルからなる第1のグループから、及び、オーディオトランスポートチャンネルの第2のグループから1つ以上のオーディオ出力信号を生成するように構成されている。サウンドシーンのオーディオチャンネル信号の間に高い相関が存在するので、このような方法によって符号化効率が増大する。さらに、オーディオオブジェクト信号を符号化するオーディオトランスポートチャンネルに与えるオーディオチャンネル信号の影響、及び、逆も同様に、オーディオチャンネル信号を符号化するオーディオトランスポートチャンネルに与えるオーディオオブジェクト信号の影響を示すダウンミックス行列の係数は、エンコーダによって算出される必要がなく、送信される必要がなく、そして、これらを処理する必要なしにデコーダによって零に設定することができる。このことは、エンコーダ及びデコーダの送信帯域幅及び計算時間を節約する。
実施形態では、ダウンミックスプロセッサ120は、ビットストリームでオーディオトランスポート信号を受信し、オーディオチャンネル信号だけを符号化しているオーディオトランスポートチャンネルの数を示す第1のチャンネルカウント数を受信し、かつ、オーディオオブジェクト信号だけを符号化しているオーディオトランスポートチャンネルの数を示す第2のチャンネルカウント数を受信するように構成されている。このような実施形態では、ダウンミックスプロセッサ120は、第1のチャンネルカウント数もしくは第2のチャネルカウント数に依存して、又は、第1のチャネルカウント数及び第2のチャネルカウント数に依存して、オーディオトランスポート信号のオーディオトランスポートチャンネルがオーディオチャンネル信号を符号化するか否か、又は、オーディオトランスポート信号のオーディオトランスポートチャンネルがオーディオオブジェクト信号を符号化すか否かを識別するように構成されている。例えば、ビットストリームでは、オーディオチャンネル信号を符号化するオーディオトランスポートチャンネルが最初に出現し、オーディオオブジェクト信号を符号化するオーディオトランスポートチャンネルが後で出現する。したがって、第1のチャンネルカウント数が例えば3であり、第2のチャンネルカウント数が例えば2であれば、ダウンミックスプロセッサは、最初の3個のオーディオトランスオポートチャンネルが符号化済みオーディオチャンネル信号を含み、後に続く2個のオーディオトランスポートチャンネルが符号化済みオーディオオブジェクト信号を含むと判断を下すことができる。
実施形態では、パラメータプロセッサ110は位置情報を含むメタデータ情報を受信するように構成され、位置情報は1つ以上のオーディオオブジェクト信号の1つずつに対する位置を示し、1つ以上のオーディオチャンネル信号のいずれに対する位置を示さない。このような実施形態では、パラメータプロセッサ110は、ダウンミックス情報に依存して、共分散情報に依存して、かつ、位置情報に依存してミキシング情報を算出するように構成されている。さらに又はあるいは、メタデータ情報は利得情報をさらに含み、利得情報は1つ以上のオーディオオブジェクト信号の1つずつに対する利得値を示し、1つ以上のオーディオチャンネル信号のいずれかに対する利得値を示さない。このような実施形態では、パラメータプロセッサ110は、ダウンミックス情報に依存して、共分散情報に依存して、位置情報に依存して、かつ、利得情報に依存してミキシング情報を算出するように構成することができる。例えば、パラメータプロセッサ110は、上記部分行列Rchにさらに依存してミキシング情報を算出するように構成することができる。
実施形態によれば、パラメータプロセッサ110は、ミキシング情報としてミキシング行列Sを算出するように構成され、ミキシング行列Sは、式S=RGに従って定義される。式中、Gはダウンミックス情報に依存し、かつ、共分散情報に依存した復号化行列であり、Rはメタデータ情報に依存したレンダリング行列である。このような実施形態では、ダウンミックスプロセッサ(120)は、式Z=SYを適用することによってオーディオ出力信号の1つ以上のオーディオ出力チャンネルを生成するように構成することができる。式中、Zはオーディオ出力信号であり、Yはオーディオトランスポート信号である。例えば、Rは、上記部分行列Rch及び/又はRobj(例えば、R=(Rch,obj))に依存することができる。
図3は実施形態によるシステムを示す。このシステムは、オーディオトランスポート信号を生成する前述のような装置310と、1つ以上のオーディオ出力チャンネルを生成する前述のような装置320とを備える。
1つ以上のオーディオ出力チャンネルを生成する装置320は、オーディオトランスポート信号を生成する装置310からオーティオトランスポート信号、ダウンミックス情報、及び共分散情報を受信するように構成されている。さらに、オーディオ出力チャンネルを生成する装置320は、オーディオトランスポート信号に依存して、ダウンミックス情報に依存して、及び共分散情報に依存して1つ以上のオーディオ出力チャンネルを生成するように構成されている。
実施形態によれば、オブジェクト符号化を実現するオブジェクト指向システムであるSAOCシステムの機能性は、オーディオオブジェクト(オブジェクト符号化)、オーディオチャンネル(チャンネル符号化)、又はオーディオ符号化とオーディオオブジェクトの両方(混成符号化)が符号化できるように拡張される。
前述の図6及び図8のSAOCエンコーダ800は、拡張されているので、入力としてオーディオオブジェクトを受信できるだけでなく、入力としてオーディオチャンネルも受信でき、そして、SAOCエンコーダは、受信したオーディオオブジェクトと受信したオーディオチャンネルが符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を生成することができる。例えば図6及び図8の上記実施形態では、このようなSAOCエンコーダ800は、入力としてオーディオオブジェクトだけでなく、オーディオチャンネルも受信し、受信したオーディオオブジェクトと受信したオーディオチャネルが符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を生成する。例えば、図6及び図8のSAOCエンコーダは、図2を参照して説明したように、(1つ以上のオーディオトランスポートチャンネル、例えば1つ以上のSAOCトランスポートチャンネルを含む)オーディオトランスポート信号を生成する装置として実現され、図6及び図8の実施形態は、オブジェクトだけでなく、チャンネルのうちの1つ、一部又は全部もSAOCエンコーダ800に送り込まれるように改変される。
前述の図7及び図9のSAOCデコーダ1800は、拡張されているので、オーディオオブジェクトとオーディオチャンネルが符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を受信することができ、そして、オーディオオブジェクトとオーディオチャンネルが符号化されている受信したダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)から出力チャンネル(レンダリング済みのチャンネル信号とレンダリング済みのオブジェクト信号)を生成することができる。例えば、図7及び図9の上記実施形態では、このようなSAOCデコーダ1800は、オーディオオブジェクトだけではなくオーディオチャンネルも符号化されているダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)を受信し、オーディオオブジェクトとオーディオチャンネルが符号化されている受信したダウンミックスチャンネル(例えば、SAOCトランスポートチャンネル)から出力チャンネル(レンダリングされたチャンネル信号とレンダリングされたオブジェクト信号)を生成する。例えば、図7及び図9のSAOCデコーダは、図1を参照して説明したように1つ以上のオーディオ出力チャンネルを生成する装置として実現され、図7及び図9の実施形態は、USACデコーダ1300とミキサ1220との間に示されたチャンネルのうちの1つ、一部又は全部がUSACデコーダ1300によって生成(再構成)されるのではなく、SAOCトランスポートチャンネル(オーディオトランスポートチャンネル)からSAOCデコーダ1800によって再構成されるように改変される。
アプリケーションに依存して、SAOCシステムの様々な利点がこのような拡張SAOCシステムを使用することによって利用できる。
いくつかの実施形態によれば、このような拡張SAOCシステムは、任意の数のダウンミックスチャンネルをサポートし、任意の数の出力チャンネルにレンダリングする。いくつかの実施形態では、例えば、ダウンミックスチャンネル(SAOCトランスポートチャンネル)の数は、例えば、全体的なビットレートを著しく削減するために(例えば、実行時に)減らすことができる。これは、低ビットレートをもたらす。
さらに、いくつかの実施形態によれば、このような拡張SAOCシステムのSAOCデコーダは、例として、例えば、ユーザ相互作用を可能にできる統合フレキシブルレンダラを有することができる。これにより、ユーザは、オーディオシーン内のオブジェクトの位置を変化させること、個別のオブジェクトのレベルを軽減もしくは増大させること、オブジェクトを完全に抑制することなどが可能である。例えば、バックグラウンドオブジェクト(BGO:background object)としてチャネル信号、及び、フォアグラウンドオブジェクト(FGO:foreground object)としてオブジェクト信号を考慮して、SAOCの双方向特徴を対話拡張のようなアプリケーションのために使用することができる。このような双方向特徴によって、ユーザは、対話理解度を増大させるために(例えば、対話はフォアグラウンドオブジェクトによって表現できる)、又は、(例えば、FGOによって表現された)対話と(例えば、BGOによって表現された)周囲バックグラウンドとの間で平衡を保つために、制限された範囲で、BGOとFGOを自由に操作することができる。
さらに、実施形態によれば、デコーダ側で利用できる計算複雑さに依存して、SAOCデコーダは、「低計算複雑さ:low-computaton-complexity」モードで動作することによって、例えば、逆相関器の数を減らすことによって、及び/又は、例えば、再生レイアウトに直接的にレンダリングすることによって、計算複雑さを自動的に削減し、後に続く上述のフォーマットコンバータ1720の動作を停止させることができる。例えば、レンダリング情報は、22.2システムのチャンネルを5.1システムのチャンネルにダウンミックスする方法を導くことができる。
実施形態によれば、拡張SAOCエンコーダは、可変数の入力チャンネル(NChannels)と入力オブジェクト(NObjects)を処理することができる。チャンネルとオブジェクトの数は、デコーダ側にチャンネル経路の存在を知らせるためにビットストリーム中へ伝えられる。SAOCエンコーダへの入力信号は、チャンネル信号が前半の信号であり、オブジェクト信号が後半の信号であるように常に順序付けられる。
別の実施形態によれば、チャンネル/オブジェクトミキサ210は、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルの数がどの程度のビットレートがオーディオトランスポート信号を送信するため利用可能であるかに依存するように、オーディオトランスポート信号を生成するように構成されている。
例えば、ダウンミックス(トランスポート)チャンネルの数は、例えば、利用可能なビットレートと入力信号の総数との関数として計算することができる。すなわち、
DmxCh=f(bitrate, N)
である。
Dの中のダウンミックス係数は、入力信号(チャンネルとオブジェクト)のミキシングを決定する。アプリケーションに依存して、行列Dの構造は、チャンネルとオブジェクトがいっしょに混合されるか、又は分離されたままであるか指定することができる。
いくつかの実施形態は、オブジェクトをチャンネルといっしょに混合しない方が有利であるという発見に基づいている。オブジェクトをチャンネルといっしょに混合しないためには、ダウンミックス行列は、例えば、以下のように構成することができる:

ビットストリーム中へ別々のミキシングを知らせるために、チャンネル経路

に割り当てられたダウンミックスチャンネルの数とオブジェクト経路
に割り当てられたダウンミックスチャンネルの数の値を、例えば、伝えることができる。 ブロック状ダウンミキシング行列DchとDobjは、サイズ


をそれぞれ有する。 デコーダでは、パラメトリック音源推定行列G≒ExDH(DExDH)-1の係数は、異なった形式で計算される。行列形式を使用すると、これは、以下のように表現できる。

但し、
で、サイズが
である。
で、サイズが
である。 チャンネル信号共分散

とオブジェクト信号共分散
の値は、例えば、入力信号共分散行列(Ex)から、対応する対角ブロックだけを選択することによって得ることができる。
直接的な結果として、ビットレートは、チャンネルとオブジェクトとの間の相互共分散行列を再構成するために付加情報(例えば、OLD、IOC)を送信しないことによって削減される。すなわち

である。 いくつかの実施形態によれば、

であり、それ故に、
である。 実施形態によれば、拡張SAOCエンコーダは、オーディオオブジェクトのうちのいずれか1つとオーディオチャンネルのうちのいずれか1つとの間の共分散に関する情報を拡張SAOCデコーダに送信しないように構成されている。
さらに、実施形態によれば、拡張SAOCデコーダは、オーディオオブジェクトのうちのいずれか1つとオーディオチャンネルのうちのいずれか1つとの間の共分散に関する情報を受信しないように構成されている。
Gの非対角ブロック状要素は、計算されることなく、零が設定される。その結果、再構成されたチャンネルとオブジェクトとの間で見込まれるクロストークが回避される。さらに、これにより、計算すべきGの係数が少なくなるので、計算複雑さの低減が達成される。
さらに、実施形態によれば、以下のより大きい行列、すなわち、
サイズが

であるDExDH
の逆行列を求める代わりに、以下の2つの小さい行列の逆行列が求められる。
サイズ
である
サイズ
である
より小さい行列


の逆行列を求めることは、計算複雑さの観点でより大きい行列DExDHの逆行列を求めることより非常に安上がりである。 さらに、別個の行列


の逆行列を求めることにより、見込まれる数値不安定性は、より大きい行列DExDHの逆行列を求めるより低減される。例えば、最悪の想定では、トランスポートチャンネル

の共分散行列が信号の類似性によって線形の依存性をもつとき、全体行列DExDHは悪条件であることがあるが、別々のより小さい行列は良条件である可能性がある。 デコーダ側で

が計算された後、再構成された入力信号
(入力オーディオチャンネル信号と入力オーディオオブジェクト信号)を得るために、例えば、
を使用して、入力信号を例えばパラメータ的に推定することができる。 さらに、前述のように、レンダリングはデコーダ側で出力チャンネルZを得るために、例えばレンダリング行列Rを利用することにより行うことができる。

Z=RGY
Z=SY 但し、S=RG 再構成された入力チャンネル

を得るために入力信号(入力オーディオチャンネル信号と入力オーディオオブジェクト信号)を明確に再構成する代わりに、出力チャンネル生成行列Sをダウンミックスオーディオ信号Yに適用することにより出力チャンネルZをデコーダ側で直接生成することができる。 前述のように、出力チャンネル生成行列Sを得るために、レンダリング行列Rは例えば決定してもよく、又は例えば既に利用可能なものであってもよい。さらに、パラメトリック音源推定行列Gは、例えば前述のように計算することができる。したがって、出力チャンネル生成行列Sは、レンダリング行列Rとパラメトリック音源推定行列Gとから行列積S=RGとして得ることができる。
再構成されたオーディオオブジェクト信号に関して、エンコーダからデコーダへ送信されたオーディオオブジェクトに関する圧縮メタデータを考慮することができる。例えば、オーディオオブジェクトに関するメタデータは、オーディオオブジェクトの1つずつに関する位置情報を示すことができる。このような位置情報は、例えば、方位角、仰角及び半径とすることができる。この位置情報は、3D空間内のオーディオオブジェクトの位置を示すことができる。例えば、オーディオオブジェクトが想定もしくは現実のスピーカー位置に近接して位置しているとき、このようなオーディオオブジェクトは、そのスピーカーから遠く離れて位置している出力チャンネルにおける別のオーディオオブジェクトに比べるとそのスピーカーのための出力チャンネルにおいてより高い重みを有する。例えば、ベクトルベースの振幅パニング(VBAP)は、オーディオオブジェクトに対するレンダリング行列Rのレンダリング係数を決定するために利用することができる(例えば、[VBAP]を参照のこと)。
さらに、いくつかの実施形態では、圧縮メタデータは、オーディオオブジェクトの1つずつに対する利得値を含むことができる。例えば、オーディオオブジェクト信号の1つずつに対して、利得値はそのオーディオオブジェクト信号に対する利得係数を示すことができる。
オーディオオブジェクトに対比して、位置情報メタデータは、オーディオチャンネル信号についてはエンコーダからデコーダに送信されない。(例えば、22.2を5.1に変換するための)付加的な行列、又は(チャンネルの入力構成が出力構成に等しいときの)単位行列は、例えばオーディオチャンネルに対してレンダリング行列Rのレンダリング係数を決定するために利用することができる。
レンダリング行列Rのサイズは、NOutputChannels×Nとすることができる。ここで、出力チャンネルの1つずつのため、行列Rの中に1行が存在する。さらに、レンダリング行列Rの各行において、N個の係数は、対応する出力チャンネルにおけるN個の入力信号(入力オーディオチャンネル及び入力オーディオオブジェクト)の重みを決定する。その出力チャンネルのスピーカーに近接して位置しているそれらのオーディオオブジェクトは、対応する出力チャンネルのスピーカーから遠く離れて位置しているオーディオオブジェクトの係数より大きい係数を有する。
例えば、ベクトルベース振幅パニング(VBAP)をスピーカーの各オーディオチャンネルの内部でオーディオオブジェクト信号の重みを決定するために利用することができる(例えば、[VBAP]を参照)。例えば、VBAPに関して、オーディオオブジェクトは、仮想音源に関係していると仮定する。
オーディオオブジェクトに対比して、オーディオチャンネルは位置を有していないので、レンダリング行列の中のオーディオチャンネルに関係する係数は、例えば、位置情報から独立したものとすることができる。
以下、実施形態によるビットストリーム構文を説明する。
MPEG SAOCに関して、起こり得る動作モード(チャンネルベース、オブジェクトベース又は統合モード)の信号伝達は、例えば、2つの以下の可能性(第1の可能性:動作モードを信号伝達するフラグを使用する;第2の可能性:動作モードを信号伝達するフラグを使用しない)のうち1つを使用することによって達成することができる:
したがって、第1の実施形態によれば、動作モードを信号伝達するためにフラグが使用される。
動作モードを信号伝達するためにフラグを使用するために、SAOCSpecifigConfig()要素又はSAOC3DSpecifigConfig()要素の構文は、例えば、以下を含むことができる。

ビットストリーム変数bsSaocChannelFlagが1に設定された場合、最初のbsNumSaocChannels+1入力信号はチャンネルベース信号のように取り扱われる。ビットストリーム変数bsSaocObjectFlagが1に設定された場合、最後のbsNumSaocObjects+1入力信号はオブジェクト信号のように処理される。その結果、両方のビットストリーム変数(bsSaocChannelFlag, bsSaocObjectFlag)が零とは異なる場合、オーディオトランスポートチャンネル中のチャンネルとオブジェクトの存在が信号伝達される。
ビットストリーム変数bsSaocCombinedModeFlagが1に等しい場合、統合復号化モードがビットストリーム中へ伝えられ、デコーダは完全なダウンミックス行列D(これは、チャンネル信号とオブジェクト信号がいっしょに混合されていることを意味する)を使用して、bsNumSaocDmxChannelsトランスポートチャンネルを処理する。
ビットストリーム変数bsSaocCombinedModeFlagが零である場合、独立した復号化モードが信号伝達され、デコーダは前述のようにブロック状ダウンミックス行列を使用して、(bsNumSaocDmxChannels+1) + (bsNumSaocDmxObjects+1)のトランスポートチャンネルを処理する。
好ましい第2の実施形態によれば、動作モードを信号伝達するためにはフラグは必要ではない。
フラグを使用することなく動作モードを信号伝達することは、例えば、以下の構文を利用することによって実現することができる。
信号伝達:
SAOC3DSpecificConfig()の構文:

チャンネルとオブジェクトとの間の相互相関が零になるように制限する。

オーディオチャンネルとオーディオオブジェクトが、異なったオーディオトランスポートチャンネルにおいて混合された場合と、それらがオーディオトランスポートチャンネルの内部でいっしょに混合された場合とで、ダウンミキシング利得を別々に読み取る。

ビットストリーム変数bsNumSaocChannelsが零とは異なる場合、最初のbsNumSaocChannels入力信号はチャンネルベース信号のように取り扱われる。ビットストリーム変数bsNumSaocObjectsが零とは異なる場合、最後のbsNumSaocObjects入力信号はオブジェクト信号のように処理される。その結果、両方のビットストリーム変数が零とは異なる場合、オーディオトランスポートチャンネル中のチャンネルとオブジェクトの存在が信号伝達される。
ビットストリーム変数bsNumSaocDmxObjectsが零に等しい場合、統合復号化モードがビットストリーム中へ信号伝達され、デコーダは完全なダウンミックス行列D(これはチャンネル信号とオブジェクト信号がいっしょに混合されていることを意味する)を使用して、bsNumSaocDmxChannelsトランスポートチャンネルを処理する。
ビットストリーム変数bsNumSaocDmxObjectsが零でない場合、独立した復号化モードが信号伝達され、デコーダは前述のようにブロック状ダウンミックス行列を使用して、bsNumSaocDmxChannels+bsNumSaocDmxObjectsのトランスポートチャンネルを処理する。
以下、実施形態によるダウンミックス処理の態様を説明する。
(ハイブリッドQMFドメインにおいて表現された)ダウンミックスプロセッサの出力信号は、ISO/IEC 23003-1:2007に記載されているように、対応する合成フィルタバンクに送り込まれ、SAOC 3Dデコーダの最終出力を生じさせる。
図1のパラメータプロセッサ110とダウンミックスプロセッサ120は、統合処理ユニットとして実施することができる。そのような統合処理ユニットは図1によって示され、ユニットUとRがミキシング情報を供給することによってパラメータプロセッサ110を実施する。
出力信号

は、マルチチャンネルダウンミックス信号Xと逆相関マルチチャンネル信号Xdから以下のように計算される。
式中、Uはパラメトリック分解行列を表わす。 行列P=(Pdrywet)はミキシング行列である。
逆相関マルチチャンネル信号Xdは以下のように定義される。

復号化モードはビットストリーム要素bsNumSaocDmxObjectsによって制御される。

統合復号化モードの場合、パラメトリック分解行列Uは次式によって与えられる。

サイズが

である行列Jは、
によって与えられる。但し、
である。 独立復号化モードの場合、分解行列Uは次式によって与えられる。

式中、
及び
である。 サイズがNch×Nchであるチャンネルベース共分散行列EchとサイズがNobj×Nobjであるオブジェクトベース共分散行列Eobjは、共分散行列Eから、対応する対角ブロックだけを選択することにより得られる。

式中、行列
は、入力チャンネルと入力オブジェクトとの間の相互共分散行列を表わし、計算する必要がない。 サイズが

であるチャンネルベースダウンミックス行列Dchとサイズが
であるオブジェクトベースダウンミックス行列Dobjは、ダウンミックス行列Dから、対応する対角ブロックだけを選択することにより得られる。
サイズが

である行列
は、
の代わりに行列Jの定義から導かれる。 サイズが

である行列
は、次式の代わりに行列Jの定義から導かれる。
行列

は以下の方程式を使用して算出される。
ここで、行列Δの特異ベクトルVは、以下の特性方程式を使用して得られる。

対角特異値行列Λの正規化逆行列

は以下のように計算される。
相対正規化スカラー

は、絶対閾値
とΛの極大値を使用して以下のように決定される。
以下、実施形態によるレンダリング行列について説明する。
入力オーディオ信号Sに適用されるレンダリング行列Rは、Y=RSとして目標のレンダリング出力を決定する。サイズがNout×Nであるレンダリング行列Rは、次式
R=(Rchobj)
によって与えられる。式中、サイズがNout×NchであるRchは入力チャンネルに関連付けられたレンダリング行列を表わし、サイズがNout×NobjであるRobjは入力オブジェクトに関連付けられたレンダリング行列を表わす。
以下、実施形態による逆相関マルチチャンネル信号Xdについて説明する。
逆相関信号Xdは、例えば、bsDecorrConfig == 0、及び例えば逆相関器インデックスXを用いて、ISO/IEC 23003-1:2007の6.6.2に記載された逆相関器から作り出される。その結果、

は、例えば以下の逆相関プロセスを表す。
いくつかの態様が装置に関連して説明されているが、これらの態様は対応する方法の説明も表し、ブロック又は機器は方法ステップ又は方法ステップの特徴に対応することが明らかである。同様に、方法ステップに関連して説明された態様は、対応する装置の対応するブロックもしくは物又は特徴の説明を表している。
本発明の分解された信号は、ディジタル記憶媒体に記憶することができ、又は無線伝送媒体もしくはインターネットのような有線伝送媒体といった伝送媒体上で送信することができる。
特定の実施要件に依存して、本発明の実施形態はハードウェア又はソフトウェアで実施することができる。その実施は、ディジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はFLASHメモリを使用して実行することができる。そのディジタル記憶媒体は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(協働する能力がある)電子的に読み取り可能な制御信号を記憶しているものである。
本発明によるいくつかの実施形態は、本明細書に記載された方法のうちの1つが実行されるようにプログラマブルシステムと協働する能力がある電子的に読み取り可能な制御信号を有する非遷移型のデータ担体を含む。
概して、本発明の実施形態はプログラムコードをもつコンピュータプログラムプロダクトとして実施することができ、そのプログラムコードはこのコンピュータプログラムプロダクトがコンピュータ上で動くとき本発明方法のうち1つを実行するために動作するものである。そのプログラムコードは、例えば機械読み取り可能な担体に記憶することができる。
他の実施形態は、機械読み取り可能な担体上に記憶され、かつ本明細書に記載された方法のうち1つを実行するコンピュータプログラムを含む。
換言すれば、本発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータ上で動くとき、本明細書に記載された方法のうち1つを実行するプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを記録しているデータ担体(又はディジタル記憶媒体、もしくはコンピュータ読み取り可能な媒体)である。
本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを表現するデータストリーム又は信号のシーケンスである。そのデータストリーム又は信号のシーケンスは、例えば、データ通信接続を介して、例としてインターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するように構成され又は適合した処理手段、例えば、コンピュータ又はプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを実装しているコンピュータを含む。
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を本明細書に記載された方法の機能性のうちの一部又は全部を実行するために使用することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載された方法のうち1つを実行するためにマイクロプロセッサと協働することができる。概して、本発明方法は、好ましくは、ハードウェア装置によって実行される。
上記実施形態は、本発明の原理の単なる例示である。当然のことながら、本明細書に記載された配置構成及び細部の変更及び変形は、当業者には明白であろう。したがって、意図するところは、本発明は直ぐ後の特許請求の範囲だけによって限定され、本明細書において実施形態の記載及び説明のために提示された具体的な細部によって限定されないことである。



  1. 1つ以上のオーディオ出力チャンネルを生成する装置であって、該装置は、
    ミキシング情報を算出するパラメータプロセッサ(110)と、
    前記1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(120)と、を備え、
    前記ダウンミックスプロセッサ(120)は1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成され、1つ以上のオーディオチャンネル信号が前記オーディオトランスポート信号内で混合され、1つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、かつ、前記1つ以上のオーディオトランスポートチャンネルの数が前記1つ以上のオーディオオブジェクト信号の数に前記1つ以上のオーディオチャンネル信号の数を加えた数より少なくされており、
    前記パラメータプロセッサ(110)は、前記1つ以上のオーディオチャンネル信号及び前記1つ以上のオーディオオブジェクト信号が前記1つ以上のオーディオトランスポートチャンネルの内部でどのように混合されるかに関する情報を示すダウンミックス情報を受信するように構成され、かつ、前記パラメータプロセッサ(110)は共分散情報を受信するように構成され、
    前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、及び前記共分散情報に依存して前記ミキシング情報を算出するように構成され、
    前記ダウンミックスプロセッサ(120)は、前記ミキシング情報に依存して前記オーディオトランスポート信号から前記1つ以上のオーディオ出力チャンネルを生成するように構成され、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうち少なくとも1つに対するレベル差情報を示し、さらに前記1つ以上のオーディオオブジェクト信号のうち少なくとも1つに対するレベル差情報を示し、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうち1つと前記1つ以上のオーディオオブジェクト信号のうち1つとのペアに対する相関情報を示すことがない装置。

  2. 前記共分散情報は、前記1つ以上のオーディオチャンネル信号の1つずつに対するレベル差情報を示し、さらに前記1つ以上のオーディオオブジェクト信号の1つずつに対するレベル差情報を示す請求項1に記載の装置。

  3. 2つ以上のオーディオオブジェクト信号は前記オーディオトランスポート信号の内部で混合され、2つ以上のオーディオチャンネル信号は前記オーディオトランスポート信号の内部で混合され、
    前記共分散情報は、前記2つ以上のオーディオチャンネル信号のうちの1つと、前記2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、又は、
    前記共分散情報は、前記2つ以上のオーディオオブジェクト信号のうちの1つと、前記2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、又は、
    前記共分散情報は、前記2つ以上のオーディオチャンネル信号のうちの1つと、前記2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、かつ、前記2つ以上のオーディオオブジェクト信号のうちの1つと、前記2つ以上のオーディオオブジェクト信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示す請求項1又は2に記載の装置。

  4. 前記共分散情報は、Nを前記1つ以上のオーディオチャンネル信号の数に前記1つ以上のオーディオオブジェクト信号の数を加えた数として、サイズがN×Nである共分散行列Exの複数の共分散係数を含み、
    前記ダウンミックス行列Exは、式
    に従って定義され、
    式中、
    はサイズがNChannels×NChannels(NChannelsは前記1つ以上のオーディオチャンネル信号の数)である第1の共分散部分行列の係数を示し、
    はサイズがNObjects×NObjects(NObjectsは前記1つ以上のオーディオオブジェクト信号の数)である第2の共分散部分行列の係数を示し、
    0は零行列を示し、
    前記パラメータプロセッサ(110)は、前記ダウンミックス行列Exの前記複数のダウンミックス係数を受信するように構成され、
    前記パラメータプロセッサ(110)は、前記パラメータプロセッサ(110)によって受信されることがない前記ダウンミックス行列Exの全係数に0を設定するように構成されている請求項1から3のいずれか一項に記載の装置。

  5. 前記1つ以上のオーディオチャンネル信号は前記オーディオトランスポートチャンネルの1つ以上からなる第1のグループの内部で混合され、前記1つ以上のオーディオブジェクト信号は前記オーディオトランスポートチャンネルの1つ以上からなる第2のグループの内部で混合され、前記第1のグループの各オーディオトランスポートチャンネルは前記第2のグループに含まれることがなく、前記第2のグループの各オーディオトランスポートチャンネルは前記第1のグループに含まれることがなく、
    前記ダウンミックス情報は、前記1つ以上のオーディオチャンネル信号が前記1つ以上のオーディオトランスポートチャンネルからなる前記第1のグループの内部でどのように混合されるかに関する情報を示す第1のダウンミックスサブ情報を含み、かつ、前記ダウンミックス情報は、前記1つ以上のオーディオオブジェクト信号が前記1つ以上のオーディオトランスポートチャンネルからなる前記第2のグループの内部でどのように混合されるかに関する情報を示す第2のダウンミックスサブ情報を含み、
    前記パラメータプロセッサ(110)は、前記第1のダウンミックスサブ情報に依存して、前記第2のダウンミックスサブ情報に依存して、及び前記共分散情報に依存して前記ミキシング情報を算出するように構成され、
    前記ダウンミックスプロセッサ(120)は、前記ミキシング情報に依存して、1つ以上のオーディオトランスポートチャンネルからなる前記第1のグループから、及びオーディオトランスポートチャンネルからなる前記第2のグループから前記1つ以上のオーディオ出力信号を生成するように構成されている請求項1から4のいずれか一項に記載の装置。

  6. 前記ダウンミックス情報はサイズがNDmxCh×N(NDmxChは前記1つ以上のオーディオトランスポートチャンネルの数を示し、Nは前記1つ以上のオーディオチャンネル信号の数に前記1つ以上のオーディオオブジェクト信号の数を加えた数を示す)であるダウンミックス行列Dの複数のダウンミックス係数を含み、
    前記ダウンミックス行列Dは、
    に従って定義され、
    式中、Dchはサイズが
    ×NChannels(
    は前記1つ以上のオーディオトランスポートチャンネルからなる前記第1のグループの前記1つ以上のオーディオトランスポートチャンネルの数を示し、NChannelsは前記1つ以上のオーディオチャンネル信号の数を示す)である第1のダウンミックス部分行列の係数を示し、
    objはサイズが
    ×NChannels(
    は前記1つ以上のオーディオトランスポートチャンネルからなる前記第2のグループの前記1つ以上のオーディオトランスポートチャンネルの数を示し、NChannelsは前記1つ以上のオーディオチャンネル信号の数を示す)
    である第2のダウンミックス部分行列の係数を示し、
    0は零行列を示し、
    前記パラメータプロセッサ(110)は前記ダウンミックス行列Dの前記複数のダウンミックス係数を受信するように構成され、
    前記パラメータプロセッサ(110)は、前記パラメータプロセッサ(110)によって受信されることがない前記ダウンミックス行列Dの全係数に0を設定するように構成されている請求項5に記載の装置。

  7. 前記ダウンミックスプロセッサ(120)は、前記オーディオトランスポート信号の前記オーディオトランスポートチャンネルを含むデータストリームを受信するように構成され、
    前記ダウンミックスプロセッサ(120)は、1つ以上のオーディオトランスポートチャンネルからなる前記第1のグループの前記オーディオトランスポートチャンネルの数を示す第1のチャンネルカウント数を受信するように構成され、
    前記ダウンミックスプロセッサ(120)は、1つ以上のオーディオトランスポートチャンネルからなる前記第2のグループの前記オーディオトランスポートチャンネルの数を示す第2のチャンネルカウント数を受信するように構成され、
    前記ダウンミックスプロセッサ(120)は、前記第1のチャンネルカウント数もしくは前記第2のチャネルカウント数に依存して、又は前記第1のチャネルカウント数及び前記第2のチャネルカウント数に依存して、前記データストリーム内のオーディオトランスポートチャンネルが前記第1のグループに属するのか又は前記第2のグループに属するのかを識別するように構成されている請求項5又は6に記載の装置。

  8. 前記パラメータプロセッサ(110)は、前記1つ以上のオーディオチャンネル信号及び前記1つ以上のオーディオオブジェクト信号が前記1つ以上のオーディオ出力チャンネル内でどのように混合されるかに関する情報を示すレンダリング情報を受信するように構成され、
    前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して及びレンダリング情報に依存して前記ミキシング情報を算出するように構成されている請求項1から7のいずれか一項に記載の装置。

  9. 前記パラメータプロセッサ(110)は、前記レンダリング情報としてレンダリング行列Rの複数の係数を受信するように構成され、
    前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して及び前記レンダリング行列Rに依存して前記ミキシング情報を算出するように構成されている請求項8に記載の装置。

  10. 前記パラメータプロセッサ(110)は、前記レンダリング情報としてメタデータ情報を受信するように構成され、前記メタデータ情報は位置情報を含み、
    前記位置情報は前記1つ以上のオーディオオブジェクト信号の1つずつに対する位置を示し、
    前記位置情報は前記1つ以上のオーディオチャンネル信号のいずれかに対する位置を示すことがなく、
    前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して、及び前記位置情報に依存して前記ミキシング情報を算出するように構成されている請求項8に記載の装置。

  11. 前記メタデータ情報はさらに利得情報を含み、
    前記利得情報は前記1つ以上のオーディオオブジェクト信号の1つずつに対する利得値を示し、
    前記利得情報は前記1つ以上のオーディオチャンネル信号のいずれかに対する利得値を示すことがなく、
    前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、前記共分散情報に依存して、前記位置情報に依存して、及び前記利得情報に依存して前記ミキシング情報を算出するように構成されている請求項10に記載の装置。

  12. 前記パラメータプロセッサ(110)は、前記ミキシング情報としてミキシング行列Sを算出するように構成され、前記ミキシング行列Sは、式
    S=RG
    に従って定義され、
    式中、Gは前記ダウミックス情報に依存し、かつ、前記共分散情報に依存した復号化行列であり、
    Rは前記メタデータ情報に依存したレンダリング行列であり、
    前記ダウンミックスプロセッサ(120)は、式
    Z=SY
    を適用することにより、前記オーディオ出力信号の前記1つ以上のオーディオ出力チャンネルを生成するように構成され、
    式中、Zはオーディオ出力信号であり、Yはオーディオトランスポート信号である請求項10又は11に記載の装置。

  13. 2つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、2つ以上のオーディオチャンネル信号が前記オーディオトランスポート信号内で混合され、
    前記共分散情報は、前記2つ以上のオーディオチャンネル信号のうちの1つと、前記2つ以上のオーディオチャンネル信号のうちのもう1つとからなる1つ以上のペアに対する相関情報を示し、
    前記共分散情報は、前記1つ以上のオーディオオブジェクト信号のうちの1つと前記1つ以上のオーディオオブジェクト信号のうちのもう1つとのペアに対する相関情報を示すことがなく、
    前記パラメータプロセッサ(110)は、前記ダウンミックス情報に依存して、前記1つ以上のオーディオチャンネル信号の1つずつのレベル差情報に依存して、前記1つ以上のオーディオオブジェクト信号の1つずつの前記第2のレベル差情報に依存して、及び前記2つ以上のオーディオチャンネル信号のうちの1つと前記2つ以上のオーディオチャンネル信号のうちのもう1つとの前記1つ以上のペアの前記相関情報に依存して前記ミキシング情報を算出するように構成されている請求項1から12のいずれか一項に記載の装置。

  14. 1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置であって、該装置は、
    前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを生成するチャンネル/オブジェクトミキサ(210)と、
    出力インターフェース(220)と、を備え、
    前記チャンネル/オブジェクトミキサ(210)は、前記1つ以上のオーディオチャンネル信号及び前記1つ以上のオーディオオブジェクト信号が前記1つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、前記オーディオトランスポート信号内で前記1つ以上のオーディオチャンネル信号と前記1つ以上のオーディオオブジェクト信号とを混合することにより前記1つ以上のオーディオトランスポートチャンネルを含む前記オーディオトランスポート信号を生成し、前記1つ以上のオーディオトランスポートチャンネルの数が1つ以上のオーディオチャンネル信号の数に1つ以上のオーディオオブジェクト信号の数を加えた数より少なくなるように構成され、
    前記出力インターフェース(220)は、前記オーディオトランスポート信号、前記ダウンミックス情報及び共分散情報を出力するように構成され、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに前記1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示し、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうちの1つと前記1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示すことがない装置。

  15. チャンネル/オブジェクトミキサ(210)は、前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルの数がどの程度のビットレートが前記オーディオトランスポート信号を送信するため利用可能であるかに依存するように、前記オーディオトランスポート信号を生成するように構成されている請求項14に記載の装置。

  16. オーディオトランスポート信号を生成する請求項14又は15に記載の装置(310)と、
    1つ以上のオーディオ出力チャンネルを生成する請求項1から13のいずれか一項に記載の装置(320)と、を備え、
    請求項1から13のいずれか一項に記載の装置(320)は、請求項14又は15に記載の前記装置(310)から前記オーディオトランスポート信号、ダウンミックス情報及び共分散情報を受信するように構成され、
    請求項1から13のいずれか一項に記載の装置(320)は、前記ダウンミックス情報及び前記共分散情報に依存して前記オーディオトランスポート信号から前記1つ以上のオーディオ出力チャンネルを生成するように構成されているシステム。

  17. 1つ以上のオーディオ出力チャンネルを生成する方法であって、該方法は、
    1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するステップであって、1つ以上のオーディオチャンネル信号が前記オーディオトランスポート信号内で混合され、1つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が前記1つ以上のオーディオチャンネル信号の数に前記1つ以上のオーディオオブジェクト信号の数を加えた数より少なくされているステップと、
    前記1つ以上のオーディオチャンネル信号と前記1つ以上のオーディオオブジェクト信号が前記1つ以上のオーディオトランスポートチャンネル内でどのように混合されるかに関する情報を示すダウンミックス情報を受信するステップと、
    共分散情報を受信するステップと、
    前記ダウミックス情報に依存して、及び前記共分散情報に依存してミキシング情報を算出するステップと、
    前記1つ以上のオーディオ出力チャンネルを生成するステップであって、前記ミキシング情報に依存して前記オーディオトランスポート信号から前記1つ以上のオーディオ出力チャンネルを生成するステップと、を含み、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに前記1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示し、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうちの1つと前記1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示すことがない方法。

  18. 1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する方法であって、該方法は、
    1つ以上のオーディオチャンネル信号及び1つ以上のオーディオオブジェクト信号が前記1つ以上のオーディオトランスポートチャンネル内でどのように混合されるべきであるかに関する情報を示すダウンミックス情報に依存して、前記オーディオトランスポート信号内で前記1つ以上のオーディオチャンネル信号及び前記1つ以上のオーディオオブジェクト信号を混合することにより前記1つ以上のオーディオトランスポートチャンネルを含む前記オーディオトランスポート信号を生成し、前記1つ以上のオーディオトランスポートチャンネルの数が前記1つ以上のオーディオチャンネル信号の数と前記1つ以上のオーディオオブジェクト信号の数を加えた数より少なくなるようにするステップと、
    前記オーディオトランスポート信号、前記ダウンミックス情報及び共分散情報を出力するステップと、を含み、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうちの少なくとも1つに対するレベル差情報を示し、さらに前記1つ以上のオーディオオブジェクト信号のうちの少なくとも1つに対するレベル差情報を示し、
    前記共分散情報は、前記1つ以上のオーディオチャンネル信号のうちの1つと前記1つ以上のオーディオオブジェクト信号のうちの1つとのペアに対する相関情報を示すことがない方法。

  19. コンピュータ又は信号プロセッサ上で実行されたときに請求項17又は18に記載の方法を実施するコンピュータプログラム。

 

 

Patent trol of patentswamp
類似の特許
本発明は、総和を含む少なくとも1つのフィルタリングプロセスが、少なくとも2つの入力信号, i, ..., i)に適用され、フィルタリングプロセスが、少なくとも1つの第1の空間効果伝達関数, ak, ..., ak)の適用であって、第1の伝達関数が各入力信号に特有である、適用と、少なくとも1つの第2の空間効果伝達関数の適用であって、第2の伝達関数がすべての入力信号に共通である、適用とを含む、音響空間化の方法に関する。方法は、少なくとも1つの入力信号を重み付け係数)を用いて重み付けするステップを含み、前記重み付け係数が入力信号の各々に特有であるようなものである。
オーディオ処理器(10)は、入力インターフェースと、検出器インターフェース(32)と、ミキサー(22)と、出力インターフェースとを備える。入力インターフェースは、少なくとも2つの入力オーディオチャネルを受信し、各入力オーディオチャネルは少なくとも1つのスピーカ軸上の少なくとも2個のスピーカの所定の再生位置と関連付けられている。検出器インターフェース(32)は、リスナーの耳軸に対する少なくとも2個のスピーカの位置についての情報を示す位置信号(18)を受信し、耳軸と少なくとも1つのスピーカ軸とは互いに対して0°よりも大きく180°よりも小さい角度を有する。ミキサー(22)は、位置信号(18)に依存して少なくとも2つの入力オーディオチャネルをミキシングし、少なくとも2つの出力チャネルを得る。第1角度が第2角度よりも大きいとき、耳軸とスピーカ軸との間の第1角度に係る第1出力チャネル中の第2入力オーディオチャネルの部分が、耳軸とスピーカ軸との間の第2角度に係る第1出力チャネル中の第2入力オーディオチャネルの部分よりも大きくなるようにミキシングし、更に第1角度が第2角度よりも大きいとき、第1角度に係る第2出力チャネル中の第1入力オーディオチャネルの部分が、第2角度に係る第2出力チャネル中の第1入力オーディオチャネルの部分よりも大きくなるようにミキシングする。出力インターフェースは、少なくとも2つの出力チャネルを少なくとも2個のスピーカに出力する。
【選択図】図1
入力チャネル設定の複数の入力チャネルを出力チャネル設定の出力チャネルにマッピングする方法は前記複数の入力チャネルの各入力チャネルに関連付けされ、前記関連付けされた入力チャネルと出力チャネル群との間の異なるマッピングを定義する規則セットを提供する。前記複数の入力チャネルにおける各入力チャネルに対して、当該入力チャネルに関連付けされた規則を参照し、前記参照した規則において定義される前記出力チャネル群が前記出力チャネル設定に存在するか決定し、前記参照した規則において定義されている前記出力チャネル群が出力チャネル設定に存在する場合、前記参照した規則を選択する。前記選択した規則に応じて前記入力チャネルを前記出力チャネルにマッピングする。
入力チャネル設定の第1の入力チャネル及び第2の入力チャネルを出力チャネル設定の少なくとも1個の出力チャネルにマッピングするための装置であって、各入力チャネル及び各出力チャネルは対応するラウドスピーカが中央のリスナー位置に対して配置される方向を有し、前記装置は前記第1の入力チャネルを前記出力チャネル設定の第1の出力チャネルにマッピングする。前記装置は、更に、少なくともa)前記第2の入力チャネルを前記第1の出力チャネルにマッピングし、前記マッピングは少なくとも1個の等化フィルタ及び非相関フィルタを前記第2の入力チャネルに適用することにより前記第2の入力チャネルを処理するステップを備え、及び/又はb)前記第2の入力チャネルの方向と前記第1の出力チャネルの方向との間の角度差が、前記第2の入力チャネルの方向と前記第2の出力チャネルとの間の角度差より少ない、及び/又は前記第2の入力チャネルの方向と前記第3の出力チャネルの方向との間の角度差より少ないことに関わらず、前記第2の出力チャネルと前記第3の出力チャネルとの間のパニングにより、前記第2の入力チャネルを前記第2の出力チャネル及び前記第3の出力チャネルにマッピングするよう構成される装置を提供する。
圧縮入力オーディオ信号を復号するためのオーディオ復号器デバイスであって、
プロセッサ入力信号(38、38')に基づいてプロセッサ出力信号(37)を生成するための1つ又は複数のプロセッサ(36、36')を有する少なくとも1つのコア復号器(6、24)であって、プロセッサ出力信号(37、37')の出力チャネル(37.1、37.2、37.1'、37.2')の数はプロセッサ入力信号(38、38')の入力チャネル(38.1、38.1')の数よりも多く、1つ又は複数のプロセッサ(36、36')の各々は脱相関装置(39、39')及び混合器(40、40')を備え、複数のチャネル(13.1、13.2、13.3、13,4)を有するコア復号器出力信号(13)はプロセッサ出力信号(37、37')を含み、コア復号器出力信号(13)は基準スピーカ配置(42)に適している、少なくとも1つのコア復号器と、
コア復号器出力信号(13)を、目標スピーカ配置(45)に適している出力オーディオ信号(31)に変換するように構成されている少なくとも1つのフォーマット変換器デバイス(9、10)と、
プロセッサ(36、36')の脱相関装置(39、39')がプロセッサ(36、36')の混合器(40、40')から独立して制御され得るように、少なくとも1つ又は複数のプロセッサ(36、36')を制御するように構成されている制御デバイス(46)であって、目標スピーカ配置(45)に応じて1つ又は複数のプロセッサ(36、36')の脱相関装置(39、39')の少なくとも1つを制御するように構成されている制御デバイス(46)と、を備える復号器デバイス。
【選択図】図1
音響信号処理方法 // JP2016527799
3次元音響環境を作る音声信号を処理する方法は、少なくとも一の音源から少なくとも一の入力信号を受信する工程と、前記受信した少なくとも一の入力信号に基づいて、地面又は床に反射する少なくとも一の入力信号のシミュレーションを表す模擬信号を少なくとも一部作る工程と、前記模擬信号及び前記受信した少なくとも一の入力信号に基づいて、複数の音声チャネルを含む出力信号を、少なくとも部分的に作る工程と、を少なくとも備え、前記出力信号の前記複数の音声チャネルのうち少なくとも二のチャネルは、基準聴手位置において聴取者の耳の高さよりも上にある音響変換器用の信号を表し、前記出力信号の前記複数の音声チャネルのうち少なくとも二のチャネルは、基準聴手位置において聴取者の耳の高さよりも下にある音響変換器用の信号を表すことを特徴とする方法。
【選択図】図2
1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、出力チャンネルミキシング情報を算出するパラメータプロセッサ(110)と、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(120)とを備える。ダウンミックスプロセッサ(120)は1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されており、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされている。オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則に依存する。第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示す。さらに、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。パラメータプロセッサ(110)は第2のミキシング規則に関する情報を受信するように構成されており、第2のミキシング規則に関する情報は1つ以上のオーディオトランスポートチャンネルが得られるように複数のプリミックスされた信号を混合する方法を示す。さらに、パラメータプロセッサ(110)は、2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するように構成されている。ダウンミックスプロセッサ(120)は、出力チャンネルミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
【選択図】図1
本発明の実施形態は適応的なオーディオ・コンテンツ生成に関する。具体的には、適応的なオーディオ・コンテンツを生成するための方法が提供される。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出し、少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成することを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。
聞き手の頭の意図された位置の近くに配置された少なくとも2つの近接場スピーカを有する自動車オーディオシステムの信号は、第1のモードでは、聞き手に広いサウンドステージを感知させる第1のフィルタに従って近接場スピーカに配信され、第2のモードでは、オーディオ信号は、聞き手に狭いサウンドステージを感知させる第2のフィルタに従って近接場スピーカに配信されるように調整される。可変値のユーザ入力が受け取られ、これに応答してオーディオ信号の分布が第1のモードから第2のモードへ移行し、移行の程度はユーザ入力の値に基づいて可変である。
全般に、音場の空間成分の圧縮のための量子化ステップサイズを決定するための技法が説明される。1つまたは複数のプロセッサを備えるデバイスが、本技法を実行するように構成され得る。言い換えれば、1つまたは複数のプロセッサは、音場の空間成分を圧縮するときに使用されるべき量子化ステップサイズを決定するように構成されてよく、空間成分は、複数の球面調和係数に関してベクトルベースの合成を実行することによって生成される。
【選択図】図4
To top