3dオーディオコンテンツのsaocダウンミックスを実現する装置及び方法

著者らは特許

G10L19/008 - マルチチャネルオーディオ信号の符号化及び復号化,チャネル間の関係を使用して冗長性を減少させるもの,例.ジョイントステレオ,インテンシティ符号化又はマトリキシング
H04S - ステレオ方式
H04S3/00 - 3チャンネル以上,例.4チャンネル,を用いる方式,(H04S5/00,H04S7/00が優先)
H04S3/02 - マトリクス形式,すなわち.入力信号が代数学的に組み合わされるもの,例.互いに関して位相推移がなされた後組み合わされるもの
H04S7/00 - 指示装置;制御装置,例.バランス制御

の所有者の特許 JP2016527558:

フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

 

1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、出力チャンネルミキシング情報を算出するパラメータプロセッサ(110)と、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(120)とを備える。ダウンミックスプロセッサ(120)は1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されており、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされている。オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則に依存する。第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示す。さらに、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。パラメータプロセッサ(110)は第2のミキシング規則に関する情報を受信するように構成されており、第2のミキシング規則に関する情報は1つ以上のオーディオトランスポートチャンネルが得られるように複数のプリミックスされた信号を混合する方法を示す。さらに、パラメータプロセッサ(110)は、2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するように構成されている。ダウンミックスプロセッサ(120)は、出力チャンネルミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
【選択図】図1

 

 

本発明は、オーディオ符号化/復号化に関し、詳しくは空間オーディオ符号化及び空間オーディオオブジェクト符号化に関し、より詳しくは3DオーディオコンテンツのSAOCダウンミックスを実現する装置及び方法と、3DオーディオコンテンツのSAOCダウンミックスを効率的に復号化する装置及び方法に関する。
空間オーディオ符号化ツールは、当該技術分野において周知であり、例えば、MPEGサラウンド規格において標準化されている。空間オーディオ符号化は、再生セットアップにおけるチャンネル配置によって識別された5つ又は7つのチャンネルのような元の入力チャンネル、すなわち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャンネルから始まる。空間オーディオエンコーダは、典型的には元のチャンネルから1つ以上のダウンミックスチャンネルを取り出し、その上、チャンネル間レベル差、チャンネル間位相差、チャンネル間時間差などのような空間キューに関連するパラメトリックデータを取り出す。1つ以上のダウンミックスチャンネルは、元の入力チャンネルの近似バージョンである出力チャンネルを最終的に得るために、空間キューを示すパラメトリックサイド情報と共に、ダウンミックスチャンネル及び関連付けられたパラメトリックデータを復号化する空間オーディオデコーダに送信される。出力セットアップの中のチャンネルの配置は典型的には固定され、例えば5.1フォーマット、7.1フォーマットなどである。
このようなチャンネルベースのオーディオフォーマットは、各チャンネルが所定の位置に特定のスピーカーに関係するマルチチャンネルオーディオコンテンツを記憶又は送信するため広く使用されている。このようなフォーマットの忠実な再生は、スピーカーがオーディオ信号の生成中に使用されたスピーカーと同じ位置に設置されているというスピーカーセットアップを要件とする。スピーカーの台数を増やすことは、正確没入型3Dオーディオシーンの再生を改善するが、この要件を実現することは、特に、居間のような家庭内環境ではより一層困難になる。
特定のスピーカーセットアップを有する必要性は、スピーカー信号が再生セットアップのために明確にされるオブジェクトベースのアプローチによって克服することができる。
例えば、空間オーディオオブジェクト符号化ツールは、当該技術分野において周知であり、MPEG SAOC規格(SAOC=空間オーディオオブジェクト符号化:spatial audio object coding)において標準化されている。元のチャンネルから始まる空間オーディオ符号化に対比して、空間オーディオオブジェクト符号化は、特定のレンダリング再生セットアップのために自動的に特化されることがないオーディオオブジェクトから始まる。それどころか、再生シーン内のオーディオオブジェクトの配置は自由自在であり、特定のレンダリング情報(rendering information)を空間オーディオオブジェクト符号化デコーダに入力することによりユーザによって決定することができる。それに替えて又はそれに加えて、レンダリング情報、すなわち、特定のオーディオオブジェクトが再生セットアップ内のどの位置に典型的に経時的に置かれるべきであるかという情報は、付加サイド情報又はメタデータとして送信することができる。特定のデータ圧縮を得るために、複数のオーディオオブジェクトがSAOCエンコーダによって符号化される。SAOCエンコーダは、入力オブジェクトから、特定のダウンミックス情報に従ってオブジェクトをダウンミックスすることにより1つ以上のトランスポートチャンネルを算出するものである。さらに、SAOCエンコーダは、オブジェクトレベル差(OLD:object level differences)、オブジェクトコヒーレンス値などのようなオブジェクト間キューを表現するパラメトリックサイド情報を算出する。オブジェクト間パラメトリックデータが、パラメータ時間/周波数タイルに対して、すなわち、例えば、1024又は2048個のサンプルを含むオーディオ信号の特定のフレームに対して算出されるので、28、20、14又は10個などの処理帯域が考慮され、その結果、最終的に、パラメトリックデータが各フレーム及び各処理帯域に対して存在する。一例として、オーディオ作品が20フレームを有し、かつ、各フレームが28個の処理帯域に細分されるとき、パラメータ時間/周波数タイルの数は560個である。
オブジェクトベースのアプローチでは、音場は離散的なオーディオオブジェクトによって記述される。これは、特に、3D空間内の各音源の時間的に変化する位置を記述するオブジェクトメタデータを要件とする。
従来技術における第1のメタデータ符号化概念は、空間サウンド記述交換フォーマット(SpatDIF:spatial sound description interchange format)であり、今もなお開発中のオーディオシーン記述フォーマットである[M1]。これは、オブジェクトベースのサウンドシーンのための交換フォーマットとして設計されているが、オブジェクト軌道のための圧縮方法を提供しない。SpatDIFは、オブジェクトメタデータを構造化するためにテキストベースのオープンサウンドコントロール(OSC:Open Sound Control)フォーマットを使用する[M2]。しかしながら、単純なテキストベースの表現は、オブジェクト軌道の圧縮伝送のための選択肢ではない。
従来技術における別のメタデータ概念は、オーディオシーン記述フォーマット(ASDF:Audio Scene Description Format)[M3]、すなわち、同じ欠点があるテキストベースの解決策である。そのデータは、拡張マークアップ言語(XML:Extensible Markup Language)[M4]、[M5]の部分集合である同期マルチメディア統合言語(SMIL:Synchronized Multimedia Integration Language)の拡張によって構造化される。
従来技術におけるさらなるメタデータ概念は、オーディオ・バイナリ・フォーマット・フォー・シーン(AudioBIFS:audio binary format for scenes)、すなわち、MPEG−4仕様[M6]、[M7]の一部であるバイナリフォーマットである。これは、オーディオ−ビジュアル3Dシーン及び相互作用仮想現実アプリケーション[M8]の記述のために開発されたXMLベースの仮想現実モデリング言語(VRML:Virtual Reality Modeling Language)に密接に関係している。複雑なAudioBIFS仕様は、オブジェクト移動の経路を特定するためにシーングラフを使用する。AudioBIFSの主な欠点は、制限付きシステム遅延及びデータストリームへのランダムアクセスが要件であるリアルタイム動作のためには設計されていないということである。さらに、オブジェクト位置の符号化は、聴取者の制限付き定位性能を利用しない。オーディオ−ビジュアルシーン内の固定したリスナ位置に対しては、オブジェクトデータは非常に少ないビット数で量子化することができる[M9]。それ故に、AudioBIFSにおいて適用されるオブジェクトメタデータの符号化は、データ圧縮に関して効率的ではない。
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, "MPEG audio technologies-Part2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[VBAP] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning" ; J. Audio Eng. Soc., Level 45, Issue 6, pp. 456-466, June 1997.
[M1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.
[M2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.
[M3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.
[M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.
[M5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.
[M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.
[M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004.
[M8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
[M9] Sporer, T. (2012), "Codierung raumlicher Audisignalemit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.

本発明の目的は、オーディオコンテンツをダウンミックスする改良された概念を提供することである。
本発明の目的は、請求項1に記載の装置、請求項9に記載の装置、請求項12に記載のシステム、請求項13に記載の方法、請求項14に記載の方法、及び請求項15に記載のコンピュータプログラムによって解決される。
実施形態によれば、効率的なトランスポーテーションが実現され、3Dオーディオコンテンツのためのダウンミックスを復号化する手段が提供される。
1つ以上のオーディオ出力チャンネルを生成する装置が提供される。この装置は、出力チャンネルミキシング情報を算出するパラメータプロセッサと、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサとを備える。ダウンミックスプロセッサは1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されており、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされている。オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則に依存する。第1のミキシング規則は、複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示す。さらに、第2のミキシング規則は、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。パラメータプロセッサは第2のミキシング規則に関する情報を受信するように構成されており、第2のミキシング規則に関する情報は1つ以上のオーディオトランスポートチャンネルが得られるように複数のプリミックスされた信号を混合する方法を示す。さらに、パラメータプロセッサは、2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するように構成されている。ダウンミックスプロセッサは出力チャンネルミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
さらに、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置が提供される。この装置は、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくなるように、2つ以上のオーディオオブジェクト信号から1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するオブジェクトミキサと、オーディオトランスポート信号を出力する出力インターフェースとを備える。オブジェクトミキサは、第1のミキシング規則に依存し、かつ、第2のミキシング規則に依存して、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを生成するように構成されている。第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示し、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。第1のミキシング規則は2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存し、かつ、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存し、そして、第2のミキシング規則はプリミックス済みチャンネル数に依存する。出力インターフェースは、第2のミキシング規則に関する情報を出力するように構成されている。
さらに、システムが提供される。このシステムは、前述のとおりオーディオトランスポート信号を生成する装置と、前述のとおり1つ以上のオーディオ出力チャンネルを生成する装置とを備える。1つ以上のオーディオ出力チャンネルを生成する装置は、オーディオトランスポート信号を生成する装置からオーティオトランスポート信号と、第2のミキシング規則に関する情報とを受信するように構成されている。さらに、1つ以上のオーディオ出力チャンネルを生成する装置は、第2のミキシング規則に関する情報に依存して、オーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
さらに、1つ以上のオーディオ出力チャンネルを生成する方法が提供される。この方法は以下のステップを含む。
− 1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するステップ。2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされており、オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則に依存しており、第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示しており、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示している。
− 第2のミキシング規則に関する情報を受信するステップ。第2のミキシング規則に関する情報は1つ以上のオーディオトランスポートチャンネルが得られるように複数のプリミックスされた信号を混合する方法を示す。
− 2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するステップ。及び
− 出力チャンネルミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するステップ。
さらに、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する方法が提供される。この方法は以下のステップを含む。
− 2つ以上のオーディオオブジェクト信号から1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するステップ。
− オーディオトランスポート信号を出力するステップ。及び
− 第2のミキシング規則に関する情報を出力するステップ。
2つ以上のオーディオオブジェクト信号から1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するステップは、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされているように実施される。オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを生成するステップは、第1のミキシング規則に依存して、及び第2のミキシング規則に依存して実施され、第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示し、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。第1のミキシング規則は、2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存し、及び複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存する。第2のミキシング規則はプリミックス済みチャンネル数に依存する。
さらに、コンピュータ又は信号プロセッサ上で実行されたときに上述の方法を実施するコンピュータプログラムが提供される。
一実施形態による1つ以上のオーディオ出力チャンネルを生成する装置を示す図である。 一実施形態による1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置を示す図である。 一実施形態によるシステムを示す図である。 3Dオーディオエンコーダの第1の実施形態を示す図である。 3Dオーディオデコーダの第1の実施形態を示す図である。 3Dオーディオエンコーダの第2の実施形態を示す図である。 3Dオーディオデコーダの第2の実施形態を示す図である。 3Dオーディオエンコーダの第3の実施形態を示す図である。 3Dオーディオデコーダの第3の実施形態を示す図である。 方位角、仰角及び原点からの距離によって表現された原点からの3次元空間内のオーディオオブジェクトの位置を示す図である。 オーディオチャンネルジェネレータによって想定されたオーディオオブジェクトの位置及びスピーカーセットアップを示す図である。
以下、本発明の実施形態を図面を参照してより詳細に説明する。
本発明の好ましい実施形態を詳細に説明する前に、新しい3Dオーディオコーデックシステムについて説明する。
従来技術においては、低ビットレートで許容可能なオーディオ品質が得られるようにチャンネル符号化とオブジェクト符号化とを組み合わせる自由自在な技術は存在しない。
この制限は新しい3Dオーディオコーデックシステムによって克服される。
好ましい実施形態を詳細に説明する前に、新しい3Dオーディオコーデックシステムについて説明する。
図4は、本発明の実施形態による3Dオーディオエンコーダを示す。この3Dオーディオエンコーダは、オーディオ出力データ501を得るためにオーディオ入力データ101を符号化するために設けられている。この3Dオーディオエンコーダは、CHによって示された複数のオーディオチャンネルと、OBJによって示された複数のオーディオオブジェクトとを受信する入力インターフェースを備える。さらに、図4に示されたように、入力インターフェース1100は、複数のオーディオオブジェクトOBJのうちの1つ以上に関連しているメタデータをさらに受信する。さらに、この3Dオーディオエンコーダは、複数の予め混合されたチャンネルを得るために複数のオブジェクト及び複数のチャンネルを混合するミキサ200を備え、予め混合された各チャンネルは、チャンネルのオーディオデータ及び少なくとも1つのオブジェクトのオーディオデータを含む。
さらに、この3Dオーディオエンコーダは、コアエンコーダ入力データをコア符号化するコアエンコーダ300と、複数のオーディオオブジェクトのうちの1つ以上に関連したメタデータを圧縮するメタデータ圧縮器400とを備える。
さらに、この3Dオーディオエンコーダは、いくつかの動作モードのうちの1つでミキサ、コアエンコーダ及び/又は出力インターフェース500を制御するモードコントローラ600を備えることができる。第1のモードでは、コアエンコーダは、ミキサによる相互作用なしで、すなわち、ミキサ200によって混合することなく、入力インターフェース1100によって受信された複数のオーディオチャンネル及び複数のオーディオオブジェクトを符号化するように構成される。しかしながら、第2のモードでは、ミキサ200がアクティブ状態となっており、コアエンコーダは、複数の混合されたチャンネル、すなわち、ブロック200によって生成された出力を符号化する。後者の場合、もはやオブジェクトデータを符号化しないことが好ましい。その代わりに、オーディオオブジェクトの位置を示すメタデータは、そのメタデータによって示されるとおりにチャンネルでオブジェクトをレンダリング(rendering)するように、ミキサ200によってすでに使用されている。換言すれば、ミキサ200は、オーディオオブジェクトをプリレンダリング(pre-rendering)するために複数のオーディオオブジェクトに関連したメタデータを使用し、その後、プリレンダリングされたオーディオオブジェクトはチャンネルと混合されて、ミキサの出力で混合されたチャンネルが得られる。本実施形態では、オブジェクトは、必ずしも送信されなくてもよく、このことは、ブロック400によって出力されたままの圧縮されたメタデータにも適用される。しかしながら、インターフェース1100に入力された全てのオブジェクトが混合されるのではなく、ある量のオブジェクトだけが混合される場合、その後、残りの混合されていないオブジェクト及び関連付けられたメタデータだけがそれにもかかわらずコアエンコーダ300又はメタデータ圧縮器400にそれぞれ送信される。
図6は3Dオーディオエンコーダのさらなる実施形態を示し、SAOCエンコーダ800をさらに備える。SAOCエンコーダ800は、空間オーディオオブジェクトエンコーダ入力データから1つ以上のトランスポートチャンネル及びパラメトリックデータを生成するために設けられている。図6に示されるように、空間オーディオオブジェクトエンコーダ入力データは、プリレンダラ(pre-renderer)/ミキサによって処理されていないオブジェクトである。あるいは、プリレンダラ/ミキサが個別のチャンネル/オブジェクトがアクティブ状態であるモード1の場合のように迂回されていると仮定すると、入力インターフェース1100に入力された全てのオブジェクトは、SAOCエンコーダ800によって符号化される。
さらに、図6に示されるように、コアエンコーダ300は、好ましくは、USACエンコーダとして、すなわち、MPEG−USAC規格(USAC=音声音響統合符号化:Unified Speech and Audio Coding)において規定され、標準化されたエンコーダとして実現されている。図6に示された全3Dオーディオエンコーダの出力はMPEG 4データストリーム、MPEG Hデータストリーム又は3Dオーディオデータストリームであり、個別のデータタイプのためのコンテナのような構造体(container-like structures)を有する。さらに、メタデータは「OAM」データとして示され、図4におけるメタデータ圧縮器400はUSACエンコーダ300に入力される圧縮されたOAMデータを得るためのOAMエンコーダ400に対応する。USACエンコーダ300は、図6から分かるように、符号化済みチャンネル/オブジェクトデータを有するだけでなく、圧縮されたOAMデータも有するMP4出力データストリームを得るために出力インターフェースをさらに備える。
図8はこの3Dオーディオエンコーダのさらなる実施形態を示しており、図6と対比して、SAOCエンコーダは、このモードではアクティブ状態でないプリレンダラ(pre-renderer)/ミキサ200に供給されたチャンネルをSAOC符号化アルゴリズムを用いて符号化するように、又はそれに替えて、プリレンダリングされたチャンネルとオブジェクトとをSAOC符号化するように構成することができる。このようにして、図8では、SAOCエンコーダ800は、3つの異なった種類の入力データ、すなわち、プリレンダリングされたオブジェクトを含まないチャンネル、チャンネル及びプリレンダリングされたオブジェクト、又はオブジェクト単独に作用することができる。さらに、SAOCエンコーダ800が、その処理のために、元のOAMデータではなく、デコーダ側と同じデータ、すなわち、不可逆的(lossy)圧縮によって得られたデータを使用するように、図8における付加的なOAMデコーダ420を設けることが好ましい。
図8の3Dオーディオエンコーダは、いくつかの個別のモードで動作することができる。
図4との関連で説明した第1のモード及び第2のモードに加えて、図8の3Dオーディオエンコーダは、プリレンダラ/ミキサ200がアクティブ状態ではなかったときに、コアエンコーダが個別のオブジェクトから1つ以上のトランスポートチャンネルを生成する第3のモードでさらに動作することができる。あるいは、又はさらに、この第3のモードでは、SAOCエンコーダ800は、1つ以上の代替的もしくは付加的なトランスポートチャンネルを元のチャンネルから生成することができる、すなわち図4のミキサ200に対応するプリレンダラ/ミキサ200がアクティブ状態ではなかったときに再び生成することができる。
最後に、SAOCエンコーダ800は、3Dオーディオエンコーダが第4のモードで構成されているとき、チャンネルとプリレンダラ/ミキサによって生成されたプリレンダリングされたオブジェクトを符号化することができる。このようにして、第4のモードでは、チャンネルとオブジェクトが、個別のSAOCトランスポートチャンネルと図3及び図5において「SAOC−SI」として示されたような関連付けられたサイド情報に完全に変換され、さらに、この第4のモードでは圧縮されたメタデータを送信する必要がないという事実によって、最低ビットレートアプリケーションが優れた品質を示す。
図5は、本発明の実施形態による3Dオーディオデコーダを示す。この3Dオーディオデコーダは、入力として、符号化済みオーディオデータ、すなわち、図4のデータ501を受信する。
この3Dオーディオデコーダは、メタデータ展開器1400と、コアデコーダ1300と、オブジェクトプロセッサ1200と、モードコントローラ1600と、ポストプロセッサ1700とを備える。
具体的には、この3Dオーディオデコーダは符号化済みオーディオデータを復号化するために設けられ、入力インターフェースは符号化済みオーディオデータを受信するために設けられ、符号化済みオーディオデータは、複数の符号化済みチャンネルと、複数の符号化済みオブジェクトと、特定のモードにおける複数のオブジェクトに関連する圧縮されたメタデータとを含む。
さらに、コアデコーダ1300は複数の符号化済みチャンネル及び複数の符号化済みオブジェクトを復号化するために設けられ、さらに、メタデータ展開器は、圧縮されたメタデータを展開するために設けられている。
さらに、オブジェクトプロセッサ1200は、オブジェクトデータ及び復号化済みチャンネルを含む所定の数の出力チャンネルを得るために、展開されたメタデータを使用してコアデコーダ1300によって生成されたとおりの複数の復号化済みオブジェクトを処理するために設けられている。符号1205で示されたとおりのこれらの出力チャンネルは、その後、ポストプロセッサ1700に入力される。ポストプロセッサ1700は、出力チャンネル1205の数を、バイノーラル出力フォーマット又は5.1、7.1などの出力フォーマットのようなスピーカー出力フォーマットとすることのできる特定の出力フォーマットに変換するために設けられている。
好ましくは、この3Dオーディオデコーダは、モード指示を検出するために符号化済みデータを解析するために設けられたモードコントローラ1600を備える。したがって、モードコントローラ1600は、図5において入力インターフェース1100に接続されている。しかしながら、あるいは、モードコントローラは必ずしもそこになくてもよい。その代わり、この汎用性のあるオーディオデコーダはユーザ入力又はその他のコントロールのようなどんな種類の制御データによってもプリセットすることができる。図5に示され、かつ、好ましくはモードコントローラ1600によって制御されるこの3Dオーディオデコーダは、オブジェクトプロセッサを迂回するように、かつ、複数の復号化済みチャンネルをポストプロセッサ1700に送り込むように構成されている。これは、モード2における動作、すなわち、プリレンダリングされたチャンネルだけが受信される、すなわち、モード2が図4の3Dオーディオエンコーダにおいて適用されたときの動作である。あるいは、モード1が3Dオーディオエンコーダにおいて適用されたとき、すなわち、3Dオーディオエンコーダが個別のチャンネル/オブジェクト符号化を実行したとき、オブジェクトプロセッサ1200は迂回されないが、複数の復号化済みチャンネル及び複数の復号化済みオブジェクトが、メタデータ展開器1400によって生成された展開されたメタデータと共にオブジェクトプロセッサ1200に送り込まれる。
好ましくは、モード1又はモード2が適用されるべきか否かの指示は、符号化済みオーディオデータの中に含まれ、その後、モードコントローラ1600は、モード指示を検出するために符号化済みデータを解析する。モード1は、モード指示が、符号化済みオーディオデータが符号化済みチャンネル及び符号化済みオブジェクトを含むことを示すときに使用され、モード2は、モード指示が、符号化済みオーディオデータがオーディオオブジェクトを含んでいないこと、すなわち、図4の3Dオーディオエンコーダのモード2によって得られたプリレンダリングされたチャンネルだけを含むことを示すときに適用される。
図7は図5の3Dオーディオデコーダと比べて好ましい実施形態を示し、図7の実施形態は図6の3Dオーディオエンコーダに対応する。図5の3Dオーディオデコーダ実施に加えて、図7における3DオーディオデコーダはSAOCデコーダ1800を備える。さらに、図5のオブジェクトプロセッサ1200は、図7では別個のオブジェクトレンダラ1210とミキサ1220として実施されるが、モードに依存して、オブジェクトレンダラ1210の機能はSAOCデコーダ1800によって実施することができる。
さらに、ポストプロセッサ1700は、バイノーラルレンダラ1710又はフォーマットコンバータ1720として実施することができる。あるいは、図5のデータ1205の直接出力は、1730によって示されるように実施することもできる。その結果、フレキシビリティを実現するために22.2又は32のような最高数のチャンネルに関してデコーダにおいて処理を実行し、その後、より小規模のフォーマットが必要とされる場合に後処理することが好ましい。しかしながら、5.1フォーマットのようなよりチャンネル数の少ない異なったフォーマットだけが必要とされることが最初から明らかになるとき、好ましくは、ショートカット1727によって図9によって示されるように、不必要なアップミキシング動作及び後に続くダウンミキシング動作を回避するためにSAOCデコーダ及び/又はUSACデコーダの特定の制御を適用することができる。
本発明の好ましい実施形態では、オブジェクトプロセッサ1200はSAOCデコーダ1800を備え、SAOCデコーダは、コアデコーダによって出力された1つ以上のトランスポートチャンネル及び関連付けられたパラメトリックデータを、展開されたメタデータを使用して復号化し、複数のレンダリングされたオーディオオブジェクトを得るために設けられている。このため、OAM出力はボックス1800に接続されている。
さらに、オブジェクトプロセッサ1200は、オブジェクトレンダラ1210によって示されるように、SAOCトランスポートチャンネルにおいて符号化されていないが、典型的に単一のチャンネル化済み要素において個別に符号化され、コアデコーダによって出力された復号化済みオブジェクトをレンダリングするように構成されている。さらに、デコーダは、ミキサの出力をスピーカーへ出力するため出力1730に対応する出力インターフェースを備える。
さらなる実施形態では、オブジェクトプロセッサ1200は、1つ以上のトランスポートチャンネルと、符号化済みオーディオ信号又は符号化済みオーディオチャンネルを表現する関連付けられたパラメトリックサイド情報とを復号化する空間オーディオオブジェクト符号化デコーダ1800を備え、この空間オーディオオブジェクト符号化デコーダは、関連付けられたパラメトリック情報及び展開されたメタデータを、例えば、SAOCの旧バージョンに規定されているように、出力フォーマットを直接レンダリングするため使用可能であるトランスコードされたパラメトリックサイド情報にトランスコードするように構成されている。ポストプロセッサ1700は、復号化済みトランスポートチャンネルとトランスコードされたパラメトリックサイド情報を使用して出力フォーマットのオーディオチャンネルを算出するため構成されている。ポストプロセッサによって実行される処理は、MPEGサラウンド処理に類似するものとすることができ、又はBCC処理などのような他の処理とすることができる。
さらなる実施形態では、オブジェクトプロセッサ1200は、(コアデコーダによって)復号化されたトランスポートチャンネルとパラメトリックサイド情報を使用して出力フォーマットのためにチャンネル信号を直接的にアップミックスし、レンダリングするように構成された空間オーディオオブジェクト符号化デコーダ1800を備える。
さらに、かつ、重要なことには、図5のオブジェクトプロセッサ1200はミキサ1220を付加的に備え、ミキサ1220は、チャンネルと混合されたプリレンダリングされたオブジェクトが存在するとき、すなわち図4のミキサがアクティブ状態であったとき、USACデコーダ1300によって出力されたデータを入力として直接に受信する。さらに、ミキサ1220は、SAOC復号化なしでオブジェクトレンダリングを実行するオブジェクトレンダラからデータを受信する。さらに、ミキサは、SAOCデコーダ出力データ、すなわち、SAOCレンダリングされたオブジェクトを受信する。
ミキサ1220は、出力インターフェース1730、バイノーラルレンダラ1710及びフォーマットコンバータ1720に接続されている。バイノーラルレンダラ1710は、頭部伝達関数又はバイノーラル室内インパルス応答(BRIR)を使用して出力チャンネルを2つのバイノーラルチャンネルにレンダリングするために設けられている。フォーマットコンバータ1720は、出力チャンネルをミキサの出力チャンネル1205よりより少ない数のチャンネルを有する出力フォーマットに変換するために設けられ、フォーマットコンバータ1720は5.1スピーカーなどのような再生レイアウトに関する情報を必要とする。
図9の3Dオーディオデコーダは、SAOCデコーダがレンダリングされたオブジェクトを復号できるだけでなく、レンダリングされたチャンネルを生成することができる点で図7の3Dオーディオデコーダとは異なり、これは、図8の3Dオーディオエンコーダが使用され、チャンネル/プリレンダリングされたオブジェクトとSAOCエンコーダ800の入力インターフェースとの間の接続900がアクティブ状態であるときの事例である。
さらに、ベクトルベース振幅パニング(VBAP:vector base amplitude panning)段1810が設けられており、ベクトルベース振幅パニング段1810は、SAOCデコーダから再生レイアウトに関する情報を受信し、レンダリング行列をSAOCデコーダに出力し、その結果、SAOCデコーダが、最終的に、≡チャンネルフォーマット1205、すなわち、32台のスピーカーにおいて、ミキサのさらなる動作なしでレンダリングされたチャンネルを提供することができるようになる。
VBAPブロックは、好ましくは、レンダリング行列を導き出すために復号化済みOAMデータを受信する。より一般的には、好ましくは、再生レイアウトの幾何学的情報だけでなく、入力信号が再生レイアウト上で再現されるべき位置の幾何学的情報を必要とする。この幾何学的入力データは、オブジェクトのためのOAMデータ、又はSAOCを使用して送信されたチャンネルのためのチャンネル位置情報とすることができる。
しかしながら、特定の出力インターフェースだけが必要とされる場合、VBAP状態1810は、例えば、5.1出力のために必要とされるレンダリング行列を予め提供することができる。SAOCデコーダ1800は、その後、SAOCトランスポートチャンネル、関連付けられたパラメトリックデータ及び展開されたメタデータから、ミキサ1220の相互作用なしに、必要とされる出力フォーマットへの直接レンダリングを実行する。しかしながら、モード間で特定の混合が適用されるとき、すなわち、いくつかのチャンネルがSAOC符号化されているが全てのチャンネルがSAOC符号化されているとは限らない場合、もしくは、いくつかのオブジェクトがSAOC符号化されているが全てのオブジェクトがSAOC符号化されているとは限らない場合、又は、チャンネルを含むある一定量のプリレンダリングされたオブジェクトだけがSAOC符号化され残りのチャンネルがSAOC処理されていないとき、ミキサは、個別の入力部分から、すなわち、コアデコーダ1300から、オブジェクトレンダラ1210から、及びSAOCデコーダ1800からのデータをまとめる。
3Dオーディオでは、方位角、仰角及び原点からの距離が、オーディオオブジェクトの位置を定義するために使用される。さらに、オーディオオブジェクトの利得が送信されることがある。
方位角、仰角及び原点からの距離は、原点からの3D空間内でのオーディオオブジェクトの位置を明確に定義する。これは図10を参照して示す。
図10は、方位角、仰角及び原点からの距離によって表現された原点400からの3次元(3D)空間内のオーディオオブジェクトの位置410を示す。
方位角は、例えば、xy平面(x軸とy軸とによって定義された平面)での角度を指定する。仰角は、例えば、xz平面(x軸とz軸とによって定義された平面)での角度を定義する。方位角と仰角を指定することにより、原点400とオーディオオブジェクトの位置410を通る直線415を定義することができる。さらに原点からの距離を指定することにより、オーディオオブジェクトの正確な位置410を定義することができる。
一実施形態では、方位角は−180°<方位角≦180°の範囲に対して定義し、仰角は−90°<仰角≦90°の範囲に対し定義し、原点からの距離は、例えば、メートル[m]単位(0m以上)で定義することができる。方位角と仰角によって記述された球は2つの半球に分割することができる。すなわち、左半球(0°<方位角≦180°)及び右半球(−180°<方位角≦0°)、又は上半球(0°<仰角≦90°)及び下半球(−90°<仰角≦0°)である。
例えば、xyz座標系におけるオーディオオブジェクト位置の全x値が零以上であると想定することができる別の実施形態では、方位角は−90°≦方位角≦90°の範囲に対し定義することができ、仰角は−90°<仰角≦90°の範囲に対し定義することができ、原点からの距離は、例えば、メートル[m]単位で定義することができる。
ダウンミックスプロセッサ120は、例えば、再構成済みのメタデータ情報値に依存する1つ以上のオーディオオブジェクト信号に依存して1つ以上のオーディオチャンネルを生成するように構成することができる。再構成済みのメタデータ情報値は、例えば、オーディオオブジェクトの位置を示すことができる。
一実施形態では、メタデータ情報値は、例えば、−180°<方位角≦180°の範囲に対して定義された方位角と、−90°<仰角≦90°の範囲に対して定義された仰角と、例えば、メートル[m]単位(0m以上)で定義することができる原点からの距離とを示すことができる。
図11は、オーディオチャンネルジェネレータによって想定されたオーディオオブジェクトの位置とスピーカーセットアップを示す。xyz座標系の原点500が示されている。さらに、第1のオーディオオブジェクトの位置510と第2のオーディオオブジェクトの位置520が示されている。さらに、図11は、オーディオチャンネルジェネレータ120が4台のスピーカーのための4つのオーディオチャンネルを生成するシナリオを示している。オーディオチャンネルジェネレータ120は、4台のスピーカー511、512、513及び514が図11に表された位置にあると想定する。
図11では、第1のオーディオオブジェクトはスピーカー511と512の想定位置の近くにある位置510にあり、スピーカー513と514から遠く離れている。その結果、オーディオチャンネルジェネレータ120は、第1のオーディオオブジェクト510がスピーカー513と514ではなくスピーカー511と512によって再生されるように4つのオーディオチャンネルを生成することができる。
他の実施形態では、オーディオチャンネルジェネレータ120は、第1のオーディオオブジェクト510がスピーカー511と512による高レベルで、かつ、スピーカー513と514による低レベルで再生されるように4つのオーディオチャンネルを生成することができる。
さらに、第2のオーディオオブジェクトはスピーカー513と514の想定位置の近くにある位置520にあり、スピーカー511と512から遠く離れている。その結果、オーディオチャンネルジェネレータ120は、第2のオーディオオブジェクト520がスピーカー511と512ではなくスピーカー513と514によって再生されるように4つのオーディオチャンネルを生成することができる。
他の実施形態では、ダウンミックスプロセッサ120は、第2のオーディオオブジェクト520がスピーカー513と514による高レベルで、かつ、スピーカー511と512による低レベルで再生されるように4つのオーディオチャンネルを生成することができる。
代替的な実施形態では、2つのメタデータ情報値だけがオーディオオブジェクトの位置を指定するために使用される。例えば全オーディオオブジェクトが単一の平面内に位置していると想定される場合は、例えば方位角と原点からの距離だけを指定することができる。
さらに他の実施形態では、各オーディオオブジェクトに対して、メタデータ信号の単一のメタデータ情報値だけが符号化され、位置情報として送信される。例えば、方位角だけをオーディオオブジェクトに対する位置情報として指定することができる(例えば、全オーディオオブジェクトが中心点から同一距離を有する同じ平面内に位置していると想定することができ、それ故に、原点からの同一距離を有すると想定することができる場合である。)。方位角情報は、例えば、オーディオオブジェクトが左スピーカーの近くにあり、右スピーカーから遠く離れていることを決定するために十分であることがある。このような状況では、オーディオチャンネルジェネレータ120は、例えば、オーディオオブジェクトが右スピーカーではなく左スピーカーによって再生されるように1つ以上のオーディオチャンネルを生成することができる。
各オーディオ出力チャンネル内でのオーディオオブジェクト信号の重みを決定するために、例えばベクトルベース振幅パニング(Vector Base Amplitude Panning)を利用することができる(例えば、[VBAP]を参照)。VBAPに関して、オーディオオブジェクト信号が仮想音源に割り当てられることが想定され、さらに、オーディオ出力チャンネルがスピーカーのチャンネルであることが想定される。
実施形態では、例えば、さらなるメタデータ信号のさらなるメタデータ情報値は、各オーディオオブジェクトに対するボリューム、例えば、(例えば、デシベル[dB]単位で表現された)利得を指定することができる。
例えば、図11では、第1の利得値は、位置510にある第1のオーディオオブジェクトに対するさらなるメタデータ情報値によって指定することができ、位置520にある第2のオーディオオブジェクトに対する別のさらなるメタデータ情報によって指定されている第2の利得値より高い。このような状況では、スピーカー511と512は、スピーカー513と514が第2のオーディオオブジェクトを再生する際に用いるレベルより高いレベルで第1のオーディオオブジェクトを再生することができる。
SAOC技術によれば、SAOCエンコーダは、複数のオーディオオブジェクト信号Xを受信し、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号Yを得るためにダウンミックス行列Dを用いることによりこれらをダウンミックスする。式
Y=DX
を利用することができる。SAOCエンコーダは、オーディオトランスポート信号Yとダウンミックス行列Dに関する情報(例えば、ダウンミックス行列Dの係数)をSAOCデコーダに送信する。さらに、SAOCエンコーダは、共分散行列Eに関する情報(例えば、共分散行列Eの係数)をSAOCデコーダに送信する。
デコーダ側で、オーディオオブジェクト信号Xは、以下の式を利用することにより再構成済みのオーディオオブジェクト

を得るために再構成することができる。
式中、Gはパラメトリック音源推定行列であり、G=EDH(DEDH-1である。 次に、1つ以上のオーディオ出力チャンネルZは、以下の式に従って再構成済みのオーディオオブジェクト

にレンダリング行列Rを適用することにより生成することができる。
しかしながら、オーディオトランスポート信号から1つ以上のオーディオ出力チャンネルZを生成することは、以下の式に従って行列Uを利用することにより単一のステップにおいてさらに実施することができる。
Z=UY、但し、U=RG
レンダリング行列Rの各行は、生成されるべきオーディオ出力チャンネルのうちの1つに関連付けられる。レンダリング行列Rの行の1つの行の内部の各係数は、レンダリング行列Rのその行に関係するオーディオ出力チャンネル内の再構成済みのオーディオオブジェクト信号のうちの1つの重みを決定する。
例えば、レンダリング行列Rは、メタデータ情報内で、SAOCデコーダに送信されたオーディオオブジェクト信号の1つずつに対する位置情報に依存することができる。例えば、想定又は現実のスピーカー位置の近くにある位置を有するオーディオオブジェクト信号は、例えば、そのスピーカーのオーディオ出力チャンネル内で、そのスピーカーから遠く離れた位置にあるオーディオオブジェクト信号の重みより大きな重みをもつことができる(図5を参照)。各オーディオ出力チャンネル内でオーディオオブジェクト信号の重みを決定するために、例えば、ベクトルベース振幅パニングを利用することができる(例えば、[VBAP]を参照)。VBAPに関して、オーディオオブジェクト信号が仮想音源に割り当てられることが想定され、さらに、オーディオ出力チャンネルがスピーカーのチャンネルであることが想定される。
図6及び図8にはSAOCエンコーダ800が描かれている。SAOCエンコーダ800は、複数の入力オブジェクト/チャンネルをより少ない数のトランスポートチャンネルにダウンミックスし、3D−オーディオビットストリームに埋め込まれる必要な補助情報を抽出することによって、入力オブジェクト/チャンネルをパラメータ的に符号化するために使用される。
より少ない数のトランスポートチャンネルにダウンミックスすることは、(例えば、ダウンミックス行列を利用することによって)各入力信号及びダウンミックスチャンネルに対するダウンミックス係数を使用して行われる。
オーディオオブジェクト信号を処理する最先端技術は、MPEG SAOC−システムである。このようなシステムの1つの主要な特性は、中間ダウンミックス信号(又は図6及び図8によるSAOCトランスポートチャンネル)がSAOC情報を復号化できないレガシー機器で聴取できることである。このことは、通常ではコンテンツクリエータによって供給される、使用されるべきダウンミックス係数に制約を課す。
3Dオーディオコーデックシステムは、多数のオブジェクト又はチャンネルを符号化する効率を高めるためにSAOC技術を使用する目的を有する。多数のオブジェクトを少数のトランスポートチャンネルにダウンミックスすることはビットレートを節約する。
図2は、1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する一実施形態による装置を示す。
この装置は、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、かつ、1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくなるように、2つ以上のオーディオオブジェクト信号から1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成するオブジェクトミキサ210を備える。
さらに、この装置は、オーディオトランスポート信号を出力する出力インターフェース220を備える。
オブジェクトミキサ210は、第1のミキシング規則に依存して、及び第2のミキシング規則に依存して、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを生成するように構成されており、第1のミキシング規則は複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示し、第2のミキシング規則はオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示している。第1のミキシング規則は2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存し、かつ、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存し、そして、第2のミキシング規則はプリミックス済みチャンネル数に依存する。出力インターフェース220は第2のミキシング規則に関する情報を出力するように構成されている。
図1は1つ以上のオーディオ出力チャンネルを生成する一実施形態による装置を示す。
この装置は、出力チャンネルミキシング情報を算出するパラメータプロセッサ110と、1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ120とを備える。
ダウンミックスプロセッサ120は1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成されており、2つ以上のオーディオオブジェクト信号がオーディオトランスポート信号内で混合され、かつ1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされている。オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則に依存する。第1のミキシング規則は、複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示す。さらに、第2のミキシング規則は、オーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。
パラメータプロセッサ110は第2のミキシング規則に関する情報を受信するように構成されており、第2のミキシング規則に関する情報は1つ以上のオーディオトランスポートチャンネルが得られるように複数のプリミックスされた信号を混合する方法を示す。パラメータプロセッサ110は、2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するように構成されている。
ダウンミックスプロセッサ120は、出力チャンネルミキシング情報に依存してオーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
一実施形態によれば、この装置は、例えば、オーディオオブジェクト数とプリミックス済みチャンネル数のうちの少なくとも一方を受信するように構成することができる。
別の実施形態では、パラメータプロセッサ110は、例えば、オーディオオブジェクト数に依存して、及びプリミックス済みチャンネル数に依存して、第1のミキシング規則に関する情報が複数のプリミックスされたチャンネルを得るために2つ以上のオーディオオブジェクト信号を混合する方法を示すように、第1のミキシング規則に関する情報を決定するように構成することができる。このような実施形態では、パラメータプロセッサ110は、例えば、第1のミキシング規則に関する情報に依存して、及び第2のミキシング規則に関する情報に依存して出力チャンネルミキシング情報を算出するように構成することができる。
一実施形態によれば、パラメータプロセッサ110は、例えば、オーディオオブジェクト数に依存して、及びプリミックス済みチャンネル数に依存して、第1のミキシング規則に関する情報として第1の行列Pの複数の係数を決定するように構成することができる。第1の行列Pはオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。このような実施形態では、パラメータプロセッサ110は、例えば、第2のミキシング規則に関する情報として、第2の行列Pの複数の係数を受信するように構成することができる。第2の行列Qはオーディオトランスポート信号の1つ以上のオーディオトランスポートチャンネルを得るために複数のプリミックスされたチャンネルを混合する方法を示す。このような実施形態のパラメータプロセッサ110は、例えば、第1の行列Pに依存して、及び第2の行列Qに依存して、出力チャンネルミキシング情報を算出するように構成することができる。
実施形態は、式
Y=DX
に従ってダウンミックス行列Dを利用することによりエンコーダ側でオーディオトランスポート信号Yを得るために2つ以上のオーディオオブジェクト信号Xをダウンミックスするとき、ダウンミックス行列Dは、式
D=QP
に従って2つのより小さい行列P及びQに分割することができる、という発見に基づいている。
ここで、第1の行列Pは、式
pre=PX
に従ってオーディオオブジェクト信号Xから複数のプリミックスされたチャンネルXpreへの混合を実現する。
第2の行列Qは、
Y=QXpre
に従って複数のプリミックスチャンネルXpreからオーディオトランスポート信号Yの1つ以上のオーディオトラスポートチャンネルへの混合を実現する。
実施形態によれば、第2のミキシング規則、例えば、第2のミキシング行列Qの係数に関する情報はデコーダに送信される。
第1のミキシング行列Pの係数はデコーダに送信される必要がない。その代わりに、デコーダは、オーディオオブジェクト信号の数に関する情報とプリミックスされたチャンネルの数に関する情報を受信する。この情報から、デコーダは、第1のミキシング行列Pを再構成する能力がある。例えば、エンコーダ及びデコーダは、第1の数Nobjectsのオーディオオブジェクト信号を第2の数Npreのプリミックスされたチャンネルに混合するとき、同じ方法でミキシング行列Pを決定する。
図3は一実施形態によるシステムを示す。このシステムは、図2を参照して前述したとおりのオーディオトランスポート信号を生成する装置310と、図1を参照して前述のとおりの1つ以上のオーディオ出力チャンネルを生成する装置320とを備える。
1つ以上のオーディオ出力チャンネルを生成する装置320は、オーディオトランスポート信号を生成する装置310からオーティオトランスポート信号と、第2のミキシング規則に関する情報とを受信するように構成されている。さらに、1つ以上のオーディオ出力チャンネルを生成する装置320は、第2のミキシング規則に関する情報に依存して、オーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するように構成されている。
例えば、パラメータプロセッサ110は、例えば、2つ以上のオーディオオブジェクト信号の1つずつに対する位置情報を含むメタデータ情報を受信するように構成することができ、例えば、垂直ベース振幅パニングを利用することにより2つ以上のオーディオオブジェクト信号の1つずつの位置情報に依存して第1のダウンミックス規則に関する情報を決定する。例えば、エンコーダは、2つ以上のオーディオオブジェクト信号の1つずつに対する位置情報にアクセスすることもでき、プリミックスされたチャンネル内のオーディオオブジェクト信号の重みを決定するためにベクトルベース振幅パニングを利用することもでき、これにより、デコーダによって後で行われるのと同じ方法で第1の行列Pの係数を決定する(例えば、エンコーダとデコーダは両方ともに、Npre個のプリミックスされたチャンネルに割り当てられた、想定されるスピーカーの同じ位置決めを想定することができる)。
第2の行列Qの係数を受信することにより、及び第1の行列Pを決定することにより、デコーダはD=QPに従ってダウンミックス行列Dを決定することができる。
一実施形態では、パラメータプロセッサ110は、例えば、共分散情報、例えば共分散行列Eの係数を(例えば、オーディオトランスポート信号を生成する装置から)受信するように構成することができる。共分散情報は2つ以上のオーディオオブジェクト信号の1つずつに対するオブジェクトレベル差を示し、また、場合によっては、オーディオオブジェクト信号のうちの1つとオーディオオブジェクト信号のうちのもう1つとの間の1つ以上のオブジェクト間相関を示す。
このような実施形態では、パラメータプロセッサ110は、オーディオオブジェクト数に依存して、プリミックス済みチャンネル数に依存して、第2のミキシング規則に関する情報に依存して、及び共分散情報に依存して出力チャンネルミキシング情報を算出するように構成することができる。
例えば、共分散行列Eを使用して、オーディオオブジェクト信号Xは、以下の式を利用することにより再構成済みのオーディオオブジェクト

を得るために再構成することができる。
式中、Gはパラメトリック音源推定行列であり、G=EDH(DEDH-1である。 次に、1つ以上のオーディオ出力チャンネルZは、以下の式に従って再構成済みのオーディオオブジェクト

にレンダリング行列Rを適用することにより生成することができる。すなわち、
である。 しかしながら、オーディオトランスポート信号から1つ以上のオーディオ出力チャンネルZを生成することは、以下の式に従って行列Uを利用することにより単一のステップにおいて実行することもできる。
Z=UY、但し、S=UG
このような行列Sは、パラメータプロセッサ110によって決定された出力チャンネルミキシング情報の例である。
例えば、前述のとおり、レンダリング行列Rの各行は、生成されるべきオーディオ出力チャンネルのうちの1つに関連付けることができる。レンダリング行列Rの行のうち1行の中の各係数は、レンダリング行列Rのその行に関係するオーディオ出力チャンネル内の再構成済みのオーディオオブジェクト信号のうち1つの重みを決定する。
一実施形態によれば、パラメータプロセッサ110は、例えば、2つ以上のオーディオオブジェクト信号の1つずつに対する位置情報を含むメタデータ情報を受信するように構成することができ、例えば、2つ以上のオーディオオブジェクト信号の1つずつに対する位置情報に依存してレンダリング情報、例えば、レンダリング行列Rの係数を決定するように構成することができ、また、例えば、オーディオオブジェクト数に依存して、プリミックス済みチャンネル数に依存して、第2のミキシング規則に関する情報に依存して、及びレンダリング情報(例えば、レンダリング行列R)に依存して出力チャンネルミキシング情報(例えば、上記行列S)を算出するように構成することができる。
それ故に、レンダリング行列Rは、例えば、メタデータ情報内でSAOCデコーダに送信されたオーディオオブジェクト信号の1つずつに対する位置情報に依存させることができる。例えば、想定又は現実のスピーカー位置の近くにある位置を有するオーディオオブジェクト信号は、例えば、そのスピーカーのオーディオ出力チャンネル内で、そのスピーカーから遠く離れた位置にあるオーディオオブジェクト信号の重みより大きな重みを有する(図5を参照)ことができる。例えば、各オーディオ出力チャンネル内でオーディオオブジェクト信号の重みを決定するためにベクトルベース振幅パニングを利用することができる(例えば、[VBAP]を参照)。VBAPに関して、オーディオオブジェクト信号が仮想音源に割り当てられることが想定され、オーディオ出力チャンネルがスピーカーのチャンネルであることがさらに想定される。レンダリング行列Rの対応する係数(考慮されたオーディオ出力チャンネル及び考慮されたオーディオオブジェクト信号に割り当てられた係数)は、したがって、このような重みに依存した値に設定することができる。例えば、重み自体をレンダリング行列R内のその対応する係数の値とすることができる。
以下では、オブジェクトベース信号のための空間ダウンミックスを実現する実施形態を詳細に説明する。
以下の表記及び定義を参照する。
Objects:入力オーディオオブジェクト信号の数
Channels:入力チャンネルの数
N:入力信号の数;
NはNObjects、NChannels又はNObjects+NChannelsと等しくできる
DmxCh:ダウンミックス(処理済み)チャンネルの数
pre:プリミックスチャンネルの数
Samples:処理済みデータサンプルの数
D:ダウンミックス行列、サイズNDmxCh×N
X:2つ以上のオーディオ入力信号を含む入力オーディオ信号、サイズN×NSamples
Y:ダウンミックスオーディオ信号(オーディオトランスポート信号)、サイズNDmxCh×NSamples、Y=DXと定義される
DMG:あらゆる入力信号、ダウンミックスチャンネル、及びパラメータセットに対するダウンミックス利得データ
DMG:あらゆる入力信号、ダウンミックスチャンネル、及びパラメータセットに対する逆量子化され、マッピングされたDMGデータを保持する3次元行列である
一般性を失うことなく、式の読みやすさを改善するために、全ての導入された変数に対して、時間依存性及び周波数依存性を表す添字は省略する。
入力信号(チャンネル又はオブジェクト)に関して制約が指定されない場合、ダウンミックス係数は、入力チャンネル信号及び入力オブジェクト信号の場合と同様に算出される。入力信号の数Nに対する表記法が使用される。
幾つかの実施形態は、例えば、オブジェクトメタデータにおいて利用可能な空間情報によって誘導され、チャンネル信号とは異なった方法でオブジェクト信号をダウンミックスするため設計することができる。
ダウンミックスは、2つのステップに分離することができる。
− 第1のステップでは、オブジェクトは、スピーカーの最大数Npre(例えば、22.2コンフィギュレーションによって与えられるNpre=22)を用いて再生レイアウトにプリレンダリングされる。例えば、第1の行列Pを利用することができる。
− 第2のステップでは、得られたNpre個のプリレンダリングされた信号は、(例えば、直交ダウンミックス分配アルゴリズムに従って)利用可能なトランスポートチャンネル数(NDmxCh)にダウンミックスされる。例えば、第2の行列Qを利用することができる。
しかしながら、幾つかの実施形態では、ダウンミックスは、例えば、式D=QPに従って定義された行列Dを利用することにより、及び、D=QPとともにY=DXを適用することにより、単一のステップで行われる。
とりわけ、提案された概念のさらなる利点は、例えば、オーディオシーンにおいて同じ空間位置にレンダリングされると想定される入力オブジェクト信号は、同じトランスポートチャンネル内で一緒にダウンミックスされる、ということである。その結果、デコーダ側で、プリレンダリングされた信号のより良好な分離が達成され、最終的な再生シーンにおいて再度一緒に混合されるオーディオオブジェクトの分離を防ぐ。
特定の好ましい実施形態によれば、ダウンミックスは、行列乗算によって記述することができる。
pre=PX 及び Y=QXpre
式中、サイズ(Npre×NObjects)のP及びサイズ(NDmxCh×Npre)のQは、以下で説明されるように算出される。
Pの中のミキシング係数は、パニングアルゴリズム(例えば、ベクトルベース振幅パニング)を使用してオブジェクト信号メタデータ(原点からの距離、利得、方位角及び仰角)から構成される。パニングアルゴリズムは、出力チャンネルを構成するためにデコーダ側で使用されるものと同じであるべきである。
Qの中のミキシング係数は、Npre個の入力信号とNDmxCh個の利用可能なトランスポートチャンネルに対してエンコーダ側で与えられる。
計算の複雑さを低減するために、2ステップのダウンミックスは、最終ダウンミックス利得を以下のように算出することにより1ステップに簡略化できる。
D=QP
その結果、ダウンミックス信号は次式によって与えられる。
Y=DX
Pの中のミキシング係数はビットストリームの内部で送信されない。その代わりに、これらのミキシング係数は、同じパニングアルゴリズムを使用してデコーダ側で再構成される。その結果として、ビットレートは、Qの中のミキシング係数だけを送出することによって低減される。特に、Pの中のミキシング係数は通常で時間的に変化するものであり、Pは送信されないので、高度のビットレート低減を達成できる。
以下、実施形態によるビットストリーム構文を検討する。
第1のステップにおいてオブジェクトをプリレンダリングするために使用されたダウンミックス方法とチャンネルの数Npreとを信号伝達するために、MPEG SAOCビットストリーム構文は、4ビットを使って拡張される。


MPEG SAOCとの関連において、これは、以下の変形によって達成できる。
bsSaocDmxMethod:ダウンミックス行列がどのように構成されるかを示す
SAOC3DSpecificConfig()の構文−信号伝達(Signaling)

Saoc3DFrame()の構文: DMGが異なったモードのため読み取られる方法。

bsNumSaocDmxChannels:チャンネルベースコンテンツのためのダウンミックスチャンネルの数を定義する。チャンネルがダウンミックスに存在しない場合、bsNumSaocDmxChannelsが0に設定される。
bsNumSaocChannels:SAOC 3Dパラメータが送信される入力チャンネルの数を定義する。bsNumSaocChannels = 0である場合、チャンネルはダウンミックスに存在しない。
bsNumSaocDmxObjects:オブジェクトベースコンテンツのためのダウンミックスチャンネルの数を定義する。オブジェクトがダウンミックスに存在しない場合、bsNumSaocDmxObjectsが0に設定される。
bsNumPremixedChannels:入力オーディオオブジェクトに対するプリミキシングチャンネルの数を定義する。bsSaocDmxMethodが15に等しい場合、プリミックスされたチャンネルの実際の数は、bsNumPremixedChannelsの値によって直接的に信号伝達される。全ての他の場合、bsNumPremixedChannelsは、前述の表に従って設定される。
一実施形態によれば、入力オーディオ信号Sに適用されたダウンミックス行列Dは、以下のようにダウンミックス信号を決定する。
X=DS
サイズがNdmx×Nであるダウンミックス行列Dは、以下のように得られる。
D=Ddmxpremix
行列Ddmx及び行列Dpremixは処理モードに依存して異なったサイズをもつ。
行列Ddmxは以下のようにDMGパラメータから得られる。
i,j=0:ペア(i,j)に対するDMGデータがビットストリームの中に存在しない場合、
i,j=100.05DMGi,j:そうではない場合。
ここで、逆量子化されたダウンミックスパラメータは以下のように得られる。
DMGi,j=DDMG(i,j,l)
直接モードの場合、プリミキシングは使用されない。行列DpremixはサイズN×Nをもち、Dpremix=Iによって与えられる。行列DdmxはサイズDdmx×Nをもち、DMGパラメータから得られる。
プリミキシングモードでは、行列Dpremixはサイズ(Nch+Npremix)×Nをもち、次式

によって与えられる。式中、サイズがNpremix×Nobjであるプリミキシング行列AがオブジェクトレンダラからSAOC 3Dデコーダへの入力として受信される。 行列DdmxはサイズNdmx×(Nch+Npremix)をもち、DMGパラメータから得られる。
幾つかの態様が装置に関連して説明されているが、これらの態様は対応する方法の説明も表現し、ブロック又は機器は方法ステップ又は方法ステップの特徴に対応することが明らかである。同様に、方法ステップに関連して説明された態様は、対応する装置の対応するブロック、物又は特徴の説明も表現する。
本発明の分解された信号はディジタル記憶媒体に記憶することができ、又は無線伝送媒体もしくはインターネットのような有線伝送媒体といった伝送媒体上で送信することができる。
特定の実施要件に依存して、本発明の実施形態はハードウェア又はソフトウェアで実施することができる。その実施は、ディジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はFLASHメモリを使用して実行することができる。そのディジタル記憶媒体は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(協働する能力がある)電子的に読み取り可能な制御信号を記憶しているものである。
本発明によるいくつかの実施形態は、本明細書に記載された方法のうちの1つが実行されるようにプログラマブルシステムと協働する能力がある電子的に読み取り可能な制御信号を有する非遷移型のデータ担体を含む。
概して、本発明の実施形態はプログラムコードをもつコンピュータプログラムプロダクトとして実施することができ、そのプログラムコードはこのコンピュータプログラムプロダクトがコンピュータ上で動くとき本発明方法のうち1つを実行するために動作するものである。そのプログラムコードは、例えば機械読み取り可能な担体に記憶することができる。
他の実施形態は、機械読み取り可能な担体上に記憶され、かつ本明細書に記載された方法のうち1つを実行するコンピュータプログラムを含む。
換言すれば、本発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータ上で動くとき、本明細書に記載された方法のうち1つを実行するプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを記録しているデータ担体(又はディジタル記憶媒体、もしくはコンピュータ読み取り可能な媒体)である。
本発明の方法のさらなる実施形態は、従って、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを表現するデータストリーム又は信号のシーケンスである。そのデータストリーム又は信号のシーケンスは、例えば、データ通信接続を介して、例としてインターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するように構成され又は適合した処理手段、例えば、コンピュータ又はプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するコンピュータプログラムを実装しているコンピュータを含む。
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を本明細書に記載された方法の機能性のうちの一部又は全部を実行するために使用することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書に記載された方法のうち1つを実行するためにマイクロプロセッサと協働することができる。概して、本発明方法は、好ましくは、ハードウェア装置によって実行される。
上記実施形態は、本発明の原理の単なる例示である。当然のことながら、本明細書に記載された配置構成及び細部の変更及び変形は、当業者には明白であろう。したがって、意図するところは、本発明は直ぐ後の特許請求の範囲だけによって限定され、本明細書において実施形態の記載及び説明のために提示された具体的な細部によって限定されないことである。



  1. 1つ以上のオーディオ出力チャンネルを生成する装置であって、該装置は、
    出力チャンネルミキシング情報を算出するパラメータプロセッサ(110)と、
    1つ以上のオーディオ出力チャンネルを生成するダウンミックスプロセッサ(120)と、を備え、
    前記ダウンミックスプロセッサ(120)は1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するように構成され、2つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、かつ、前記1つ以上のオーディオトランスポートチャンネルの数が前記2つ以上のオーディオオブジェクト信号の数より少なくされており、
    前記オーディオトランスポート信号は第1のミキシング規則と第2のミキシング規則とに依存しており、前記第1のミキシング規則は複数のプリミックスされたチャンネルを得るために前記2つ以上のオーディオオブジェクト信号を混合する方法を示し、前記第2のミキシング規則は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示しており、
    前記パラメータプロセッサ(110)は前記第2のミキシング規則に関する情報を受信するように構成され、前記第2のミキシング規則に関する前記情報は前記1つ以上のオーディオトランスポートチャンネルが得られるように前記複数のプリミックスされた信号を混合する方法を示し、
    前記パラメータプロセッサ(110)は、前記2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、前記複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び、前記第2のミキシング規則に関する情報に依存して前記出力チャンネルミキシング情報を算出するように構成され、かつ、
    前記ダウンミックスプロセッサ(120)は、前記出力チャンネルミキシング情報に依存して前記オーディオトランスポート信号から前記1つ以上のオーディオ出力チャンネルを生成するよう構成されている装置。

  2. 該装置は前記オーディオオブジェクト数と前記プリミックス済みチャンネル数のうちの少なくとも一方を受信するように構成されている請求項1に記載の装置。

  3. 前記パラメータプロセッサ(110)は、前記オーディオオブジェクト数に依存して、及び、前記プリミックス済みチャンネル数に依存して、前記第1のミキシング規則に関する情報が、前記複数のプリミックスされたチャンネルを得るために前記2つ以上のオーディオオブジェクト信号を混合する方法を示すように、前記第1のミキシング規則に関する前記情報を決定するように構成され、かつ、
    前記パラメータプロセッサ(110)は、前記第1のミキシング規則に関する前記情報に依存して、及び、前記第2のミキシング規則に関する前記情報に依存して前記出力チャンネルミキシング情報を算出するように構成されている請求項1又は2に記載の装置。

  4. 前記パラメータプロセッサ(110)は、前記オーディオオブジェクト数に依存して、及び、前記プリミックス済みチャンネル数に依存して、前記第1のミキシング規則に関する前記情報として第1の行列(P)の複数の係数を決定するように構成され、前記第1の行列(P)は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示すものであり、
    前記パラメータプロセッサ(110)は、前記第2のミキシング規則に関する前記情報として第2の行列(Q)の複数の係数を受信するように構成され、前記第2の行列(Q)は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示すものであり、かつ、
    前記パラメータプロセッサ(110)は、前記第1の行列(P)に依存して、及び、前記第2の行列(Q)に依存して、前記出力チャンネルミキシング情報を算出するように構成されている請求項3に記載の装置。

  5. 前記パラメータプロセッサ(110)は、前記2つ以上のオーディオオブジェクト信号の1つずつに対する位置情報を含むメタデータ情報を受信するように構成され、
    前記パラメータプロセッサ(110)は、前記2つ以上のオーディオオブジェクト信号の1つずつに対する前記位置情報に依存して前記第1のダウンミックス規則に関する前記情報を決定するように構成されている請求項1から4のいずれか一項に記載の装置。

  6. 前記パラメータプロセッサ(110)は、前記2つ以上のオーディオオブジェクト信号の1つずつに対する前記位置情報に依存してレンダリング情報を決定するように構成され、
    前記パラメータプロセッサ(110)は、前記オーディオオブジェクト数に依存して、前記プリミックス済みチャンネル数に依存して、前記第2のミキシング規則に関する前記情報に依存して、及び前記レンダリング情報に依存して前記出力チャンネルミキシング情報を算出するように構成されている請求項5に記載の装置。

  7. 前記パラメータプロセッサ(110)は、前記2つ以上のオーディオオブジェクト信号の1つずつに対するオブジェクトレベル差を示す共分散情報を受信するように構成され、
    前記パラメータプロセッサ(110)は、前記オーディオオブジェクト数に依存して、前記プリミックス済みチャンネル数に依存して、前記第2のミキシング規則に関する前記情報に依存して、及び前記共分散情報に依存して前記出力チャンネルミキシング情報を算出するように構成されている請求項1から6のいずれか一項に記載の装置。

  8. 前記共分散情報は、さらに、前記2つ以上のオーディオオブジェクト信号のうちの1つと、前記2つ以上のオーディオオブジェクト信号のうちのもう1つとの間の少なくとも1つのオブジェクト間相関を示し、
    前記パラメータプロセッサ(110)は、前記オーディオオブジェクト数に依存して、前記プリミックス済みチャンネル数に依存して、前記第2のミキシング規則に関する前記情報に依存して、前記2つ以上のオーディオオブジェクト信号の1つずつについてのオブジェクトレベル差に依存して、及び前記2つ以上のオーディオオブジェクト信号のうちの1つと前記2つ以上のオーディオオブジェクト信号のうちのもう1つとの間の前記少なくとも1つのオブジェクト間相関に依存して前記出力チャンネルミキシング情報を算出するように構成されている請求項7に記載の装置。

  9. 1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する装置であって、該装置は、
    2つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、かつ、前記1つ以上のオーディオトランスポートチャンネルの数が前記2つ以上のオーディオオブジェクト信号の数より少なくなっているように、前記2つ以上のオーディオオブジェクト信号から前記1つ以上のオーディオトランスポートチャンネルを含む前記オーディオトランスポート信号を生成するオブジェクトミキサ(210)と、
    前記オーディオトランスポート信号を出力する出力インターフェース(220)と、を備え、
    前記オブジェクトミキサ(210)は第1のミキシング規則に依存して、及び第2のミキシング規則に依存して、前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを生成するように構成され、前記第1のミキシング規則は複数のプリミックスされたチャンネルを得るために前記2つ以上のオーディオオブジェクト信号を混合する方法を示し、前記第2のミキシング規則は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示しており、
    前記第1のミキシング規則は前記2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存し、及び前記複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存し、前記第2のミキシング規則は前記プリミックス済みチャンネル数に依存し、かつ、
    前記出力インターフェース(220)は前記第2のミキシング規則に関する情報を出力するように構成されている装置。

  10. 前記オブジェクトミキサ(210)は、第1の行列(P)に依存して、及び第2の行列(Q)に依存して、前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを生成するように構成され、前記第1の行列(P)は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示し、第2の行列(Q)は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示しており、
    前記パラメータプロセッサ(110)は、前記第2のミキシング規則に関する前記情報として前記第2の行列(Q)の複数の係数を出力するように構成されている請求項9に記載の装置。

  11. 前記オブジェクトミキサ(210)は前記2つ以上のオーディオオブジェクト信号の1つずつに対する位置情報を受信するように構成され、
    前記オブジェクトミキサ(210)は前記2つ以上のオーディオオブジェクト信号の1つずつに対する前記位置情報に依存して前記第1のミキシング規則を決定するように構成されている請求項9又は10に記載の装置。

  12. オーディオトランスポート信号を生成する請求項9から11のいずれか一項に記載の装置(310)と、
    1つ以上のオーディオ出力チャンネルを生成する請求項1から8のいずれか一項に記載の装置(320)と、を備え、
    請求項1から8のいずれか一項に記載の前記装置(320)は、請求項9から11のいずれか一項に記載の前記装置(310)から前記オーディオトランスポート信号と前記第2のミキシング規則に関する情報とを受信するように構成され、
    請求項1から8のいずれか一項に記載の前記装置(320)は、前記第2のミキシング規則に関する前記情報に依存して前記オーディオトランスポート信号から前記1つ以上のオーディオ出力チャンネルを生成するように構成されているシステム。

  13. 1つ以上のオーディオ出力チャンネルを生成する方法であって、該方法は、
    1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を受信するステップであって、2つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、前記1つ以上のオーディオトランスポートチャンネルの数が前記2つ以上のオーディオオブジェクト信号の数より少なくされており、前記オーディオトランスポート信号は第1のミキシング規則に依存し及び第2のミキシング規則に依存しており、前記第1のミキシング規則は複数のプリミックスされたチャンネルを得るために前記2つ以上のオーディオオブジェクト信号を混合する方法を示しており、前記第2のミキシング規則は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示しているステップと、
    前記第2のミキシング規則に関する情報を受信するステップであって、前記第2のミキシング規則に関する情報は前記1つ以上のオーディオトランスポートチャンネルが得られるように前記複数のプリミックスされた信号を混合する方法を示すステップと、
    前記2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存して、前記複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存して、及び前記第2のミキシング規則に関する前記情報に依存して出力チャンネルミキシング情報を算出するステップと、
    前記出力チャンネルミキシング情報に依存して前記オーディオトランスポート信号から1つ以上のオーディオ出力チャンネルを生成するステップと、を含む方法。

  14. 1つ以上のオーディオトランスポートチャンネルを含むオーディオトランスポート信号を生成する方法であって、該方法は、
    2つ以上のオーディオオブジェクト信号から前記1つ以上のオーディオトランスポートチャンネルを含む前記オーディオトランスポート信号を生成するステップと、
    前記オーディオトランスポート信号を出力するステップと、
    第2のミキシング規則に関する情報を出力するステップと、を含み、
    前記2つ以上のオーディオオブジェクト信号から前記1つ以上のオーディオトランスポートチャンネルを含む前記オーディオトランスポート信号を生成するステップは、前記2つ以上のオーディオオブジェクト信号が前記オーディオトランスポート信号内で混合され、前記1つ以上のオーディオトランスポートチャンネルの数が2つ以上のオーディオオブジェクト信号の数より少なくされているように実施され、
    前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを生成するステップは第1のミキシング規則に依存して及び第2のミキシング規則に依存して実施され、前記第1のミキシング規則は複数のプリミックスされたチャンネルを得るために前記2つ以上のオーディオオブジェクト信号を混合する方法を示しており、前記第2のミキシング規則は前記オーディオトランスポート信号の前記1つ以上のオーディオトランスポートチャンネルを得るために前記複数のプリミックスされたチャンネルを混合する方法を示しており、前記第1のミキシング規則は、前記2つ以上のオーディオオブジェクト信号の数を示すオーディオオブジェクト数に依存し、及び前記複数のプリミックスされたチャンネルの数を示すプリミックス済みチャンネル数に依存し、前記第2のミキシング規則は前記プリミックス済みチャンネル数に依存している方法。

  15. コンピュータ又は信号プロセッサ上で実行されたときに請求項13又は14に記載の方法を実施するコンピュータプログラム。

 

 

Patent trol of patentswamp
類似の特許
本発明の実施形態は適応的なオーディオ・コンテンツ生成に関する。具体的には、適応的なオーディオ・コンテンツを生成するための方法が提供される。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出し、少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成することを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。
聞き手の頭の意図された位置の近くに配置された少なくとも2つの近接場スピーカを有する自動車オーディオシステムの信号は、第1のモードでは、聞き手に広いサウンドステージを感知させる第1のフィルタに従って近接場スピーカに配信され、第2のモードでは、オーディオ信号は、聞き手に狭いサウンドステージを感知させる第2のフィルタに従って近接場スピーカに配信されるように調整される。可変値のユーザ入力が受け取られ、これに応答してオーディオ信号の分布が第1のモードから第2のモードへ移行し、移行の程度はユーザ入力の値に基づいて可変である。
全般に、音場の空間成分の圧縮のための量子化ステップサイズを決定するための技法が説明される。1つまたは複数のプロセッサを備えるデバイスが、本技法を実行するように構成され得る。言い換えれば、1つまたは複数のプロセッサは、音場の空間成分を圧縮するときに使用されるべき量子化ステップサイズを決定するように構成されてよく、空間成分は、複数の球面調和係数に関してベクトルベースの合成を実行することによって生成される。
【選択図】図4
低周波数オーディオ・データを処理するための改善された方法および装置が提供される。ベース抽出プロセスは、受領されたオーディオ・オブジェクト信号に低域通過フィルタを適用して、抽出された低周波数オーディオ信号を生成することに関わる。ベース抽出プロセスは、オーディオ・オブジェクトをスピーカー・フィード信号にレンダリングするプロセスに先立って実行されてもよい。ベース管理プロセスは、抽出された低周波数オーディオ信号を、低周波数オーディオ信号を再生できる一つまたは複数のスピーカーにルーティングすることに関わってもよい。
全般に、球面調和係数の分解されたバージョンを取得するための技法が説明される。これらの技法によれば、1つまたは複数のプロセッサを備えるデバイスは、音場の明瞭な成分を表すベクトルの係数の第1の0ではないセットを決定するように構成されてよく、ベクトルは、音場を記述する複数の球面調和係数から分解されている。
【選択図】図4
部屋寸法推定の決定 // JP2016524693
部屋寸法推定を決定するための装置は、例えば音響測定から生成された、音響部屋応答を供給するレシーバ101を有する。ピーク検出部103は、400Hzに過ぎない上側周波数を有する周波数間隔において音響部屋応答におけるピークのセットを検出する。格納部107は、関連する部屋寸法データを有するピークプロファイルのセットを有し、推定部105は、関連する部屋寸法データ及びピークプロファイルに対するピークのセットの比較から部屋寸法推定を決定する。推定部は、ピークプロファイルのセットからピークのセットのためのマッチングピークプロファイルを最初に見つけ、マッチングピークプロファイルに関連する第1の部屋寸法データを格納部から抽出し、第1の部屋寸法データに基づいて部屋寸法推定を決定するステップを実行し得る。ピークプロファイルは、計算された固有振動数を表し得る。
本発明は、製紙プロセスにおいて、脱水効率を改善し、シートウェットウエブ強度を増加させ、シート湿潤強度を増加させ、フィラー歩留を増強させる方法を提供する。方法は、フィラー粒子の少なくともいくらかを、フィラー材料のそれらの添加物への付着を防止する材料でコートすることにより、濾水助剤またはウェットウエブ強度助剤または湿潤強度助剤の効率を改善する。濾水添加物またはウェットウエブ強度添加物または湿潤強度助剤は、セルロース繊維を一緒にしっかりと保持し、フィラー粒子上で無駄にされない。
1つまたは複数のプロセッサを備えるデバイスは、変換情報を取得し、この変換情報は、複数の階層的な要素の数を減少された複数の階層的な要素に減少させるために音場がどのように変換されたかについて説明する、この変換情報に基づいて、減少された複数の階層的な要素に対してバイノーラルオーディオレンダリングを実行するように構成される。
【選択図】 図6A
1つまたは複数のプロセッサを備えるデバイスは、音声信号の複数の適応的に重み付けられたチャンネルを生成するために、適応的に決定された重みを音声信号の複数のチャンネルに適用するように構成される。プロセッサは、結合された信号を生成するために、音声信号の複数の適応的に重み付けられたチャンネルのうちの少なくとも2つを結合するようにさらに構成される。プロセッサは、バイノーラル音声信号を生成するために、バイノーラル室内インパルス応答フィルタを結合された信号に適用するようにさらに構成される。
To top