パケット損失補償装置およびパケット損失補償方法、ならびに音声処理システム

 

本明細書は、パケット損失補償装置およびパケット損失補償方法、ならびに音声処理システムに関する。一実施形態によれば、音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償装置であって、各音声パケットが、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含むパケット損失補償装置が提供される。パケット損失補償装置は、損失パケット中の損失フレームに対して少なくとも1つのモノラル成分を作成するための第1の補償部と、損失フレームに対して少なくとも1つの空間成分を作成するための第2の補償部とを備えている。実施形態によれば、マルチチャネルの空間フィールドまたは音場を符号化した音声信号に対するPLCでは、不正確な角度および拡散性などの空間アーチファクトを可能な限り回避できる。

 

 

本明細書は全般に、音声信号処理に関する。本明細書の実施形態は、パケット交換ネットワーク上での音声伝送過程で起こる空間音声パケット損失から生じるアーチファクトの補償に関する。さらに詳細には、本明細書の実施形態は、パケット損失補償装置、パケット損失補償方法、およびパケット損失補償装置を備える音声処理システムに関する。
音声通信は、様々な質の問題にさらされることがある。例えば、音声通信がパケット交換ネットワーク上で実行される場合、ネットワーク内で起きる遅延ジッタが原因で、あるいはフェージング(fading)またはWIFI干渉などのチャネルの悪条件が原因で、いくつかのパケットが損失することがある。損失したパケットはクリックやポップまたはその他のアーチファクトになり、これは、受信器側で知覚されるスピーチの質を著しく低下させる。パケット損失の不都合な影響に対抗するために、フレーム消去補償アルゴリズムとしても知られているパケット損失補償(packet loss concealment : PLC)アルゴリズムが提案されている。このようなアルゴリズムは通常、受信したビットストリームで損失データ(消去箇所)をカバーするために合成音声信号を生成することによって、受信器側で動作する。これらのアルゴリズムは、時間領域及び周波数領域のいずれかで主にモノラル信号に対して提案される。補償が復号化の前に起こるか後に起こるかに基づいて、モノラルチャネルのPLCは、符号化分野、復号化分野、またはその混合分野の方法に分類できる。モノラルチャネルのPLCをマルチチャネル信号に直接適用すると、望ましくないアーチファクトが生じるおそれがある。例えば、各チャネルを復号化した後に、復号化された領域のPLCを各チャネルに対して別々に実施してよい。このような手法の1つの欠点は、チャネルどうしの相関を考慮していないために、空間的に歪んだアーチファクトだけでなく不安定な信号レベルも観測されることがあるという点である。不正確な角度および拡散性などの空間アーチファクトが、空間音声の知覚面での質を著しく低下させることがある。したがって、マルチチャネルの空間フィールドまたは音場を符号化した音声信号に対するPLCアルゴリズムの必要性がある。
本明細書の一実施形態によれば、音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償装置であって、各音声パケットが、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含むパケット損失補償装置が提供される。パケット損失補償装置は、損失パケット中の損失フレームに対して少なくとも1つのモノラル成分を作成するための第1の補償部と、その損失フレームに対して少なくとも1つの空間成分を作成するための第2の補償部とを備えている。
上記のパケット損失補償装置は、サーバなどの中間装置、例えば音声会議ミキシングサーバ、または末端ユーザに使用される通信端末のいずれかに適用されてよい。
本明細書は、上記のパケット損失補償装置を備えるサーバおよび/または上記のパケット損失補償装置を備える通信端末を備える音声処理システムも提供する。
本明細書のもう1つの実施形態は、音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償方法であって、各音声パケットが、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含むパケット損失補償方法を提供する。パケット損失補償方法は、損失パケット中の損失フレームに対して少なくとも1つのモノラル成分を作成すること、および/または、その損失フレームに対して少なくとも1つの空間成分を作成することを含む。
本明細書は、コンピュータプログラム命令が記録されているコンピュータ可読媒体であって、プロセッサによって実行された際に、その命令によりプロセッサが前述したようなパケット損失補償方法を実行できるコンピュータ可読媒体も提供する。
本明細書を、添付の図面に限定的ではなく例として説明しており、図面では、同じ符号は同様の要素を指している。
本明細書の実施形態を適用できる例示的な音声通信システムを示す概略図である。 本明細書の実施形態を適用できるもう1つの例示的な音声通信システムを示す概略図である。 本明細書の一実施形態によるパケット損失補償装置を示す図である。 図3のパケット損失補償装置の特定の例を示す図である。 図3の実施形態の一変形例による図3の第1の補償部400を示す図である。 図5のパケット損失補償装置の変形例を示す図である。 図3の実施形態のもう1つの変形例による図3の第1の補償部400を示す図である。 図7に示した変形例の原理を示す図である。 図3の実施形態のさらに別の変形例による図3の第1の補償部400を示す図である。 図3の実施形態のさらに別の変形例による図3の第1の補償部400を示す図である。 図9Aのパケット損失補償装置の変形例の特定の例を示す図である。 本明細書のもう1つの実施形態による通信端末内の第2の変換器を示す図である。 本明細書の実施形態によるパケット損失補償装置の適用を示す図である。 本明細書の実施形態によるパケット損失補償装置の適用を示す図である。 本明細書の実施形態によるパケット損失補償装置の適用を示す図である。 本明細書の実施形態を実施するための例示的なシステムを示すブロック図である。 本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。 本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。 本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。 本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。 本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。 本明細書の実施形態およびその変形例によるパケット損失補償方法におけるモノラル成分の補償を示すフローチャートである。 例示的な音場符号化システムのブロック図である。 例示的な音場符号化器のブロック図である。 例示的な音場復号化器のブロック図である。 音場信号を符号化するための例示的な方法のフローチャートである。 音場信号を復号化するための例示的な方法のフローチャートである。
本明細書の実施形態を、図面を参照して以下に説明する。明瞭にするために、当業者に知られているが本明細書を理解するのに必要ないような要素およびプロセスに関する表現および記載は、図面および説明文で省略されている点に注意されたい。
当業者に理解されるように、本明細書の態様は、システム、デバイス(例えば携帯電話、ポータブルメディアプレーヤ、パーソナルコンピュータ、サーバ、テレビジョンセットトップボックス、もしくはデジタルビデオレコーダ、またはその他の任意のメディアプレーヤ)、方法またはコンピュータプログラム製品として具体化されてよい。したがって、本明細書の態様は、ハードウェアの実施形態、ソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなど)またはソフトウェアとハードウェアの態様を両方組み合わせた実施形態の形態であってよく、これらすべてを本明細書では全般に、「回路、」「モジュール」または「システム」と称することがある。さらに、本明細書の態様は、1つ以上のコンピュータ可読媒体に組み込まれたコンピュータプログラム製品の形態であってよく、コンピュータ可読媒体は、そこに組み込まれたコンピュータ可読プログラムコードを含む。
1つ以上のコンピュータ可読媒体を任意に組み合わせたものを使用してよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってよい。コンピュータ可読記憶媒体は、例えば、電子式、磁気式、光学式、電磁気式、赤外線式、もしくは半導体式のシステム、装置、もしくはデバイス、または前述のものを任意に適切に組み合わせたものであってよいが、これに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非排他的な列挙)には以下のものがあるであろう:1つ以上のワイヤを含む電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム式の読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、光学式格納デバイス、磁気式格納デバイス、または前述のものを任意に適切に組み合わせたもの。本明細書の文脈では、コンピュータ可読記憶媒体は、命令を実行するシステム、装置またはデバイスによって、あるいはこれに接続して使用するためのプログラムを含むかまたは格納できる任意の有形媒体であってよい。
コンピュータ可読信号媒体は、この媒体に組み込まれたコンピュータ可読プログラムコードとともに伝搬されるデータ信号を、例えばベースバンド内に、または搬送波の一部として含んでいてよい。このように伝搬される信号は多様な形態をとることができ、それには電磁気信号もしくは光信号、またはこれらを任意に適切に組み合わせたものなどがあるが、これに限定されない。
コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではないもので、命令を実行するシステム、装置またはデバイスによって、あるいはこれに接続して使用するためのプログラムを通信、伝搬または伝送できる任意のコンピュータ可読媒体であってよい。
コンピュータ可読媒体に組み込まれたプログラムコードは、任意の適当な媒体を使用して伝送されてよく、このような媒体には、無線ケーブル、有線ケーブル、光ファイバケーブル、RFなど、または前述のものを任意に適切に組み合わせたものなどがあるが、これに限定されない。
本明細書の態様に対する動作を実行するためのコンピュータプログラムコードは、1つ以上のプログラミング言語を任意に組み合わせたもので書かれてよく、このようなプログラミング言語には、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語やこれと同様のプログラミング言語などの従来の手続き型プログラミング言語などがある。プログラムコードは、スタンドアローンソフトウェアパッケージとしてユーザのコンピュータ上で全体的に実行してもよいし、ユーザのコンピュータ上で部分的に、かつリモートコンピュータ上で部分的に実行してもよいし、あるいはリモートコンピュータまたはサーバ上で全体的に実行してもよい。最後の事例の背景では、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)などの任意の種類のネットワークを介してユーザのコンピュータに接続されてもよいし、あるいは接続は、(例えば、インターネットサービスプロバイダを使用するインターネットを介して)外部コンピュータに対して行われてもよい。
本明細書の実施形態による方法、装置(システム)およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して、本明細書の態様を以下に説明する。フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図にあるブロックを組み合わせたものは、コンピュータプログラム命令によって実行可能なものであることは理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特殊目的コンピュータ、またはマシンを製造するためのその他のプログラム可能なデータ処理装置のプロセッサに提供されてよく、その結果、コンピュータのプロセッサまたはその他のプログラム可能なデータ処理装置を介して実行する命令は、フローチャートおよび/またはブロック図の1つまたは複数のブロックに指定された機能/作用を実行するための手段を作成する。
これらのコンピュータプログラム命令は、コンピュータ可読媒体に記憶されてもよく、このコンピュータ可読媒体は、コンピュータ、その他のプログラム可能なデータ処理装置、または特定の方式で機能するその他のデバイスを誘導でき、それによってコンピュータ可読媒体に記憶された命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロックに指定された機能/作用を実行する命令を含む製造物品を生産するようにする。
コンピュータプログラム命令は、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスにロードされて、そのコンピュータ、その他のプログラム可能なデータ処理装置またはその他のデバイス上で一連の動作ステップを実行させて、コンピュータに実装されたプロセスを生み出すこともでき、このようにして、コンピュータまたはその他のプログラム可能な装置上で実行される命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロックに明記した機能/行為を実施するためのプロセスを提供するようにする。
総合的な解決法
図1は、本明細書の実施形態を適用できる一例の音声通信システムを示す概略図である。
図1に示したように、ユーザAは通信端末Aを操作し、ユーザBは通信端末Bを操作する。音声通信セッションでは、ユーザAおよびユーザBは、それぞれの通信端末AおよびBを介して互いに会話する。通信端末AおよびBは、データリンク10を介して接続されている。データリンク10は、ポイントツーポイント接続または通信ネットワークとして実現されてよい。ユーザAおよびユーザBのいずれの側でも、パケット損失検出(図示せず)は、他方の側から伝送された音声パケット上で実行される。パケット損失が検出された場合、パケット損失補償(PLC)を実行してパケット損失を補償でき、それによって再生された音声信号が、より完全に聞こえ、かつパケット損失によって生じたアーチファクトがより少ない状態で聞こえるようにする。
図2は、本明細書の実施形態を適用できるもう1つの例の音声通信システムの概略図である。この例では、ユーザどうしで音声会議を行うことができる。
図2に示したように、ユーザAは通信端末Aを操作し、ユーザBは通信端末Bを操作し、ユーザCは通信端末Cを操作する。音声会議セッションでは、ユーザA、ユーザBおよびユーザCは、それぞれの通信端末A、BおよびCを介して互いに会話する。図2に示した通信端末は、図1に示したものと同じ機能を有する。ただし、通信端末A、B、およびCは、共通のデータリンク20または別々のデータリンク20を介してサーバに接続されている。データリンク20は、ポイントツーポイント接続または通信ネットワークとして実現されてよい。ユーザA、ユーザB、およびユーザCのいずれの側でも、パケット損失検出(図示せず)は、他の一人または二人の側から伝送された音声パケット上で実行される。パケット損失が検出された場合、パケット損失補償(PLC)を実行してパケット損失を補償でき、それによって再生された音声信号がより完全に聞こえ、かつパケット損失によって生じたアーチファクトがより少ない状態で聞こえるようにする。
パケット損失は、送信元通信端末からサーバまでの経路、かつ送信元通信端末から送信先通信端末までの経路のどこにでも発生し得る。したがって、その代わりに、またはそれに加えて、パケット損失検出(図示せず)およびPLCをサーバで実行することもできる。パケット損失検出およびPLCをサーバで実行するために、サーバに受信されたパケットは、デパケット化(de-packetized)されてよい(図示せず)。次に、PLCの後、パケット損失を補償された音声信号は、再びパケット化され(図示せず)、送信先通信端末に伝送されてよい。同時に会話しているユーザが2人いる場合(これは音声区間検出(Voice Activity Detection : VAD)技術を用いて判断できる)、2人のユーザのスピーチ信号を送信先通信端末に伝送する前に、ミキサ800でミキシング動作を行ってスピーチ信号の2つのストリームを1つに混合する必要がある。これは、PLCの後に行われてよいが、パケット化動作の前に行われる。
3つの通信端末を図2に示しているが、システムにはこれよりも適度に多い通信端末が接続されていてよい。
本明細書は、音場信号に適用される適当な変換技術によって得られるモノラル成分と空間成分とのそれぞれに異なる補償方法を適用することによって、音場信号のパケット損失問題を解決しようとするものである。具体的には、本明細書は、パケット損失が起きた際に、空間音声伝送中に人工信号を構築することに関する。
図3に示したように、1つの実施形態では、音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償(PLC)装置を設け、各音声パケットは、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含む。PLC装置は、損失パケット中の損失フレームに対して少なくとも1つのモノラル成分を作成するための第1の補償部400と、その損失フレームに対して少なくとも1つの空間成分を作成するための第2の補償部600とを備えていてよい。作成された少なくとも1つのモノラル成分および作成された少なくとも1つの空間成分は、作成フレームとなって損失フレームに取って代わる。
先行技術で公知のように、伝送に対応するために、音声ストリームが変換され、「伝送形式(transmission format)」と呼んでよいフレーム構造に格納され、送信元通信端末で音声パケットにパケット化され、その後、サーバまたは送信先通信端末で受信器100に受信される。PLCを実行するために、第1のデパケット化部(de-packetizing unit)200を設けて、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む少なくとも1つのフレームに各音声パケットをデパケット化でき、パケット損失検出器300を設けてストリーム中のパケット損失を検出できる。パケット損失検出器300をPLC装置の一部と考えてもよいし、考えなくともよい。送信元通信端末の場合、音声ストリームを任意の適切な伝送形式に変換するために、どのような技術を採用してもよい。
伝送形式の一例は、適応直交変換(adaptive orthogonal transform)のような適応変換(adaptive transform)を用いて得ることができ、これによって複数のモノラル成分および空間成分が得られる。例えば、音声フレームは、パラメータによる固有分解に基づいて符号化されたパラメータ固有信号であってよく、少なくとも1つのモノラル成分は、(少なくとも主要固有チャネル成分のような)少なくとも1つの固有チャネル成分を含み、少なくとも1つの空間成分は、少なくとも1つの空間パラメータを含む。さらに例を挙げると、音声フレームは、主成分分析(principle component analysis : PCA)によって分解されてよく、少なくとも1つのモノラル成分は、少なくとも1つの主成分に基づく信号を含んでいてよく、少なくとも1つの空間成分は、少なくとも1つの空間パラメータを含んでいる。
したがって、送信元通信端末には、入力音声信号をパラメータ固有信号に変換するための変換器を備えてよい。「入力形式(input format)」と呼んでよい入力音声信号の形式に応じて、変換器は様々な技術で実現されてよい。
例えば、入力音声信号は、アンビソニックスによるB形式信号であってよく、それに対応する変換器は、KLT(Karhunen−Loeve変換)のような適応変換をB形式信号に対して実行して、固有チャネル成分(これを回転した音声信号と呼んでもよい)と空間パラメータとで構成されるパラメータ固有信号を得ることができる。通常は、LRS(Left, Right and Surround)信号またはその他の人工的にアップミキシングした信号を、一次アンビソニックス形式(B形式)、つまりWXY音場信号(これはWXYZ音場信号であってもよいが、LRSの取り込みを伴う音声通信では水平のWXYのみが考慮される)に変換でき、適応変換は、音場信号の3つのチャネルW、XおよびYをすべて合わせて、情報の重要性が高い順に新たな一連の固有チャネル成分(回転音声信号)Em(m=1、2、3)(つまりE1、E2、E3であり、mの数字はこれより多くても少なくてもよい)に符号化できる。変換は、固有信号の数が3の場合は通常3x3の変換行列(共分散行列など)によって、サイド情報として送られる3つの空間サイドパラメータのセット(d、φおよびθ)で記述でき、このようにして復号化器が逆変換を適用して元の音場信号を再構築できるようにする。パケット損失が伝送中に起きた場合は、固有チャネル成分(回転した音声信号)も空間サイドパラメータも、復号化器に取得されることはできない点に注意されたい。
このようにする代わりに、LRS信号は、パラメータ固有信号に直接変換されてもよい。
前述した符号化構造を適応変換符号化と呼んでよい。前述したように、符号化はKLTなどの任意の適応変換、またはLRS信号からパラメータ固有信号への直接変換などの任意のその他の枠組で実行されてよいが、本明細書では、具体的なアルゴリズムの一例を提供して入力音声信号をパラメータ固有信号に変換する。詳細については、本明細書内の「音声信号の順方向適応変換および逆適応変換」の部を参照されたい。
上記で考察した適応変換符号化では、帯域幅が十分であれば、E1、E2およびE3のすべてがフレーム内で符号化された後、パケットストリーム内でパケット化され、これを独立符号化(discrete coding)と称する。逆に、帯域幅が限られていれば、別の手法を検討してよいが、E1は、知覚的に意味のある/最適化された元の音場のモノラル表現であるのに対し、E2、E3は、擬似的な無相関信号を計算して再構築できるものである。実際の実施形態では、E1とE1の無相関バージョンとに重み付けした組合わせが好ましく、この場合の無相関バージョンは、単にE1の遅延コピーであってよく、重み係数は、E1対E2、およびE1対E3の帯域エネルギーの割合に基づいて計算されてよい。この手法を予測符号化と呼んでよい。詳細については、本明細書内の「音声信号の順方向適応変換および逆適応変換」の部を参照されたい。
次に、入力された音声ストリームでは、各フレームは、モノラル成分の(E1、E2およびE3に対する)周波数領域係数のセットと、量子化されたサイドパラメータとを含み、これを空間成分または空間パラメータと呼んでよい。サイドパラメータは、予測符号化が適用された場合は予測パラメータを含んでいてよい。パケット損失が起きると、独立符号化では、Em(m=1、2、3)と空間パラメータとの両方が伝送過程で損失するが、予測符号化では、損失したパケットは、予測パラメータ、空間パラメータおよびE1の損失につながる。
第1のデパケット化部200の動作は、送信元通信端末でのパケット化部の逆の動作であり、それについての詳細な説明はここでは省略する。
パケット損失検出器300では、任意の既存の技術を採用してパケット損失を検出してよい。一般的な手法は、第1のデパケット化部200によって受信したパケットからパケット/フレームをデパケット化した連続番号を検出することであり、連続番号の不連続は、脱落した連続番号のパケット/フレームが損失したことを指している。連続番号は通常、リアルタイム転送プロトコル(Real-time Transport Protocol : RTP)形式などのVoIPパケット形式で必須のフィールドである。現時点では、1パケットは一般に1つのフレーム(一般に20ms)を含んでいるが、1パケットが2つ以上のフレームを含むことも可能であり、あるいは1つのフレームが複数のパケットに及んでいてもよい。1パケットが損失した場合、そのパケット内の全フレームが損失する。1フレームが損失した場合、1つ以上のパケットが損失した結果であるはずであり、パケット損失補償は一般にフレーム単位で実施される。つまり、PLCは、損失したパケットが原因で損失した(1つまたは複数の)フレームを復元するためのものである。したがって、本明細書の文脈では、パケット損失は一般にフレーム損失と同じことであり、解決策は一般に、例えば損失したパケット内で損失したフレーム数を強調するためにパケットに言及しなければならない場合でない限り、フレームに関して記述される。また、請求項では、「少なくとも1つの音声フレームを含む各音声パケット」という表記は、1つのフレームが2つ以上のパケットに及ぶ状況も範囲に含めると解釈すべきであり、それに対応して、「損失したパケット内で損失したフレーム(a lost frame in a lost packet)」という表記は、少なくとも1つの損失パケットが原因で「2つ以上のパケットに及んでいる少なくとも部分的に損失したフレーム(at least partially lost frame spanning more than one packet)」も範囲に含めると解釈すべきである。
本明細書では、モノラル成分および空間成分に対して別々のパケット損失補償動作を実施することを提案し、そのため、第1の補償部400および第2の補償部600をそれぞれ設ける。第1の補償部400の場合、隣接フレーム内で対応するモノラル成分を複製することによって、損失フレームに対して少なくとも1つのモノラル成分を作成するように構成されてよい。
本明細書の文脈では、「隣接フレーム(adjacent frame)」とは、現在フレーム(損失したフレームであってよい)の直前または直後にあるか、(1つまたは複数の)フレームを間に挟んでいるフレームを意味する。つまり、損失フレームを復元するために、未来フレームか過去フレームのいずれかを使用でき、一般には直近の未来フレームまたは過去フレームを使用できる。直近の過去フレームを「最後のフレーム(the last frame)」と呼んでよい。変形例では、対応するモノラル成分を複製する際に、減衰係数を使用できる。
損失した少なくとも2つの連続フレームがある場合、第1の補償部400は、少なくとも2つの連続フレームのうちの前の方または後の方の損失フレームに対して、(1つまたは複数の)過去フレームまたは(1つまたは複数の)未来フレームをそれぞれ複製するように構成されてよい。つまり、第1の補償部は、減衰係数を用いるか又は用いずに、隣接の過去フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの前の方の損失フレームに対して少なくとも1つのモノラル成分を作成でき、減衰係数を用いるか又は用いずに、隣接の未来フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの後の方の損失フレームに対して少なくとも1つのモノラル成分を作成できる。
第2の補償部600の場合、(1つまたは複数の)隣接フレームの少なくとも1つの空間成分の値を平滑化することによって、あるいは最後のフレーム内の対応する空間成分を複製することによって、損失フレームに対して少なくとも1つの空間成分を作成するように構成されてよい。変形例として、第1の補償部400および第2の補償部は、異なる補償方法を採用してよい。
遅延が許され得るまたは許容され得るいくつかの背景では、損失フレームの空間成分を算出するのに役立てるために未来フレームを使用してもよい。例えば、補間アルゴリズムを使用できる。つまり、第2の補償部600は、少なくとも1つの隣接の過去フレームおよび少なくとも1つの隣接の未来フレームの中の対応する空間成分の値に基づき、補間アルゴリズムを介して損失フレームに対して少なくとも1つの空間成分を作成するように構成されてよい。
少なくとも2つのパケットまたは少なくとも2つのフレームが損失した場合、全損失フレームの空間成分は、補間アルゴリズムに基づいて判断されてよい。
前述したように、考えられる様々な入力形式および伝送形式がある。図4は、パラメータ固有信号を伝送形式として使用する一例を示している。図4に示したように、音声信号は、モノラル成分としての固有チャネル成分および空間成分としての空間パラメータを含むパラメータ固有信号として符号化され、伝送される(符号化側に関する詳細については、「音声信号の順方向適応変換および逆適応変換」の部を参照)。具体的には、例では3つの固有チャネル成分Em(m=1、2、3)、およびそれに対応する空間パラメータ、例えば拡散性d(E1の方向性)、方位角φ(E1の水平方向)、およびθ(3D空間でE2、E3がE1周りを回る回転)などがある。正常に伝送されたパケットの場合、固有チャネル成分および空間パラメータは両方とも(パケット内で)正常に伝送されるのに対し、損失したパケット/フレームの場合、固有チャネル成分および空間パラメータは両方とも損失し、新たな固有チャネル成分および空間パラメータを作成して損失したパケット/フレームの固有チャネル成分および空間パラメータに取って代わるためにPLCが実行される。送信先通信端末で、正常に伝送されるか作成された固有チャネル成分および空間パラメータを直接(例えばバイノーラル音(binaural sound)として)再生できるか、最初に適切な中間出力形式に変換できる場合、この中間出力形式はさらに別の変換を受けるか、あるいは直接再生されてよい。入力形式と同じく、中間出力形式は、任意の実行可能な形式、例えばアンビソニックス(ambisonic)のB形式(WXYまたはWXYZ音場信号)、LRSまたはその他の形式などであってよい。中間出力形式での音声信号は、直接再生されてもよいし、再生デバイスに適応するようにさらに別の変換を受けてもよい。例えば、パラメータ固有信号は、逆のKLTなどの逆適応変換を介してWXY音場信号に変換されてよく(本明細書の「音声信号の順方向適応変換および逆適応変換」の部を参照)、その後、バイノーラルの再生が要求されればバイノーラル音声信号にさらに変換されてよい。これに伴い、本明細書のパケット損失補償装置は、(可能なPLCを受ける)音声パケットに対して逆適応変換を実行して逆変換された音場信号を得るために、第2の逆変換器を備えていてよい。
図4では、第1の補償部400(図3)は、前述したように、かつ下記に示したように、減衰係数を用いるまたは用いない複製などの従来のモノラルPLCを使用できる。
変形例では、連続する損失フレームが複数ある場合、隣接の過去フレームおよび未来フレームを複製することによってその損失フレームを復元できる。最初の損失フレームがフレームpで、最後の損失フレームがフレームqであると仮定すると、前半の損失フレームは、
であり、式中a=0、1、…A−1であり、Aは前半の損失フレームの数である。また、後半の損失フレームは、
であり、式中b=0,1、…B−1であり、Bは後半の損失フレームの数である。AはBと同じであっても異なっていてもよい。上記の2つの式では、減衰係数gは全損失フレームに対して同じ値を採用しているが、異なる損失フレームには異なる値を採用してもよい。
チャネル補償の他に、空間補償も重要である。図4に図示した例では、空間パラメータは、d、φ、およびθで構成されてよい。空間パラメータの安定性は、知覚による連続性を維持する際に極めて重要である。そのため、第2の補償部600(図3)は、空間パラメータを直接平滑化するように構成されてよい。平滑化は、どのような平滑化の手法で実施してもよく、例えば過去の平均値を計算することによって実施できる。
平滑化動作のその他の例には、移動ウィンドウを用いて移動平均値を計算する方法があってよく、この移動ウィンドウは、過去フレームのみをカバーしていてもよいし、過去フレームと未来フレームとの両方をカバーしていてもよい。換言すれば、空間パラメータの値は、隣接フレームに基づいて補間アルゴリズムを介して得ることができる。このような状況では、複数の隣接の損失フレームを同じ補間動作と同時に復元できる。
空間パラメータの安定性が比較的高い、例えば現在フレームpのdが大きな値で検知されたといういくつかの背景では、空間パラメータの単純な複製も効果的となり得るが、PLCの背景ではさらに効果的な手法であり、
マルチチャネルの信号をモノラル成分と空間成分とに分解することで、伝送に柔軟性が加わり、これによってパケット損失への耐性をいっそう向上させることができる。1つの実施形態では、通常モノラル信号成分よりも帯域幅の消費が少ない空間パラメータは、冗長データとして送ることができる。例えば、パケットpの空間パラメータは、パケットpが損失した際にその空間パラメータを隣接のパケットから抽出できるように、パケットp−1またはp+1にピギーバック(piggybacked)されてよい。さらにもう1つの実施形態では、空間パラメータは、冗長データとして送られず、単にモノラル信号成分とは異なるパケットで送られる。例えば、p番目のパケットの空間パラメータは、(p−1)番目のパケットによって伝送される。そのようにする際に、パケットpが損失すれば、その空間パラメータは、パケットp−1が損失していなければこのパケットから回復できる。欠点は、パケットp+1の空間パラメータも損失することである。
上記の実施形態および例では、固有チャネル成分が何の空間情報も含んでいないため、不適切な補償によって生じる空間のゆがみのリスクが少なくなる。
モノラル成分に対するPLC
図4では、描かれているのは、独立符号化されたビットストリーム内で符号化された領域PLCの一例であり、この場合、全固有チャネル成分E1、E2およびE3、全空間パラメータすなわちd、φ、およびθを伝送する必要があり、必要であればPLCのために復元する必要がある。
独立符号化された領域の補償は、符号化E1、E2およびE3に対して帯域幅が十分にある場合に限って検討される。そうでなければ、フレームは、予測符号化の枠組によって符号化されてよい。予測符号化では、1つの固有チャネル成分のみ、つまり主要固有チャネルE1が実際に伝送される。復号化側では、E2およびE3などの他の固有チャネル成分は、予測パラメータを用いて予測され、例えばE2にはa2、b2、E3にはa3およびb3が用いられる(予測符号化の詳細については、本明細書の「音声信号の順方向適応変換および逆適応変換」の部を参照)。図6に示したように、この背景では、E2とE3に対して別々の種類の無相関器を設ける(PLC用に伝送または復元される)。したがって、E1が(PLCで)無事に伝送または復元されている限り、他の2つのチャネルE2およびE3は、無相関器を組み合わせたものを介して直接予測/構築できる。この予測PLCのプロセスは、予測パラメータの計算を1回追加するだけで、計算負荷のほぼ3分の2をなくせるものである。その上、E2およびE3を伝送する必要はないため、ビットレートの効率が改善される。図6の他の部分は、図4のものと同様である。
したがって、図5に示したような第1の補償部400の特徴であるパケット損失補償装置の実施形態の変形例では、フレーム内の少なくとも1つのモノラル成分、フレーム内の少なくとも1つの他のモノラル成分に基づいて、予測するために使用される少なくとも1つの予測パラメータを各音声フレームがさらに含んでいる場合、第1の補償部400は、モノラル成分および予測パラメータに対してそれぞれPLCを実行するためのサブ補償部を2つ備えていてよく、この2つはつまり、損失フレームに対して少なくとも1つのモノラル成分を作成するための主補償部408と、損失フレームに対して少なくとも1つの予測パラメータを作成するための第3の補償部414である。
主補償部408は、上記で考察した第1の補償部400と同じように作用できる。換言すれば、主補償部408は、損失フレームに対して何らかのモノラル成分を作成するための第1の補償部400の核部分とみなしてよく、ここでは主要モノラル成分を作成するためだけに構成される。
第3の補償部414は、第1の補償部400または第2の補償部600と同様に作用できる。つまり、第3の補償部は、減衰係数を用いるか用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは、(1つまたは複数の)隣接フレームの対応する予測パラメータの値を平滑化することによって、損失フレームに対して少なくとも1つの予測パラメータを作成するように構成される。フレームi+1、i+2、…、j−1が損失したと仮定すると、フレームk内で喪失している予測パラメータを以下のように平滑化できる。
ここで、aおよびbは予測パラメータである。
サーバ内の場合で、かつ音声ストリームが1つのみある場合、ミキシング動作は不要なため、予測復号化をサーバ内で必ずしも実施する必要はなく、そのため、作成されたモノラル成分および作成された予測パラメータを直接パケット化して送信先通信端末に転送でき、この場合、予測復号化はデパケット化の後に実施されるが、例えば図6の逆KLTよりも前に実施される。
送信先通信端末の場合、または複数の音声ストリームに対するミキシング動作がサーバ内で必要な場合、予測復号化器410(図5)は、主補償部408によって作成された(1つまたは複数の)モノラル成分、および第3の補償部414によって作成された予測パラメータに基づいて他のモノラル成分を予測できる。実際、予測復号化器410は、正常に伝送された(損失していない)フレームに対する正常に伝送された(1つまたは複数の)モノラル成分および(1つまたは複数の)予測パラメータにも作用できる。
一般に、予測復号化器410は、同じフレーム内の主要モノラル成分およびその無相関バージョンに基づいて、もう1つのモノラル成分を予測パラメータを用いて予測できる。具体的に損失フレームの場合、予測復号化器は、作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分およびその無相関バージョンに基づいて、損失フレームに対する少なくとも1つの他のモノラル成分を予測できる。この動作を以下のように表せる。


または
ここでは、モノラル成分の連続数に基づいて算出された過去フレームを使用し、これはつまり、固有チャネル成分(固有チャネル成分は、その重要性に基づいて配列される)などの重要性の低いモノラル成分に対しては前の方のフレームが使用されるということである点に注意されたい。ただし、本明細書はこれに限定されない。
予測復号化器410の動作は、E2およびE3の予測符号化とは逆のプロセスである点に注意されたい。予測復号化器410の動作に関するこれ以上の詳細については、本明細書の「音声信号の順方向適応変換および逆適応変換」の部を参照されたいが、本明細書はこれに限定されない。
式(1)で前述したように、損失フレームの場合、主要モノラル成分は、単に最後のフレーム内の主要モノラル成分を複製することによって作成されてよく、つまり、
である。式(1’)は、m=1のときの式(1)であり、以下の考察を簡易化する目的で、最後のフレームに対する主要モノラル成分も正常に伝送されたのではなく作成されたものと仮定する点に注意されたい。
式(1’)と式(5’)とを組み合わせた解決法は、ある程度有効である可能性があるが、いくつかの欠点がある。式(1’)および式(5’)から、以下を導くことができる。
であり、
である。つまり、
上式に基づいて、以下のようになる。

この再相関を回避するためには、反復または複製を回避しなければならない。このようにするために、本明細書では、図7の実施形態に示し、図8に示した例に示したように、時間領域のPLCを設ける。
図7に示したように、第1の補償部400は、損失フレームよりも前の少なくとも1つの過去フレームにある少なくとも1つのモノラル成分を時間領域信号に変換するための第1の変換器402と、時間領域信号に関するパケット損失を補償して、パケット損失を補償した時間領域信号にするための時間領域補償部404と、パケット損失を補償した時間領域信号を少なくとも1つのモノラル成分の形式に変換して、損失フレーム内の少なくとも1つのモノラル成分に対応する作成後のモノラル成分にするための第1の逆変換器406とを備えていてよい。
時間領域補償部404は、過去フレームまたは未来フレーム内の時間領域信号を単純に複製するなどの多くの既存の技術で実現されてよく、これについてはここでは省略する。
上記の例では、損失フレームの補償には、符号化の枠組が重複変換(MDCT)のため、2つの以前のフレームが必要である。非重複変換を用いる場合、時間領域フレームと周波数領域フレームは、1対1で対応する。そのため、損失フレームの補償には、1つ前のフレームで十分である。
E2およびE3の場合、同様のPLC動作を実施してよいが、本明細書ではいくつかの他の解決策も提供し、これについては以下の部分で考察していく。
上記で考察したPLCアルゴリズムの計算負荷は比較的大きい。したがって、いくつかの事例では、計算負荷を軽くするための措置を講じてよい。1つは、後に考察するように、E1に基づいてE2およびE3を予測することであり、もう1つは、時間領域PLCを他のより簡易な方法と組み合わせることである。
例えば、複数の連続するフレームが損失した場合、いくつかの損失フレーム、一般には前半の損失フレームは、時間領域PLCを用いて補償できるのに対し、残りの損失フレームは、伝送形式の周波数領域を複製するなどのより簡易な方法で補償できる。したがって、第1の補償部400は、隣接する未来フレーム内に対応するモノラル成分を、減衰係数を用いるか用いずに複製することによって、少なくとも1つの後の損失フレームに対する少なくとも1つのモノラル成分を作成するように構成されてよい。
上記の説明では、重要性の低い固有チャネル成分の予測符号化/復号化と、いずれか任意の1つの固有チャネル成分に対して使用できる時間領域PLCとの両方について考察した。時間領域PLCは、予測符号化(予測KLT符号化など)を採用している音声信号に対する複製系のPLCで再相関が起きるのを回避するために提案されるが、他の背景で適用されてもよい。例えば、非予測(独立)符号化を採用している音声信号に対する場合であっても、時間領域PLCを使用してもよい。
モノラル成分に対する予測PLC
図9A、図9Bおよび図10に示した一実施形態では、独立符号化が採用されるため、各音声フレームは、E1、E2およびE3などのモノラル成分を少なくとも2つ含んでいる(図10)。図4と同様に、損失フレームの場合、パケット損失が原因で固有チャネル成分はすべて損失していて、PLCプロセスを受ける必要がある。図10の例に示したように、主要固有チャネル成分E1などの主要モノラル成分は、複製などの通常の補償の枠組または上記で考察した時間領域PLCなどの他の枠組で作成/復元できるが、重要性の低い固有チャネル成分E2およびE3などの他のモノラル成分は、上記の部で考察した予測復号化と同様の手法で、(図10の破線矢印で示したように)主要モノラル成分に基づいて作成/復元でき、よってこの手法を「予測PLC」と呼んでよい。図10の他の部分は図4のものと同様のため、これについての詳細な説明はここでは省略する。
具体的には、式(5)、(5’)および(5’’)の以下の変形式を用いて、減衰係数gを加えるか加えずに、重要性の低いモノラル成分を予測できる。
1つの方法が、損失フレームに対して作成された1つのモノラル成分に該当する過去フレーム内のモノラル成分を、作成された1つのモノラル成分の無相関バージョンとみなすことであり、過去フレーム内のモノラル成分が正常に伝送されたかどうか、あるいは主補償部408によって作成されたかどうかは問題ではない。つまり、
または
非予測/独立符号化の問題は、正常に伝送された隣接フレームに対してであっても予測パラメータがないことである。したがって、予測パラメータは他の方法で得る必要がある。本明細書では、過去フレーム、一般には最後のフレームのモノラル成分に基づいて予測パラメータを計算でき、過去フレームまたは最後のフレームが正常に伝送されたかどうか、またはPLCで復元されたかどうかは問題ではない。
したがって、実施形態によれば、第1の補償部400は、図9に示したように、損失フレームに対する少なくとも2つのモノラル成分のうちの1つを作成するための主補償部408と、過去フレームを用いて損失フレームに対する少なくとも1つの予測パラメータを計算するための予測パラメータ計算器412と、作成された少なくとも1つの予測パラメータを用いて作成された1つのモノラル成分に基づいて、損失フレームの少なくとも2つのモノラル成分の少なくとも1つのもう一方のモノラル成分を予測するための予測復号化器410とを備えていてよい。
主補償部408および予測復号化器410は、図5のものと同様であり、その詳細な説明はここでは省略する。
予測パラメータ計算器412は、どのような技術で実現してもよいが、実施形態の一変形例では、損失フレーム以前の最後のフレーム(the last frame before the lost frame)を用いることによって予測パラメータを計算することを提案する。以下の式は具体的な例を示しているが、これは本明細書を限定するものではない。
ここで、記号は、以前と同じ意味であり、norm()はRMS(根平均二乗)演算を指し、上付き文字Tは転置行列を表す。式(9)は、「音声信号の順方向適応変換および逆適応変換」の部の式(19)および(20)に対応し、式(10)は、同部の式(21)および(22)に対応していることに注意されたい。相違点は、式(19)〜(22)は符号化側で使用され、それによって予測パラメータは同じフレームの固有チャネル成分に基づいて計算されるのに対し、式(9)および(10)は、予測PLCに対して、具体的には作成/復元された主要固有チャネル成分から重要性の低い固有チャネル成分を「予測する」ために、復号化側で使用され、したがって、予測パラメータは、以前のフレームの固有チャネル成分から計算され(正常に伝送されたかどうか、またはPLC過程で作成/復元されたかに関わらず)、
が使用される点である。いずれにしても、基本原理である式(9)および(10)ならびに式(19)〜(22)はほぼ同じであり、その詳細およびその変形例については、以下で言及する「ダッカー(ducker)」スタイルのエネルギー調整(energy adjustment)を含め、「音声信号の順方向適応変換および逆適応変換」の部を参照されたい。式どうしの相違点に関して前述したのと同じ規則に基づいて、「音声信号の順方向適応変換および逆適応変換」の部に記載した他の解決法または式を、この部で記載した予測PLCに適用できる。単純に言えば、その規則とは、前のフレーム(最後のフレームなど)に対する(1つまたは複数の)予測パラメータを生成し、それを予測パラメータとして使用して、損失フレームに対する重要性の低い(1つまたは複数の)モノラル成分(固有チャネル成分)を予測することである。
換言すれば、予測パラメータ計算器412は、パラメータ符号化部104と同じように実現されてよく、これについては後述する。
推定されたパラメータの急激な変動を避けるため、上記で推定された予測パラメータは、何らかの技術を用いて平滑化されてよい。具体的な例では、「ダッカー」スタイルのエネルギー調整を行うことができ、これを以下の式ではduck()で表し、このようにして、特に音声と無音との間、またはスピーチと音楽との間の移行領域で、補償された信号のレベルが急速に変化するのを避ける。
式(11)は、簡易バージョン(式(36)および(37)に対応)に置き換えられてもよい。
上記で考察した実施形態では、各損失フレームに対して(1つまたは複数の)予測パラメータを、予測復号化器410に使用される予測パラメータ計算器412で計算でき、使用した過去フレームである予測パラメータ計算器412で計算するための基礎(basis)が、正常に伝送されたフレームであるか、または損失してから復元(作成)されたフレームであるかどうかは問題ではない。
予測パラメータの計算に関して上記に簡潔な説明を挙げたが、本明細書はこれに限定されない。実際、「音声信号の順方向適応変換および逆適応変換」の部で考察したようなアルゴリズムを参照して、さらに多くの変形例を検討できる。
一変形例では、図9Aに示したように、前の部で考察したものと同様の第3の補償部で、予測符号化の枠組で損失した予測パラメータを補償するのに使用した第3の補償部414をさらに備えてよい。そのため、損失フレーム以前の最後のフレームに対して少なくとも1つの予測パラメータが計算された場合、第3の補償部414は、最後のフレームに対する少なくとも1つの予測パラメータに基づいて、損失フレームに対する少なくとも1つの予測パラメータを作成できる。図9Aに示した解決法は、予測符号化の枠組にも適用できることに注意されたい。つまり、図9Aの解決法は一般に、予測符号化の枠組みにも非予測符号化の枠組にも両方適用可能ということである。予測符号化の枠組の場合(よって正常に伝送された過去フレーム内には(1つまたは複数の)予測パラメータが存在する)、第3の補償部414は、第1の損失フレームに対して(予測パラメータを含む隣接した過去フレームなしで)非予測符号化の枠組で動作し、予測パラメータ計算器412は、第1の損失フレームに続く(1つまたは複数の)損失フレームに対して非予測符号化の枠組で動作するが、予測パラメータ412か第3の補償部414のいずれかが動作できる。
したがって、図9Aでは、予測パラメータ計算器412は、予測パラメータが含まれていない、あるいは損失フレーム以前の最後のフレームに対して作成/計算されていない場合に、以前のフレームを用いて損失フレームに対する少なくとも1つの予測パラメータを計算するように構成されてよく、予測復号化器410は、計算または作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて損失フレームに対して少なくとも2つのモノラル成分のうちの少なくとも1つのもう一方のモノラル成分を予測するように構成されてよい。
上記で考察したように、第3の補償部414は、減衰係数を用いるか又は用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは(1つまたは複数の)隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、損失フレームに対する少なくとも1つの予測パラメータを作成するように構成されていてよい。
図9Bに示したようなさらに別の変形例では、この部で考察した予測PLCと、非予測PLC(図7を参照して考察した単純な複製またはPLCの枠組などを含め、「総合的な解決法」の部で考察したものなど)とを組み合わせることができる。つまり、重要性の低いモノラル成分に対して、非予測PLCと予測PLCとの両方を実行でき、得られた結果を組み合わせて、2つの結果を重み付けした平均値など、最終的に作成されたモノラル成分を得る。このプロセスを、一方の結果をもう一方の結果と調整するものとみなしてもよく、重み係数は、どちらが優勢かを判断し、具体的な背景に応じて設定されてよい。
したがって、図9Bに示したように、第1の補償部400では、主補償部408は、少なくとも1つのもう一方のモノラル成分を作成するようにさらに構成されてよく、第1の補償部400は、予測復号化器410によって予測された少なくとも1つのもう一方のモノラル成分を、主補償部408によって作成された少なくとも1つのもう一方のモノラル成分と調整するための調整部416をさらに備えている。
空間成分に対するPLC
「総合的な解決法」の部では、空間パラメータd、φ、θなどの空間成分に対するPLCについて考察した。空間パラメータの安定性は、知覚による連続性を維持する際に極めて重要である。これは、「総合的な解決法」の部で直接パラメータを平滑化することで達成される。もう1つの独立した解決法として、または「総合的な解決法」の部で考察したPLCを補足する態様として、空間パラメータへの平滑化動作を符号化側で実施できる。このように、空間パラメータは符号化側で平滑化されているため、次に復号化側では、空間パラメータに関するPLCの結果がさらに平滑かつ安定する。
同様に、平滑化動作は、空間パラメータへ直接実行されてよい。しかし本明細書では、空間パラメータに由来する変換行列の要素を平滑化することによって、空間パラメータを平滑化することをさらに提案する。
「総合的な解決法」の部で考察したように、モノラル成分および空間成分は、適応変換を用いて導き出すことができ、1つの重要な例が、すでに考察したKLTである。このような変換では、入力形式(WXYやLRSなど)は、KLTで符号化する際の共分散行列などの変換行列を介して、回転した音声信号(KLTで符号化する際の固有チャネル成分など)に変換されてよい。また、空間パラメータd、φ、θは、変換行列から導き出される。そのため、変換行列が平滑化されている場合、空間パラメータは平滑化される。
ここでまた、以下に示す移動平均または過去平均などの様々な平滑化動作を適用できる。
ここで、Rxx_smooth(p)は、平滑化後のフレームpの変換行列であり、Rxx_smooth(p−1)は、平滑化後のフレームp−1の変換行列であり、Rxx(p)は、平滑化前のフレームpの変換行列である。αは重み係数で、(0.8,1]の範囲を有するか、あるいはフレームpの拡散性などのその他の物理的特性に基づいて適応するように生成される。
したがって、図11に示したように、入力形式の空間音声信号を伝送形式のフレームに変換するための第2の変換器1000を設ける。ここでは、各フレームは、少なくとも1つのモノラル成分および少なくとも1つの空間成分を備えている。第2の変換器は、入力形式の空間音声信号の各フレームを、変換行列を介して入力形式の空間音声信号のフレームに関連付けられた少なくとも1つのモノラル成分に分解するための適応型変換器1002と、変換行列の各要素の値を平滑化して、現在フレームに対して平滑化した変換行列にするための平滑化部1004と、平滑化した変換行列から少なくとも1つの空間成分を導き出すための空間成分抽出器1006とを備えていてよい。
共分散行列を平滑化すると、空間パラメータの安定性を大幅に改善できる。これによって、「総合的な解決法」の部で考察したように、PLCの文脈において効果的かついっそう効率的な手法として、空間パラメータの単純な複製が可能になる。
共分散行列を平滑化してそこから空間パラメータを導き出すことについてのこれ以上の詳細は、「音声信号の順方向適応変換および逆適応変換」の部に記載する。
音声信号の順方向適応変換および逆適応変換
この部は、本明細書の目的に対処する例の音声信号としての役割を果たす、パラメータ固有信号などの伝送形式でどのように音声フレームを得て、対応する音声の符号化器および復号化器を得るかについてのいくつかの例を挙げるためのものである。ただし、本明細書は、明確にこれに限定されるものではない。上記で考察したPLCの装置および方法は、音声復号化器よりも前にサーバなどに配置または実現されてもよいし、送信先通信端末などにある音声復号化器に組み込まれてもよい。
この部をさらに明瞭に説明するため、いくつかの用語は前の部で使用した用語と完全に同じではないが、その対応関係を必要に応じて以下で取り挙げる。2次元空間の音場は、通常3つのマイクロフォンアレイ(「LRS」)で取り込まれ、その後、2次元のB形式(「WXY」)で表される。2次元のB形式(「WXY」)は、音場信号の一例であり、特に3チャネルの音場信号の一例である。2次元のB形式は通常、X方向およびY方向の音場を表すが、Z方向(高さ)の音場は表さない。このような3チャネルの空間音場信号は、独立したパラメータによる手法を用いて符号化できる。独立的手法は、比較的高い動作ビットレートで効果的であることがわかっているのに対し、パラメータによる手法は、比較的低いレート(例えば1チャネルあたり24kビット/秒以下)で効果的であることがわかっている。この部では、パラメータによる手法を用いる符号化システムを説明する。
パラメータによる手法は、音場信号の階層化伝送の点で新たな利点を有する。パラメータ符号化の手法は通常、ダウンミックス信号(down-mix signal)の生成および1つ以上の空間信号を記述する空間パラメータの生成を伴う。空間信号のパラメータによる記述は、一般に、独立符号化の背景で必要なビットレートよりも低いビットレートを必要とする。したがって、所定のビットレートには制約があるため、パラメータによる手法の場合、ダウンミックス信号の独立符号化のためにさらに多くのビットを費やすことができ、空間パラメータのセットを用いてダウンミックス信号から音場信号を再構築できる。したがって、ダウンミックス信号は、音場信号の各チャネルを別々に符号化するのに使用されるビットレートよりも高いビットレートで符号化できる。その結果、ダウンミックス信号は、知覚面の質(perceptual quality)が高いことがある。空間信号のパラメータ符号化のこの特徴は、階層化符号化を伴う適用例で、遠隔会議システムでモノラルのクライアント(または端末)と空間のクライアント(または端末)とが共存する場合に有益である。例えば、モノラルのクライアントの場合、ダウンミックス信号は、モノラルの出力をレンダリングするのに使用できる(完全な音場信号を再構築するのに使用される空間パラメータは無視する)。換言すれば、モノラルのクライアントに対するビットストリームは、空間パラメータに関連する完全な音場のビットストリームからビットを取り除くことで得ることができる。
パラメータによる手法の背後にある考えは、モノラルのダウンミックス信号に、知覚的に適切な(3チャネルの)音場信号の近似を復号化器で再構築できる空間パラメータのセットを加えて送ることである。ダウンミックス信号は、非適応ダウンミキシング手法および/または適応ダウンミキシング手法を用いて、符号化されることになっている音場信号から導き出すことができる。
ダウンミックス信号を導き出すための非適応方法は、固定された可逆変換を使用することを含んでいてよい。このような変換の一例が、「LRS」の表記を2次元のB形式(「WXY」)に変換する行列である。この場合、成分Wは、成分Wの物理的特性が理由で、ダウンミックス信号には合理的な選択である可能性がある。音場信号の「LRS」の表現は、3つのマイクロフォンのアレイによって取り込まれたものであり、各々のアレイは、カージオイドの極性パターン(cardioid polar pattern)を有すると仮定できる。このような場合、B形式の表現のW成分は、(仮想の)無指向性マイクロフォンによって取り込まれた信号に相当する。仮想の無指向性マイクロフォンは、音源の空間位置に対して実質的に反応しない信号を提供し、よってロバストで安定したダウンミックス信号を提供する。例えば、音場信号によって表現される主要音源の角度位置は、W成分に影響を及ぼさない。B形式への変換は可逆的であり、「W」および他の2つの成分、すなわち「X」および「Y」があれば、音場の「LRS」表現を再構築できる。したがって、(パラメータによる)符号化は、「WXY」領域で実施されてよい。さらに一般的に言えば、前述した「LRS」領域を、取り込まれた領域と呼んでよく、すなわちこれは、(マイクロフォンアレイを用いて)その中で音場信号が取り込まれる領域であることに注意すべきである。
非適応ダウンミキシングを用いたパラメータ符号化の利点は、ダウンミックス信号には安定性とロバスト性があるため、そのような非適応手法は、「WXY」領域で実施された予測アルゴリズムに対してロバストな基盤となるという事実によるものである。非適応ダウンミキシングを用いたパラメータ符号化に生じ得る欠点は、非適応ダウンミキシングは通常、雑音が多く、多くの反響音を伴うという点である。そのため、「WXY」領域で実施される予測アルゴリズムは性能が低くなることがある。なぜなら、「W」信号は通常、「X」信号および「Y」信号とは異なる特徴を有するからである。
ダウンミックス信号の作成に対する適応手法は、音場信号の「LRS」表現の適応型変換を実施することを含んでいてよい。このような変換の一例がKarhunen−Loeve変換(KLT)である。この変換は、音場信号のチャネル間の共分散行列の固有値分解を実施することによって導き出される。考察した事例では、「LRS」領域におけるチャネル間の共分散行列を使用してよい。次に適応変換を使用して信号の「LRS」表現を固有チャネルのセットに変換でき、このセットを「E1 E2 E3」と表記できる。高い符号化利得は、「E1 E2 E3」表現に符号化を適用することによって達成できる。パラメータ符号化手法の事例では、「E1」成分は、モノラルのダウンミックス信号としての役割を果たすことができる。
このような適応型ダウンミキシングの枠組の利点は、固有領域が符号化に好都合である点である。原則的に、固有チャネル(または固有信号)を符号化する際に、レートと歪みとの最適なトレードオフを達成できる。理想的な事例では、固有チャネルは、完全に無相関化されていて、互いに独立して符号化されることができ、(組み合わせた符号化と比較して)性能の損失がない。その上、信号E1は通常、「W」信号よりも雑音が少なく、通常は含まれる反響音が少ない。しかしながら、適応型ダウンミキシングの対策にも欠点がある。第1の欠点は、適応型ダウンミキシングの変換が符号化器および復号化器に認識されていなければならず、したがって、適応型ダウンミキシングの変換の指標であるパラメータが符号化されて伝送されなければならないということに関連している。固有信号E1、E2およびE3の無相関化に対する目標を達成するために、適応変換を比較的高い頻度で更新する必要がある。適応伝送を定期的に更新すると、計算上の複雑さが増すことになり、変換の記述を復号化器に伝送するためのビットレートが必要になる。
適応手法に基づくパラメータ符号化の第2の欠点は、E1系のダウンミックス信号の不安定性に起因していることがある。不安定性は、ダウンミックス信号E1を提供する基盤となる変換が信号適応型であり、したがって変換が時間によって変化するということに起因していることがある。KLTの変形例は通常、信号源の空間特性によって異なる。このように、入力信号の種類によっては、複合的に話者が音場信号で表現される複数の話者がいる背景などでは特に困難になることがある。適応手法が不安定になるもう1つの原因は、音場信号の「LRS」表現を取り込むのに使用されるマイクロフォンの空間特徴に起因していることがある。通常、極性パターン(例えばカージオイド)を有する指向性マイクロフォンアレイを使用して音場信号を取り込む。このような場合、「LRS」で表現されている音場信号のチャネル間の共分散行列は、(例えば複数の話者がいる背景で)信号源の空間特性が変化した場合は、著しく変化することがあり、KLTによる結果も同様である。
本明細書では、前述した適応型ダウンミキシング手法の安定性の問題に対処するダウンミキシング手法について記載している。記載したダウンミキシングの枠組では、非適応ダウンミキシング方法の利点と適応ダウンミキシング方法の利点とを組み合わせる。特に、適応ダウンミックス信号、例えば「ビーム形成された(beamformed)」信号を明らかにすることを提案し、この信号は、主に音場信号の優勢成分を含み、非適応ダウンミキシング方法を用いて導き出されたダウンミックス信号の安定性を維持する。
「LRS」表現から「WXY」表現への変換は可逆的なものだが、正規直交のものではないことに注意すべきである。したがって、符号化の文脈では(例えば量子化が理由で)、「LRS」領域でのKLTの適用と「WXY」領域領域でのKLTの適用とは常に同じではない。WXY表現の利点は、音源の空間特性の観点からロバストである成分「W」を含んでいるということに関連している。「LRS」表現では、全成分が、音源の空間的な変化性に対して通常等しく反応する。逆に、WXY表現の「W」成分は通常、音場信号内の主要音源の角度位置とは無関係である。
さらに、音場信号の表現に関わらず、音場信号の少なくとも1つの成分が空間的に安定している変換後の領域でKLTを適用することが有益であると言える。このように、音場の表現を、音場信号の少なくとも1つの成分が空間的に安定している領域に変換することが有益となり得る。続いて、少なくとも1つの成分信号が空間的に安定している領域で適応変換(KLTなど)を用いてよい。換言すれば、音場アレイを取り込むのに使用されるマイクロフォンアレイのマイクロフォンの極性パターンの特性のみに左右される非適応型変換の使用法は適応変換と組み合わせられ、この変換は、非適応変換領域の音場信号の、チャネル間で時間に応じて変化する共分散行列に左右される。いずれの変換も(すなわち非適応型変換および適応型変換)可逆的であることに注意する。換言すれば、提案した2つの変換を組み合わせたものから得る利益は、この2つの変換が両方ともいかなる場合でも可逆的であることが保証され、したがってこの2つの変換によって音場信号の効果的な符号化が可能になる点である。
このように、取り込まれた領域(例えば「LRS」領域)から取り込まれた音場信号を非適応変換領域(例えば「WXY」領域)に変換することを提案する。続いて、非適応変換領域内の音場信号に基づいて適応変換(例えばKLT)を算出できる。音場信号は、適応変換(例えばKLT)を用いて適応変換領域(例えば「E1E2E3」領域)に変換されてよい。
以下では、パラメータ符号化の様々な枠組を記載する。符号化の枠組では、予測系および/またはKLT系のパラメータ化を使用できる。パラメータ符号化の枠組を、前述したダウンミキシングの枠組と組み合わせ、コーデックのレートと質との全体的なトレードオフを改善することを狙いとする。
図22は、例示的な符号化システム1100のブロック図である。図示したシステム1100は、符号化システム1100の符号化器内部に通常備わっている構成要素120と、符号化システム1100の復号化器内部に通常備わっている構成要素130とを備えている。符号化システム1100は、「LRS」領域から「WXY」領域への(可逆的かつ/または非適応)変換部101を備え、その後に、エネルギーが集中する正規直交(適応)変換(例えばKLT変換)部102を備える。取り込み用マイクロフォンアレイ(例えば「LRS」領域)の領域にある音場信号110は、安定したダウンミックス信号(例えば「WXY」領域内の信号「W」)を備えている領域で、非適応変換101によって音場信号111に変換される。続いて、音場信号111は、無相関変換部102を用いて、無相関化されたチャネルまたは信号(例えばチャネルE1、E2、E3)を含む音場信号112に変換される。
第1の固有チャネルE1 113を使用して、他の固有チャネルE2およびE3をパラメータによって符号化できる(パラメータ符号化であり、前段の部では「予測符号化」とも呼んだ)。しかし、本明細書はこれに限定されない。もう1つの実施形態では、E2およびE3は、パラメータによって符号化できず、E1と同じように符号化されるだけである(独立手法であり、前段の部では「非予測/独立符号化」とも呼んだ)。ダウンミックス信号E1は、ダウンミキシング符号化部103を用いて、単一チャネルの音声および/またはスピーチ符号化の枠組を用いて符号化されてよい。復号化されたダウンミックス信号114(これは対応する復号化器でも利用可能である)を用いて、固有チャネルE2およびE3をパラメータによって符号化できる。パラメータ符号化は、パラメータ符号化部104で実施されてよい。パラメータ符号化部104は、予測パラメータのセットを提供でき、このセットは、復号化された信号E1 114から信号E2およびE3を再構築するために使用されてよい。この再構築は通常、対応する復号化器で実施される。さらに、復号化動作は、再構築されたE1信号と、パラメータによって復号化されたE2およびE3信号(符号115)とを使用することを含むほか、逆の正規直交変換(例えば逆KLT)105を実施して、再構築された音場信号116を非適応変換領域(例えば「WXY」領域)にもたらすことを含む。逆の正規直交変換105に続いて変換106(例えば逆の非適応変換)を行って、再構築された音場信号117を、取り込まれた領域(例えば「LRS」領域)にもたらす。変換106は通常、変換101の逆変換に相当する。再構築された音場信号117は、音場信号をレンダリングするように構成されているテレビ会議システムの端末によってレンダリングされてよい。テレビ会議システムのモノラルの端末は、再構築されたダウンミックス信号E1114を(音場信号117を再構築する必要なく)直接レンダリングできる。
高質な符号化を達成するためには、サブ帯域領域でパラメータ符号化を適用することが有益である。時間領域信号は、時間−周波数(T−F)変換、例えばMDCT(修正離散コサイン変換)などの重複したT−F変換などを用いてサブ帯域領域に変換できる。変換101、102は線形のため、T−F変換は、原則として、取り込まれた領域(例えば「LRS」領域)、非適応変換領域(例えば「WXY」領域)または適応変換領域(例えば「E1E2E3」領域)に等しく適用できる。このように、符号化器は、T−F変換を実施するように構成されたユニット(例えば図23Aのユニット201)を備えていてよい。
符号化システム1100を使用して生成される3チャネル音場信号110のフレームの記述は、例えば2つの成分を含んでいる。1つの成分は、少なくともフレーム単位で適応されるパラメータを含んでいる。もう1つの成分は、1チャネルの、モノラルコーダ(例えば変換に基づいた音声および/またはスピーチコーダ)を用いることによって、ダウンミックス信号113(例えばE1)に基づいて得られるモノラルの波形の記述を含んでいる。
復号化動作は、1チャネルのモノラルのダウンミックス信号(例えばE1ダウンミックス信号)を復号化することを含む。そのため、再構築されたダウンミックス信号114は、パラメータ化のパラメータを用いて(例えば予測パラメータを用いて)残りのチャネル(例えばE2およびE3信号)を再構築するのに使用される。続いて、再構築された固有信号E1、E2およびE3115は、変換102の無相関化を記述している伝送されたパラメータを用いて(例えばKLTパラメータを用いて)、非適応変換領域(例えば「WXY」領域)に交代で戻る。取り込まれた領域内の再構築された音場信号117は、「WXY」信号116を元の「LRS」領域117に変換することによって得られてよい。
図23Aおよび図23Bは、例示的な符号化器1200および例示的な復号化器250それぞれのさらに詳細なブロック図である。図示した例では、符号化器1200は、非適応変換領域内にある音場信号111(のチャネル)を周波数領域に変換するように構成されたT−F変換部201を備え、これによって、音場信号111に対してサブ帯域信号211をもたらす。このように、図示した例では、音場信号111の適応変換領域への変換202は、音場信号111の異なるサブ帯域信号211で実施される。
以下では、符号化器1200および復号化器250の様々な構成要素について説明する。
上記で述べたように、符号化器1200は、取り込まれた領域(例えば「LRS」領域)から得た音場信号110を非適応変換領域(例えば「WXY」領域)内で音場信号111に変換するように構成された第1の変換部101を備えていてよい。「LRS」領域から「WXY」領域への変換は、変換[WXY]=M(g)[LRS]によって実施されてよく、変換行列M(g)は以下によって求められ、
ここで、g>0は有限定数である。g=1であれば、適正な「WXY」表現が得られるが(すなわち2次元のB形式の定義に従って)、他の値gを検討してよい。
KLT102は、それが適用されている信号の時間とともに変化する統計特性に対して十分頻繁に適応できる場合に、レート歪み率を提供する。しかしながら、KLTを頻繁に適応させると、符号化アーチファクトが生じるおそれがあり、これは知覚面での質を低下させる。レート歪み率と生じたアーチファクトとの良好なバランスは、(上記ですでに述べたように)KLT変換を「LRS」領域で音場信号110に適用する代わりに、KLT変換を「WXY」領域で音場信号111に適用することによって得られることが実験から明らかになった。
変換行列M(g)のパラメータgは、KLTを安定化させるという意味で有用であることがある。上記に述べたように、KLTは実質的に安定していることが望ましい。g≠sqrt(2)を選択することにより、変換行列M(g)は直交せず、W成分は(g>sqrt(2)の場合に)際立つ、あるいは(g<sqrt(2)の場合に)際立たなくなる。これは、KLTに対して安定効果を有する可能性がある。g≠0であればいかなる場合も、変換行列M(g)は常に可逆的であり、よって符号化が容易になる(逆行列M−1(g)が存在し、これを復号化器250で使用できることによる)点に注意すべきである。しかしながら、g≠sqrt(2)であれば、(変換行列M(g)が直交していないため)(レートと歪みのトレードオフの点での)符号化の効率は通常低下する。したがって、符号化の効率とKLTの安定性との間のトレードオフを改善するために、パラメータgを選択すべきである。実験の過程では、g=1(よって「WXY」領域への「適正な」変換)で、符号化の効率とKLTの安定性との間のトレードオフが妥当なものになることが明らかになった。
次のステップでは、「WXY」領域の音場信号111が分析される。まず、チャネル間の共分散行列は、共分散推定部203を用いて推定されてよい。この推定は、(図23Aに示したように)サブ帯域領域で実施されてよい。共分散推定器203は、チャネル間の共分散の推定を改善すること、および推定が実質的に時間に応じて変化可能であることによって起こり得る問題を削減する(例えば最小にする)ことを狙いとする平滑化処理を含んでいてよい。このように、共分散推定部203は、音場信号111のフレームの共分散行列の平滑化をタイムラインに沿って実施するように構成されてよい。
さらに、共分散推定部203は、共分散行列を対角化する正規直交変換Vをもたらす固有値分解(EVD : eigen value decomposition)を用いてチャネル間の共分散行列を分解するように構成されてよい。変換Vにより、「WXY」チャネルを、固有チャネル「E1 E2 E3」を含む固有領域に回転させるのが容易になり、これは下式によるものである。
変換Vは信号適応性であり、復号化器250で逆になるため、変換Vは、効率的に符号化される必要がある。変換Vを符号化するために、以下のパラメータ化を提案する。
提案したパラメータ化は、変換Vの(1,1)要素の符号に制約を課すことに注意されたい(すなわち(1,1)要素は常に正である必要がある)。このような制約を導入することが有利であり、このような制約で性能損失が起こることは一切ない(達成した符号化利得の点で)ことを示すことができる。パラメータd、φ、θで記述される変換V(d,φ,θ)は、符号化器1200の変換部202内部(図23A)および復号化器250の対応する逆変換部105(図23B)内部で使用される。通常、パラメータd、φ、θは、共分散推定部203によって変換パラメータ符号化部204に提供され、この変換パラメータ符号化部は、変換パラメータd、φ、θを量子化して(ハフマン)符号化するように構成される212。符号化された変換パラメータ214は、空間ビットストリーム221に挿入されてよい。符号化された変換パラメータ213の復号化バージョン(これは、復号化器250で復号化された変換パラメータ213
に相当する)は無相関部202に提供され、この無相関部は、以下の変換を実施するように構成される。
その結果、無相関化された領域または固有値領域または適応変換領域の音場信号112が得られる。
原則的に、変換
は、サブ帯域単位で適用されてパラメータによる音場信号110のコーダを提供できる。第1の固有信号E1は、定義上、エネルギーを最も多く有し、固有信号E1は、モノラル符号化器103を用いて符号化された変換であるダウンミックス信号113として使用されてよい。E1信号を符号化すること113のもう1つの利益は、KLT領域から取り込み後の領域へ変換して戻った際に、同様の量子化誤差が、復号化器250で音場信号117の3つのチャネルすべてに拡散されることである。これによって、潜在的な空間量子化の雑音を曝露する作用が低減する。
KLT領域でのパラメータ符号化は、以下のように実施されてよい。波形符号化を固有信号E1に適用できる(単一のモノラル符号化器103)。さらに、パラメータ符号化は、固有信号E2およびE3に適用されてよい。特に、無相関化方法を用いて(例えば固有信号E1の遅延バージョンを用いて)固有信号E1から2つの無相関化された信号を生成できる。固有信号E1の無相関バージョンのエネルギーは、エネルギーが対応する固有信号E2およびE3それぞれのエネルギーに合致するように調整されてよい。エネルギー調整の結果、エネルギー調整の(固有信号E2に対する)利得b2および(固有信号E3に対する)利得b3を得ることができる。これらのエネルギー調整利得(これをa2とともに予測パラメータとみなしてもよい)は、以下で述べるように算出されてよい。エネルギー調整利得b2およびb3は、パラメータ推定部205で算出されてよい。
例えば、「E1 E2 E3」領域内の音場信号112のサブ帯域を記述するためには、三(3)つのパラメータを使用してKLTを記述する。すなわち、d、φ、θのほか、これに加えて2つの利得調整パラメータb2およびb3が使用される。したがって、パラメータの合計数は、1サブ帯域あたりの五(5)つのパラメータである。音場信号を記述するチャネルがさらに多くある場合、KLT系の符号化は、KLTを記述するための遙かに多数の変換パラメータを必要とする。例えば、KLTを4次元空間で特定するのに必要な変換パラメータの最低数は6である。このほか、3つの調整利得パラメータを用いて、固有信号E1から固有信号E2、E3およびE4を算出する。したがって、パラメータの合計数は、1サブ帯域あたり9である。一般的な場合、Mチャネルを含む音場信号があると、KLT変換パラメータを記述するのにはO(M)パラメータが求められ、固有信号で実施されるエネルギー調整を記述するのにはO(M)パラメータが求められる。したがって、各サブ帯域に対して(KLTを記述するための)変換パラメータ212のセットの算出には、相当多数のパラメータを符号化する必要がある可能性がある。
本明細書では、効率的なパラメータ符号化の枠組を説明し、音場信号を符号化するために使用されるパラメータの数は、(とりわけ、サブ帯域の数Nがチャネルの数Mよりも実質的に大きいかぎり)常にO(M)である。特に、本明細書では、複数のサブ帯域に対して(例えば全サブ帯域に対して、または開始帯域内に含まれる周波数よりも高い周波数を含む全サブ帯域に対して)KLT変換パラメータ212を算出することを提案する。複数のサブ帯域に基づいて算出され、かつ複数のサブ帯域に適用されるこのようなKLTを広帯域KLTと呼んでよい。広帯域KLTは、複数のサブ帯域に対応する組み合わさった信号に対して、完全に無相関化された固有ベクトルE1、E2、E3のみを提供し、これに基づいて広帯域KLTが決定されている。その一方で、広帯域KLTが個々のサブ帯域に適用された場合、この個々のサブ帯域の固有ベクトルは、通常完全には無相関化されない。換言すれば、広帯域KLTは、固有信号の全帯域バージョンを検討している場合に限って、相互に無相関化された固有信号を生成する。しかしながら、サブ帯域単位で存在する相当量の相関性(冗長性)が残っていることがわかる。サブ帯域単位での固有ベクトルE1、E2、E3どうしのこの相関性(冗長性)は、予測の枠組によって効率的に利用できるものである。したがって、主要固有ベクトルE1に基づいて固有ベクトルE2およびE3を予測するために、予測の枠組を適用してよい。このように、「WXY」領域の音場信号111に対して実施された広帯域KLTを用いて得られた音場信号の固有チャネル表現に予測符号化を適用することを提案する。
予測に基づいた符号化の枠組(またはただ単に「予測符号化」)は、パラメータ化された信号E2、E3を、完全に相関化した(予測された)成分と、ダウンミックス信号E1に由来する無相関化(予測されていない)成分とに分割するパラメータ化を提供できる。パラメータ化は、適当なT−F変換201の後に周波数領域で実施されてよい。音場信号111の変換された時間フレームの特定の周波数ビンが組み合わさって、単一のベクトル(すなわちサブ帯域信号)として一緒に処理される周波数帯を形成することができる。通常、この周波数帯は、知覚面で刺激を与えるものである。周波数ビンの帯域は、音場信号の全周波数範囲に対して1つまたは2つの周波数帯のみに誘導できる。
さらに詳細には、(例えば20msの)各時間フレームpにおいて、かつ各周波数帯kに対して、固有ベクトルE1(p,k)をダウンミックス信号113として使用でき、および固有ベクトルE2(p,k)およびE3(p,k)を次式のように再構築でき、
a2、b2、a3、b3はパラメータ化のパラメータであり、d(E1(p,k))は、E1(p,k)の無相関バージョンだがE2およびE3に対しては異なっていてよく、d2(E1(p,k))およびd3(E1(p,k))と表してよい。

ここで、Tはベクトル転置を指す。このように、固有信号E2およびE3の予測された成分は、予測パラメータa2およびa3を用いて算出できる。
固有信号E2およびE3の無相関成分の算出は、無相関器d2()およびd3()を用いてダウンミックス信号E1の2つの非相関バージョンの算出を利用するものである。通常、無相関信号d2(E1(p,k))およびd3(E1(p,k))の質(性能)は、提案した符号化の枠組の全体的な知覚面での質に影響を及ぼすものである。様々な無相関化方法を用いてよい。例を挙げると、ダウンミックス信号E1のフレームは、無相関信号d2(E1(p,k))およびd3(E1(p,k))の対応するフレームをもたらすためにフィルタリングされたオールパスであってよい。
無相関信号が、モノラルで符号化された残りの信号に入れ替わった場合、それによって生じるシステムは波形符号化を再び達成する。これは、予測利得が高ければ有利となり得る。例えば、残りの信号resE2(p,k)=E2(p,k)−a2(p,k)*E1(p,k))、およびresE3(p,k)=E3(p,k)−a3(p,k)*E1(p,k))を明示的に算出することを検討してよく、これらの信号は、(少なくとも式(17)および(18)によって得られた仮定モデルの観点から)無相関信号の特性を有する。これらの信号resE2(p,k)およびresE3(p,k)の波形符号化を、合成無相関信号を使用する代替案として検討してよい。残りの信号resE2(p,k)およびresE3(p,k)の明示的な符号化を実施するために、モノラルコーデックのその他のインスタンスを使用してよいが、残りの信号を復号化器に送るのに必要なビットレートは比較的高いため、これは不利になるであろう。その一方で、このような手法の利点は、割り当てられたビットレートは大きくなるため、復号化器の再構築が容易になって完璧な再構築に近づく点である。
無相関器に対するエネルギー調整利得b2(p,k)およびb3(p,k)は、以下のように計算できる。
式(17)および(18)によって得られた信号モデル、および式(21)および(22)によって得られたエネルギー調整利得b2(p,k)およびb3(p,k)を算出するための推定手順では、無相関信号d2(E1(p,k))およびd3(E1(p,k))のエネルギーがダウンミックス信号E1(p,k)のエネルギーと(少なくとも概ね)一致していると仮定することに注意すべきである。使用した無相関器によっては、これは当てはまらないことがある(例えばE1(p,k)の遅延バージョンを用いた場合、E1(p−1,k)およびE1(p−2,k)のエネルギーは、E1(p,k)のエネルギーとは異なることがある)。
上記に述べたように、無相関器d2()およびd3()は、1つのフレーム遅延および2つのフレーム遅延としてそれぞれ実装されてよい。この場合、前述したエネルギーの不一致が通常生じる(とりわけ信号が一過性の場合)。式(17)および(18)によって得られた信号モデルの正確さを確実にするため、かつ、適当な量の無相関信号d2(E1(p,k))およびd3(E1(p,k))を再構築過程で挿入するため、(符号化器1200および/または復号化器250で)さらに他のエネルギー調整を実施する必要がある。
一例では、さらに他のエネルギー調整は、以下のように動作できる。符号化器1200は、(量子化して符号化したバージョンでよい)エネルギー調整利得b2(p,k)およびb3(p,k)(式(21)および(22)を用いて算出されたもの)を、空間ビットストリーム221に挿入していてよい。
このほか、復号化器250は、復号化されたダウンミックス信号MD(p,k)261に基づいて、例えば1つまたは2つのフレーム遅延(p−1およびp−2と表記)を用いて、無相関信号264を(無相関器部252で)生成するように構成されてよく、これを以下のように記載できる。
E2およびE3の再構築は、更新されたエネルギー調整利得を用いて実施されてよく、これをb2new(p,k)およびb3new(p,k)と表記できる。更新されたエネルギー調整利得b2new(p,k)およびb3new(p,k)は、次式に従って計算できる。
例えば
改善されたエネルギー調整方法を「ダッカー(ダッカー)」調整と呼んでよい。「ダッカー」調整は、次式を用いて更新されたエネルギー調整利得を計算できる。
例えば
これは、以下のように書くこともできる。
例えば
「ダッカー」調整の場合、エネルギー調整利得b2(p,k)およびb3(p,k)は、ダウンミックス信号MD(p,k)の現在フレームのエネルギーがダウンミックス信号MD(p−1,k)および/またはMD(p−2,k)の以前のフレームのエネルギーよりも低い場合のみに更新される。換言すれば、更新されたエネルギー調整利得は、元のエネルギー調整利得以下である。更新されたエネルギー調整利得は、元のエネルギー調整利得に対して増加していない。これは、現在フレームMD(p,k)内でアタック(attack)(すなわち低エネルギーから高エネルギーへの移行)が起きた状況で有益となり得る。このような場合、無相関信号MD(p−1,k)およびMD(p−2,k)は通常雑音を含んでおり、この雑音は、エネルギー調整利得b2(p,k)およびb3(p,k)に1よりも大きい係数を適用することによって際立つ。その結果、前述した「ダッカー」調整を用いると、再構築された音場信号を知覚する質を向上させることができる。
前述したエネルギー調整方法は、現在フレームおよび2つの以前のフレーム、すなわちp、p−1、p−2に対して、サブ帯域f(パラメータ帯域kとも称する)ごとに復号化されたダウンミックス信号MDのエネルギーのみを入力として必要とする。
更新されたエネルギー調整利得b2new(p,k)およびb3new(p,k)は、符号化器1200で直接算出されてもよく、復号化されて(エネルギー調整利得b2(p,k)およびb3(p,k)の代わりに)空間ビットストリーム221に挿入されてよいことに注意すべきである。これは、エネルギー調整利得の効率的な符号化という点で有益となり得る。
このように、音場信号110のフレームは、ダウンミックス信号E1 113と、適応変換を記述する変換パラメータ213の1つ以上のセット(この場合、変換パラメータ113の各セットは、複数のサブ帯域に対して使用された適応変換を記述する)と、サブ帯域ごとの1つ以上の予測パラメータa2(p,k)およびa3(p,k)と、サブ帯域ごとの1つ以上のエネルギー調整利得b2(p,k)およびb3(p,k)とを用いて記述されてよい。予測パラメータa2(p,k)およびa3(p,k)ならびにエネルギー調整利得b2(p,k)およびb3(p,k)(前部で言及したように、これを合わせて予測パラメータとする)のほか、変換パラメータの1つ以上のセット(これは、前部で言及した空間パラメータ)213も、空間ビットストリーム221に挿入されてよく、この空間ビットストリームのみがテレビ会議システムの端末で復号化されてよく、同端末は、音場信号をレンダリングするように構成される。さらに、ダウンミックス信号E1 113は、(変換に基づく)モノラルの音声および/またはスピーチ符号化器103を用いて符号化されてよい。符号化されたダウンミックス信号E1は、ダウンミキシングビットストリーム222に挿入されてよく、このダウンミキシングビットストリームは、テレビ会議システムの端末で復号化されてもよく、同端末は、モノラル信号をレンダリングするようにのみ構成される。
上記で指摘したように、本明細書では、無相関変換202を算出して複数のサブ帯域に対して合わせて適用することを提案する。特に、広帯域KLT(例えばフレームごとの単一のKLT)を使用できる。広帯域KLTを使用することは、ダウンミックス信号113の知覚特性に関して有益となり得る(したがって、階層化したテレビ会議システムを実施することが可能になる)。上記に述べたように、パラメータ符号化は、サブ帯域領域で実施される予測に基づくものであってよい。こうすることによって、音場信号を記述するのに使用されるパラメータの数を、狭帯域KLTを使用するパラメータ符号化よりも少なくすることができ、この場合、複数のサブ帯域の各々に対して異なるKLTが別々に算出される。
上記に述べたように、予測パラメータは、量子化され、符号化されてよい。予測に直接関係するパラメータは、周波数の差分量子化に続いてハフマン符号化を用いて、都合よく符号化されてよい。したがって、音場信号110のパラメータによる記述は、可変ビットレートを用いて符号化されてよい。全体的に動作しているビットレートの制約が設定される場合、特定の音場信号のフレームをパラメータにより符号化するのに必要なレートは、利用可能な全ビットレートから差し引くことができ、残り217は、ダウンミックス信号113の1チャネルのモノラル符号化に費やされてよい。
図23Aおよび図23Bは、例示的な符号化器1200および例示的な復号化器250のブロック図である。図示した音声符号化器1200は、複数の音声信号(または音声チャネル)を含む音場信号110のフレームを符号化するように構成される。図示した例では、音場信号110は、取り込まれた領域から非適応変換領域(すなわちWXY領域)にすでに変換されている。音声符号化器1200は、音場信号111を時間領域からサブ帯域領域に変換するように構成されたT−F変換部201を備え、これによって、音場信号111の様々な音声信号に対してサブ帯域信号211をもたらす。
音声符号化器1200は、変換算出部203、204を備え、この変換算出部は、非適応変換領域内の音場信号111のフレームに基づいて(特に、サブ帯域信号211に基づいて)エネルギーを圧縮する直交変換V(例えばKLT)を算出するように構成される。変換算出部203、204は、共分散推定部203および変換パラメータ符号化部204を備えていてよい。さらに、音声符号化器1200は、変換部202(無相関部とも称する)を備え、この変換部は、音場信号のフレームから(例えば非適応変換領域内の音場信号111のサブ帯域信号211に)導き出したフレームに、エネルギーを圧縮する直交変換Vを適用するように構成される。こうすることによって、複数の回転音声信号E1、E2、E3を含む回転した音場信号112の対応するフレームを得ることができる。回転した音場信号112を、適応変換領域内の音場信号112と称することもある。
さらに、音声符号化器1200は、波形符号化部103(モノラル符号化器またはダウンミキシング符号化器とも称する)を備え、この波形符号化部は、回転した複数の音声信号E1、E2、E3の最初に回転した音声信号E1(すなわち主要固有信号E1)を符号化するように構成される。このほか、音声符号化器1200は、パラメータ符号化(encoding)部104(パラメータ符号化(coding)部とも称する)を備え、このパラメータ符号化部は、予測パラメータのセットa2、b2を算出して、最初に回転した音声信号E1に基づいて、回転した複数の音声信号E1、E2、E3のうち2番目に回転した音声信号E2を算出するように構成される。パラメータ符号化部104は、さらに他の1セット以上の予測パラメータのa3、b3を算出して、回転した複数の音声信号E1、E2、E3のうちさらに他の1つ以上の回転した音声信号E3を算出するように構成されてよい。パラメータ符号化部104は、予測パラメータのセットを推定して符号化するように構成されたパラメータ推定部205を備えていてよい。さらに、パラメータ符号化部104は、2番目に回転した音声信号E2の(かつ、さらに他の1つ以上の回転した音声信号E3の)相関成分および無相関成分を、例えば本明細書に記載した式を用いて算出するように構成された予測部206を備えていてよい。
図23Bの音声復号化器250は、空間ビットストリーム221(1セット以上の予測パラメータ215、216および変換Vを記述している1つ以上の変換パラメータ(空間パラメータ)212、213、214を示している)ならびにダウンミキシングビットストリーム222(最初に回転した音声信号E1 113またはその再構築バージョン261を示している)を受信するように構成される。音声復号化器250は、複数の再構築された音声信号を含む再構築された音場信号117のフレームを、空間ビットストリーム221から、かつダウンミキシングビットストリーム222から提供するように構成される。
前述したパラメータ符号化の枠組の様々な変形形態を実施してよい。例えば、パラメータ符号化の枠組の別の動作形態は、無相関の完全な畳み込みを追加の遅延なしに可能にするものであり、エネルギー調整利得b2(p,k)およびb3(p,k)をダウンミックス信号E1に適用することによって、まず2つの中間信号をパラメータ領域で生成するというものである。続いて、この2つの中間信号に逆T−F変換を実施して、2つの時間領域信号をもたらすことができる。次に、2つの時間領域信号を無相関化してよい。これらの無相関化された時間領域信号は、再構築された予測信号E2およびE3に適切に加えられてよい。このように、代替の実施では、無相関信号は時間領域に生成される(サブ帯域領域ではない)。
上記に述べたように、適応変換102(例えばKLT)は、非適応変換領域内の音場信号111に対するフレームのチャネル間の共分散行列を用いて算出されてよい。KLTパラメータ符号化をサブ帯域単位で適用することの利点は、チャネル間の共分散行列を復号化器250で正確に再構築できるという点である。ただしこれには、変換Vを特定するために、O(M)変換パラメータの符号化および/または伝送が必要になる。
前述したパラメータ符号化の枠組では、チャネル間の共分散行列の正確な再構築にならない。それにもかかわらず、本明細書に記載したパラメータ符号化の枠組を用いて、2次元の音場信号に対して知覚面で良好な質を達成できることが観察された。しかしながら、再構築された固有信号の全ペアに対して正確なコヒーレンスを再構築することが有益となり得る。これは、前述したパラメータ符号化の枠組を拡張することによって達成できる。
特に、固有信号E2とE3との間の正規の相関を記述するために、さらに別のパラメータγを算出して伝送してよい。これによって、2つの予測誤差の元の共分散行列を、復号化器250で元に戻すことが可能になる。その結果、3次元信号の全共分散を元に戻せる。復号化器250でこれを実施する1つの方法が、次式で得られる2x2行列によって2つの無相関信号d2(E1(p,k))およびd3(E1(p,k))を事前にミキシングし、
正規相関γに基づいて無相関信号をもたらすというものである。相関パラメータγは、量子化され、符号化され、空間ビットストリーム221に挿入されてよい。
パラメータγは、復号化器250が無相関信号を生成できるように復号化器250に伝送され、この無相関信号は、元の固有信号E2とE3との間の正規相関γを再構築するために使用される。その代わりに、以下に示すように、ミキシング行列Gを復号化器250で固定値に設定でき、これによって、E2とE3との間の相関の再構築を概ね改善する。
この最後の手法は、相関パラメータγの符号化および/または伝送を必要としないという点で、有益である。その一方で、この最後の手法は、元の固有信号E2およびE3の正規相関γが平均値に維持されることのみを実現する。
パラメータによる音場符号化の枠組を、音場の固有表現の選択されたサブ帯域にわたって、マルチチャネルの波形符号化の枠組と組み合わせて、混合した符号化の枠組をもたらしてよい。特に、E2およびE3の低周波数帯に対して波形符号化を実施し、残りの周波数帯でパラメータ符号化を実施することを検討してよい。特に、符号化器1200(および復号化器250)は、開始帯域を算出するように構成されてよい。開始帯域よりも低いサブ帯域の場合、固有信号E1、E2、E3は、個別に波形符号化されてよい。サブ帯域が開始帯域にある場合、および開始帯域よりも上の場合、固有信号E2およびE3は、(本明細書で記載したように)パラメータによって符号化されてよい。
図24Aは、複数の音声信号(または音声チャネル)を含む音場信号110のフレームを符号化するための例示的な方法1300のフローチャートである。方法1300は、エネルギーを圧縮する直交変換V(例えばKLT)を音場信号110のフレームに基づいて算出するステップ301を含む。本明細書で述べたように、非適応変換を用いて、取り込まれた領域(例えばLRS領域)内の音場信号110を非適応変換領域(例えばWXY領域)内の音場信号111に変換することが好ましいことがある。このような場合、エネルギーを圧縮する直交変換Vは、非適応変換領域内の音場信号111に基づいて算出されてよい。方法300は、エネルギーを圧縮する直交変換Vを音場信号110のフレーム(またはこのフレームから導かれた音場信号111)に適用するステップ302をさらに含んでいてよい。こうすることによって、複数の回転音声信号E1、E2、E3を含む回転した音場信号112のフレームが得られる(ステップ303)。回転した音場信号112は、適応変換領域(例えばE1 E2 E3領域)内の音場信号112に相当する。方法300は、回転した複数の音声信号E1、E2、E3のうち最初に回転した音声信号E1を(例えば1つのチャネル波形符号化器103を用いて)符号化するステップ304を備えていてよい。さらに、方法300は、予測パラメータのセットa2、b2を算出して、最初に回転した音声信号E1に基づいて、回転した複数の音声信号E1、E2、E3のうち2番目に回転した音声信号E2を算出するステップ305を備えていてよい。
図24Bは、複数の再構築された音声信号を含む再構築された音場信号117のフレームを、空間ビットストリーム221から、かつダウンミキシングビットストリーム222から復号化するための例示的な方法350のフローチャートである。
本明細書では、音場信号を符号化するための方法およびシステムを説明してきた。特に、ビットレートを低減できると同時に、一定の知覚的品質を維持できるという、音場信号に対するパラメータ符号化の枠組を説明してきた。さらに、パラメータ符号化の枠組は、低ビットレートで高質のダウンミックス信号を提供し、これは、階層化したテレビ会議システムを実施するのに有益である。
実施形態の組み合わせおよび適用背景
上記で考察した実施形態およびその変形例はすべて、そのどのような組み合わせて実施されてもよく、異なる部/実施形態で言及されるが同じまたは同様の機能を有する構成要素は、同じまたは別々の構成要素として実装されてよい。
例えば、モノラル成分のPLCに対する第1の補償部400の異なる実施形態および変形例は、空間成分のPLCに対する第2の補償部600および第2の変換器1000の異なる実施形態および変形例とランダムに組み合わされてよい。また、図9Aおよび図9Bでは、主要なモノラル成分と重要性の低いモノラル成分との両方の非予測PLCに対する主補償部408の異なる実施形態および変形例は、重要性の低いモノラル成分の予測PLCに対する予測パラメータ計算器412、第3の補償部414、予測復号化器410および調整部416の異なる実施形態および変形例とランダムに組み合わされてよい。
上記で考察したように、パケット損失は、送信元通信端末からサーバ(ある場合)までの経路、かつそこから送信先通信端末までの経路のどこにでも発生し得る。したがって、本明細書が提案するPLC装置は、サーバまたは通信端末のいずれかに適用されてよい。図12に示したようなサーバに適用される場合、パケット損失を補償された音声信号は、パケット化部900によって再びパケット化されて送信先通信端末に伝送されてよい。同時に会話するユーザが複数いる場合(これは音声区間検出(VAD)技術を用いて判断できる)、複数ユーザのスピーチ信号を送信先通信端末に伝送する前に、ミキサ800でミキシング動作を行ってスピーチ信号の複数のストリームを1つに混合する必要がある。これは、PLC装置のPLC動作の後に行われてよいが、パケット化部900のパケット化動作の前に行われる。
図13に示したような通信端末に適用される場合、作成されたフレームを中間出力形式の空間音声信号に変換するために、第2の逆変換器700Aを設けてよい。あるいは、図14に示したように、作成されたフレームをバイノーラル音声信号などの時間領域内の空間音声信号に復号化するために、第2の復号化器700Bを設けてよい。図12〜図14にある他の要素は図3と同じであるため、その詳細な説明は省略する。
したがって、本明細書は、音声通信システムのような音声処理システムも提供し、同システムは、上記で考察したようなパケット損失補償装置を備えるサーバ(音声会議のミキシングサーバなど)および/または上記で考察したようなパケット損失補償装置を備える通信端末を備える。
図12〜図14に示したようなサーバおよび通信端末は、送信先側または復号化側にあることがわかり得る。なぜなら提供したようなPLC装置は、(サーバおよび送信先通信端末を含めた)送信先に到達する前に起きたパケット損失を補償するためのものだからである。逆に、図11を参照して考察したような第2の変換器1000は、送信元側または符号化側の送信元通信端末またはサーバのいずれかに使用されるようになっている。
したがって、上記で考察した音声処理システムは、送信元通信端末としての通信端末をさらに備えていてよく、この通信端末は、入力形式の空間音声信号を伝送形式のフレームに変換するための第2の変換器1000を備え、各フレームは、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含んでいる。
本明細書の発明を実施するための形態の冒頭で考察したように、本明細書の実施形態は、ハードウェアまたはソフトウェアのいずれか、あるいはこの両方で実現されてよい。図15は、本明細書の態様を実施するための例示的なシステムを示すブロック図である。
図15では、中央処理装置(CPU)801が、読み出し専用メモリ(ROM)802に記憶されたプログラムまたは記憶セクション808からランダムアクセスメモリ(RAM)803へロードされたプログラムに従って、様々なプロセスを実施する。RAM803では、CPU801が様々なプロセスを実施する場合などに必要とされるデータも必要に応じて記憶される。
CPU801、ROM802およびRAM803は、バス804を介して互いに接続している。入力/出力インターフェース805もバス804に接続している。
以下の要素は、入力/出力インターフェース805に接続している:キーボード、マウスなどを含む入力セクション806;陰極線管(CRT)、液晶ディスプレイ(LCD)などのディスプレイ、および拡声器などを含む出力セクション807;ハードディスクなどを含む記憶セクション808;ならびに、LANカード、モデムなどのネットワークインターフェースカードを含む通信セクション809。通信セクション809は、インターネットなどのネットワークを介して通信プロセスを実施する。
ドライブ810も必要に応じて入力/出力インターフェース805に接続される。磁気ディスク、光学ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体811が必要に応じてドライブ810に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて位記憶セクション808にインストールされる。
前述した構成要素がソフトウェアによって実施される場合、ソフトウェアを構成するプログラムは、インターネットなどのネットワークまたはリムーバブル媒体811などの記憶媒体からインストールされる。
パケット損失補償方法
上記の実施形態のパケット損失補償装置を説明する過程において、いくつかのプロセスまたは方法も明らかに開示する。以下では、これらの方法の要約を、上記ですでに考察した詳細の一部を繰り返さずに記載するが、同方法は、パケット損失補償装置を説明する過程で開示されているが、同方法は、記載したような構成要素を必ずしも採用する必要はなく、あるいは、必ずしもそのような構成要素によって実行される必要はないことに注意すべきである。例えば、パケット損失補償装置の実施形態は、ハードウェアおよび/またはファームウェアを用いて部分的または完全に実現されてよく、以下で考察するパケット損失補償方法も、コンピュータで実行可能なプログラムによって全面的に実現されてよい可能性があるが、本方法は、パケット損失補償装置のハードウェアおよび/またはファームウェアを採用してもよい。
本明細書の一実施形態によれば、音声パケットのストリーム中のパケット損失を補償するためのパケット損失補償方法であって、各音声パケットが、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含むパケット損失補償方法が提供される。本明細書では、音声フレーム内の異なる成分に対して異なるPLCを行うことが提案される。つまり、損失パケット中の損失フレームの場合、損失フレームに対して少なくとも1つのモノラル成分を作成するための1つの動作、および、損失フレームに対して少なくとも1つの空間成分を作成するためのもう1つの動作を実行する。ここで、2つの動作は、必ずしも同じ損失フレームに対して同時に実行される必要はないことに注意されたい。
(伝送形式の)音声フレームは、適応変換に基づいて符号化されていてよく、この適応変換は、伝送中に音声信号(LRS信号またはアンビソニックスB形式(WXY)信号などの入力形式で)をモノラル成分および空間成分に変換できる。適応変換の一例がパラメータによる固有分解であり、モノラル成分は、少なくとも1つの固有チャネル成分を含んでいてよく、空間成分は、少なくとも1つの空間パラメータを含んでいてよい。適応変換のその他の例には、主成分分析(PCA)などがあってよい。パラメータによる固有分解について、一例がKLT符号化であり、この符号化で、固有チャネル成分としての複数の回転音声信号、および複数の空間パラメータを得ることができる。一般に、空間パラメータは、入力形式の音声信号を伝送形式の音声フレームに変換するため、例えば、アンビソニックスB形式の音声信号を複数の回転音声信号に変換するために、変換行列から導き出される。
空間音声信号の場合、空間パラメータの連続性は極めて重要である。したがって、損失フレームを補償するために、損失フレームに対する少なくとも1つの空間成分を、(1つまたは複数の)過去フレームおよび/または(1つまたは複数の)未来フレームなどの(1つまたは複数の)隣接フレームの少なくとも1つの空間成分の値を平滑化することによって作成できる。もう1つの方法は、損失フレームに対する少なくとも1つの空間成分を、少なくとも1つの隣接の過去フレームおよび少なくとも1つの隣接の未来フレーム内の対応する空間成分の値に基づく補間アルゴリズムを介して作成するというものである。複数の連続するフレームがある場合、全損失フレームを単一の補間動作を介して作成できる。このほか、さらに簡易な方法が、最後のフレーム内の対応する空間成分を複製することによって、損失フレームに対する少なくとも1つの空間成分を作成するというものである。最後の事例では、空間パラメータの安定性を実現するために、空間パラメータ自体を直接平滑化するか、空間パラメータを導くのに使用される共分散行列などの変換行列(の要素)を平滑化して、空間パラメータを符号化側で事前に平滑化できる。
モノラル成分の場合、損失フレームが補償されるようになっていれば、隣接フレーム内の対応するモノラル成分を複製することによってモノラル成分を作成できる。ここで、隣接フレームとは、直近または(1つまたは複数の)他のフレームを間に挟んでいる過去フレームまたは未来フレームを意味する。変形例では、減衰係数を用いてよい。適用背景によっては、損失フレームに対していくつかのモノラル成分を作成できず、単に少なくとも1つのモノラル成分だけが複製によって作成されることがある。具体的には、固有チャネル成分(回転した音声信号)などのモノラル成分は、1つの主要モノラル成分と、異なるが重要性の低いいくつかの他のモノラル成分を備えていてよい。そのため、主要モノラル成分または最初の2つの重要なモノラル成分のみを複製できるが、これに限定されない。
複数の連続するフレームが損失している損失パケットなどは、複数の音声フレームを含んでいるか、複数のパケットが損失している可能性がある。このような背景では、減衰係数を用いるか又は用いずに、隣接した過去フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの前の方の損失フレームに対して少なくとも1つのモノラル成分を作成し、減衰係数を用いるか又は用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの後の方の損失フレームに対して少なくとも1つのモノラル成分を作成することが合理的である。つまり、損失フレームのうち、前の方の(1つまたは複数の)フレームに対するモノラル成分は、過去フレームを複製して作成され、後の方の(1つまたは複数の)フレームに対するモノラル成分は、未来フレームを複製して作成されるということである。
直接の複製に加えて、もう1つの実施形態では、時間領域内の損失したモノラル成分の補償を行うことが提案される。まず、損失フレームよりも前の少なくとも1つの過去フレームにある少なくとも1つのモノラル成分を時間領域信号に変換し、その後、その時間領域信号に対してパケット損失を補償することにより、パケット損失を補償した時間領域信号が生じる。最後に、パケット損失を補償した時間領域信号を少なくとも1つのモノラル成分の形式に変換して、損失フレーム内の少なくとも1つのモノラル成分に対応して作成されたモノラル成分が生じることができる。ここで、音声フレーム内のモノラル成分が、重複していない枠組で復号化される場合は、最後のフレーム内のモノラル成分のみを時間領域に変換すれば十分である。音声フレーム内のモノラル成分が、MDCT変換などの重複している枠組で符号化される場合は、少なくとも2つの直前のフレームを時間領域に変換することが好ましい。
このようにする代わりに、さらに多くの連続する損失フレームがあれば、さらに効率的な双方向の手法で、時間領域PLCでいくつかの損失フレームを補償し、周波数領域内でいくつかの損失フレームを補償できる。一例が、前の方の損失フレームが時間領域PLCで補償され、後の方の損失フレームが単純な複製によって、つまり、隣接した(1つまたは複数の)未来フレーム内の対応するモノラル成分を複製することによって補償されるというものである。複製には、減衰係数を用いても用いなくてもよい。
符号化率およびビットレート率を向上させるため、パラメータ符号化/予測符号化を採用してよく、この場合、音声ストリーム内の各音声フレームは、空間パラメータおよび少なくとも1つのモノラル成分(一般には主要モノラル成分)のほかに、フレーム内の少なくとも1つのモノラル成分に基づいて、そのフレームに対する少なくとも1つの他のモノラル成分を予測するのに使用される少なくとも1つの予測パラメータをさらに含む。このような音声ストリームの場合、(1つまたは複数の)予測パラメータに対してもPLCを実行してよい。図16に示したように、損失フレームの場合、伝送されるはずである少なくとも1つのモノラル成分(一般には主要モノラル成分)は、時間領域PLC、双方向PLCまたは減衰係数を用いるか用いない複製などを含む、既存の任意の方法または上記で考察したような方法を介して作成される(動作1602)。これに加えて、主要モノラル成分に基づいて(1つまたは複数の)他のモノラル成分(一般には重要性の低い(1つまたは複数の)モノラル成分)を予測するための(1つまたは複数の)予測パラメータを作成できる(動作1604)。
予測パラメータの作成は、空間パラメータの作成と同様の方法で、例えば、減衰係数を用いるか用いずに、最後のフレーム内の対応する予測パラメータを複製して、あるいは(1つまたは複数の)隣接フレームの対応する予測パラメータの値を平滑化して、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって実施できる。独立符号化した音声ストリーム(図18〜図21)に対する予測PLCの場合、作成動作は同様に実施されてよい。
作成された主要モノラル成分および予測パラメータを用いて、それに基づいて他のモノラル成分を予測でき(動作1608)、作成された主要モノラル成分および(空間パラメータとともに)予測された他の(1つまたは複数の)モノラル成分は、作成されたフレーム補償パケット/フレーム損失(created frame concealment the packet/frame loss)を構成する。ただし、予測動作1608は、必ずしも作成動作1602および1604の直後に実施される必要はない。サーバ内で、ミキシングが必要ではない場合、作成された主要モノラル成分および作成された予測パラメータは送信先通信端末に直接転送されてよく、その場合、予測動作1608および(1つまたは複数の)さらに他の動作が実施される。
予測PLCにおける予測動作は、(予測PLCが非予測/独立符号化された音声ストリームに対して実施されたとしても)予測符号化における予測動作と同様である。つまり、損失フレームの少なくとも1つの他のモノラル成分は、減衰係数を用いるか又は用いずに作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分およびその無相関バージョンに基づいて予測されてよい。一例として、損失フレームに対して作成された1つのモノラル成分に対応する過去フレーム内のモノラル成分は、作成された1つのモノラル成分の無相関バージョンとみなしてよい。独立符号化された音声ストリームに対する予測PLCの場合(図18〜図21)、予測動作は同様に実施されてよい。
予測PLCは、非予測/独立符号化された音声ストリームに適用されてもよく、この場合、各音声フレームは、少なくとも2つのモノラル成分、一般には主要モノラル成分および少なくとも1つの重要性の低いモノラル成分を備えている。予測PLCでは、上記で考察したような予測符号化と同様の方法を用いて、重要性の低いモノラル成分を、損失フレームを補償するためにすでに作成された主要モノラル成分に基づいて予測する。独立符号化された音声ストリームの場合はPLC内にあるため、利用可能な予測パラメータがなく、現在フレームから計算することはできない(現在フレームは損失していて作成/復元される必要があるため)。したがって、予測パラメータは、過去フレームから導き出されてよく、その過去フレームが正常に伝送されたか、PLCのために作成/復元されたかは問題ではない。次に、図17に示したような1つの実施形態では、少なくとも1つのモノラル成分を作成することは、損失フレームに対する少なくとも2つのモノラル成分の一方を作成すること(動作1602)と、過去フレームを用いて損失フレームに対する少なくとも1つの予測パラメータを計算すること(動作1606)と、作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて、損失フレームの少なくとも2つのモノラル成分の少なくとも1つのもう一方のモノラル成分を予測すること(動作1608)とを含む。
独立して符号化された音声ストリームの場合、各損失フレームに対して予測PLCが常に実施されれば、特に損失パケットが比較的多いときは効率が低くなることがある。このような背景では、独立して符号化された音声ストリームに対する予測PLCと、予測して符号化された音声ストリームに対する通常のPLCとを組み合わせてよい。つまり、前の方の損失フレームに対して予測パラメータが計算されてしまえば、それに続く損失フレームは、上記で考察したような通常のPLC動作、例えば複製、平滑化、補間などを介して、計算された予測パラメータを利用できる。
そのため、図18に示したように、複数の連続する損失フレームの場合、第1の損失フレームに関しては(動作1603の「Y」)、次に、(正常に伝送された)最後のフレームに基づいて予測パラメータが計算され(動作1606)、他のモノラル成分を予測するのに使用される(動作1608)。第2の損失フレームから始まって、第1の損失フレームに対して計算された予測パラメータを使用して(図18の破線矢印を参照)通常のPLCを実施して予測計器を作成できる(動作1604)。
さらに一般的には、適応型のPLC方法を提案でき、この方法は、予測符号化の枠組または非予測/独立符号化の枠組のいずれかに適応して使用できるものである。独立符号化の枠組での第1の損失フレームの場合、予測PLCが実行されるが、独立符号化の枠組でのそれに続く(1つまたは複数の)損失フレームに対して、または予測符号化の枠組に対しては、通常のPLCが実行される。具体的には、図19に示したように、どの損失フレームに対しても、主要モノラル成分などの少なくとも1つのモノラル成分は、上記で考察したどのPLC手法で作成されてもよい(動作1602)。他の一般的に重要性の低いモノラル成分の場合、異なる方法で作成/復元されてよい。少なくとも1つの予測パラメータが損失フレーム以前の最後のフレームに含まれている場合(動作1601の「予測符号化」の分岐)、あるいは少なくとも1つの予測パラメータが損失フレーム以前の最後のフレームに対して計算されている場合(最後のフレームも損失フレームだが、その予測パラメータは動作1606で計算されているということ)、あるいは少なくとも1つの予測パラメータが損失フレーム以前の最後のフレームに対して作成されている場合(最後のフレームも損失フレームだが、その予測パラメータは動作1604で作成されているということ)、現在の損失フレームに対する少なくとも1つの予測パラメータは、最後のフレームに対する少なくとも1つの予測パラメータに基づいて、通常のPLC手法を介して作成されてよい(動作1604)。その場合、損失フレーム以前の最後のフレームに予測パラメータが含まれておらず(動作1601の「非予測符号化」の分岐)、かつ、損失フレーム以前の最後のフレームに対して作成され/計算された予測パラメータがない場合のみに、つまり、損失フレームが、複数の連続する損失フレームのうちの第1の損失フレームである場合に(動作1603における「Y」)、損失フレームに対して少なくとも1つの予測パラメータを以前のフレームを用いて計算できる(動作1606)。次に、損失フレーム少なくとも2つのモノラル成分の少なくとも1つのもう一方のモノラル成分は、(動作1606から)計算された少なくとも1つの予測パラメータまたは(動作1604から)作成された少なくとも1つの予測パラメータを用いて、(動作1602から)作成された1つのモノラル成分に基づいて予測されてよい(動作1608)。
変形例では、独立符号化された音声ストリームに対して、予測PLCを通常のPLCと組み合わせて、結果をさらにランダムにしてパケット損失を補償した音声ストリームの音をより自然にできる。次に、図20に示したように(図18に相当)、予測動作1608と作成動作1609とが両方実行され、その結果が組み合わされて(動作1612)最終結果を得る。組み合わせ動作1612は、任意の方法で1つを残りに調整する動作であるとみなしてよい。例として、調整動作は、予測された少なくとも1つのもう一方のモノラル成分と、作成された少なくとも1つのもう一方のモノラル成分との重み付き平均値を、少なくとも1つのもう一方のモノラル成分の最終結果として計算することを含んでいてよい。重み係数は、予測結果と作成結果のいずれが優勢であるかを判断し、具体的な適用背景に応じて算出されてよい。図19を参照して説明した実施形態の場合、図21に示したように組み合わせ動作1612を追加してもよく、詳細な説明はここでは省略する。実際、図17に示した解決法に対して、組み合わせ動作1612も可能だが、これは図示していない。
(1つまたは複数の)予測パラメータの計算は、予測/パラメータ符号化プロセスと同様である。予測符号化プロセスでは、現在フレームの(1つまたは複数の)予測パラメータは、同じフレームの最初に回転した音声信号(E1)(主要モノラル成分)と、少なくとも2番目に回転した音声信号(E2)(少なくとも1つの重要性の低いモノラル成分)とに基づいて計算されてよい(式(19)および(20))。具体的には、予測パラメータは、2番目に回転した音声信号(E2)(少なくとも1つの重要性の低いモノラル成分)と、2番目に回転した音声信号(E2)の相関成分との予測残差の平均二乗誤差が小さくなるように算出されてよい。予測パラメータは、エネルギー調整利得をさらに含んでいてよく、このエネルギー調整利得は、予測残差の振幅と、最初に回転した音声信号(E1)(主要モノラル成分)の振幅との比に基づいて計算されてよい。変形例では、この計算は、予測残差の二乗平均平方根と、最初に回転した音声信号(E1)の二乗平均平方根との比に基づいていてよい(主要モノラル成分)((式(21)および(22))。計算したエネルギー調整利得の急激な変動を避けるため、ダッカー調整動作を適用でき、この動作には、最初に回転した音声信号(E1)(主要モノラル成分)に基づいて無相関信号を算出すること、無相関信号のエネルギーの第2の指標および最初に回転した音声信号(E1)(主要モノラル成分)のエネルギー第1の指標を算出すること、第2の指標が第1の指標よりも大きい場合に、無相関信号に基づいてエネルギー調整利得を算出すること(式(26)〜(37))、などがある。
予測PLCでは、(1つまたは複数の)予測パラメータの計算も同様であり、相違点は現在フレーム(損失フレーム)にあり、(1つまたは複数の)予測パラメータは、(1つまたは複数の)以前のフレームに基づいて計算される。換言すれば、(1つまたは複数の)予測パラメータは、損失フレーム以前の最後のフレームに対して計算され、その後、損失フレームを補償するために使用される。
したがって、予測PLCでは、損失フレームに対する少なくとも1つの予測パラメータは、損失フレームに対して作成された1つのモノラル成分に対応する、損失フレーム以前の最後のフレームにあるモノラル成分と、損失フレームに対して予測されることになっているモノラル成分に対応する最後のフレーム内のモノラル成分とに基づいて計算されてよい(式(9))。具体的には、損失フレームに対する少なくとも1つの予測パラメータは、損失フレームに対して予測されることになっているモノラル成分に対応する最後のフレーム内のモノラル成分と、その相関成分との予測残差の平均二乗誤差が小さくなるように算出されてよい。
少なくとも1つの予測パラメータは、エネルギー調整利得をさらに含んでいてよく、このエネルギー調整利得は、予測残差の振幅と、損失フレームに対して作成された1つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分の振幅との比に基づいて計算されてよい。変形例では、第2のエネルギー調整利得は、予測残差の二乗平均平方根と、損失フレームに対して作成された1つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分の二乗平均平方根との比に基づいて計算されてよい(式(10))。
エネルギー調整利得が急激に変動しないようにするために、ダッカーアルゴリズムを実施してもよい(式(11)および(12))。つまり、損失フレームに対して作成された1つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分に基づいて無相関信号を算出すること、無相関信号のエネルギーの第2の指標と、損失フレームに対して作成された1つのモノラル成分に対応する、損失フレーム以前の最後のフレーム内のモノラル成分のエネルギーの第1の指標とを算出すること、および第2の指標が第1の指標よりも大きい場合に、無相関信号に基づいて第2のエネルギー調整利得を算出すること、などである。
PLCの後、損失パケットに代わるために新たなパケットが作成されている。次に、正常に伝送された音声パケットと一緒に、作成されたパケットは、逆適応変換を受けて、WXY信号などの逆変換された音場信号に変換されてよい。逆適応変換の一例が、逆Karhunen−Loeve(KLT)変換であってよい。
パケット損失補償装置の実施形態と同様に、PLC方法の実施形態とその変形形態をどのように組み合わせたものでも可能である。
本明細書に記載した方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてよい。特定の要素は、例えば、デジタルシグナルプロセッサまたはマイクロプロセッサ上で稼働するソフトウェアとして実装されてよい。その他の要素は、例えば、ハードウェアとして、および/または特定用途向け集積回路として実装されてもよい。記載した方法およびシステムにみられる信号は、ランダムアクセスメモリまたは光学記憶媒体などの媒体に記憶されてよい。信号は、ラジオネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、例えばインターネットなどのネットワークを介して伝送されてよい。本明細書に記載した方法およびシステムを利用した典型的な装置は、携帯型電子機器または音声信号を記憶し、かつ/またはレンダリングするのに使用されるその他の民生機器である。
本明細書で使用した用語は、特定の実施形態を説明することのみを目的としており、本明細書を限定する意図はない点に注意されたい。本明細書で使用したように、単数形の「a(1つの)」、「an(1つの)」および「the(その)」は、本文で特に別途明記しない限り、複数形も含むことを意図している。「comprises(含む)」および/または「comprising(含んでいる)」という用語は、本明細書で使用されている場合、記載されている特徴、完全性、ステップ、動作、要素、および/または構成要素の存在を特定するものだが、1つ以上の他の特徴、完全性、ステップ、動作、要素、および/または構成要素、および/またはその群の存在あるいはその追加を排除するものではないこともさらに理解されるであろう。
対応する構造、材料、行為、およびあらゆる手段またはステップの均等物のほか、以下の特許請求の範囲にある機能要素は、その機能を実施するためのあらゆる構造、材料、または行為を、具体的に特許請求したその他の請求項要素と合わせて含むことを意図している。本明細書の記載は、説明および記載を目的として提示したものであり、開示した形態での適用に徹底したり限定したりすることを意図するものではない。本明細書および趣旨を逸脱しない限り、当業者には多くの修正および変形形態が明らかであろう。実施形態は、本明細書の原理および実用的な応用を最良の形で説明するため、かつ、構想された特定の使用法に適した様々な修正を加えた様々な実施形態に対する適用を当業者が理解できるようにするために選定され記載されている。



  1. 音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償装置であって、各音声パケットが、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含む、前記パケット損失補償装置において、
    損失パケットの損失フレームに対して前記少なくとも1つのモノラル成分を作成するための第1の補償部と、
    前記損失フレームに対して少なくとも1つの空間成分を作成するための第2の補償部とを備えるパケット損失補償装置。

  2. 前記音声フレームは、適応直交変換に基づいて符号化されている、請求項1に記載のパケット損失補償装置。

  3. 前記音声フレームは、パラメータによる固有分解に基づいて符号化され、
    前記少なくとも1つのモノラル成分は、少なくとも1つの固有チャネル成分を含み、
    前記少なくとも1つの空間成分は、少なくとも1つの空間パラメータを含む、請求項1に記載のパケット損失補償装置。

  4. 前記第1の補償部は、減衰係数を用いるか又は用いずに、隣接フレーム内の対応するモノラル成分を複製することによって、前記損失フレームに対して前記少なくとも1つのモノラル成分を作成するように構成される、請求項1〜3のうちいずれか一項に記載のパケット損失補償装置。

  5. 少なくとも2つの連続するフレームが損失しており、
    前記第1の補償部は、減衰係数を用いるか又は用いずに、隣接した過去フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの前の方の損失フレームに対して前記少なくとも1つのモノラル成分を作成し、減衰係数を用いるか用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの後の方の損失フレームに対して前記少なくとも1つのモノラル成分を作成するように構成される、請求項1〜4のうちいずれか一項に記載のパケット損失補償装置。

  6. 前記第1の補償部は、
    前記損失フレームよりも前の少なくとも1つの過去フレームにある前記少なくとも1つのモノラル成分を時間領域信号に変換するための第1の変換器と、
    前記時間領域信号に関する前記パケット損失を補償して、パケット損失を補償した時間領域信号にするための時間領域補償部と、
    前記パケット損失を補償した時間領域信号を前記少なくとも1つのモノラル成分の形式に変換して、前記損失フレーム内の前記少なくとも1つのモノラル成分に対応する作成後のモノラル成分にするための第1の逆変換器とを含む、請求項1に記載のパケット損失補償装置。

  7. 少なくとも2つの連続するフレームが損失しており、
    前記第1の補償部は、減衰係数を用いるか又は用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの後の方の損失フレームに対して前記少なくとも1つのモノラル成分を作成するようにさらに構成される、請求項6に記載のパケット損失補償装置。

  8. 各音声フレームは、前記音声フレーム内の前記少なくとも1つのモノラル成分、前記音声フレーム内の少なくとも1つの他のモノラル成分に基づいて、予測するために使用される少なくとも1つの予測パラメータをさらに備え、
    前記第1の補償部は、
    前記損失フレームに対して前記少なくとも1つのモノラル成分を作成するための主補償部と、
    前記損失フレームに対して前記少なくとも1つの予測パラメータを作成するための第3の補償部とを含む、請求項1〜7のうちいずれか一項に記載のパケット損失補償装置。

  9. 前記第3の補償部は、減衰係数を用いるか又は用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは1つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも1つの予測パラメータを作成するように構成される、請求項8に記載のパケット損失補償装置。

  10. 作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて、前記損失フレームに対する前記少なくとも1つの他のモノラル成分を予測するための予測復号化器をさらに備える、請求項8に記載のパケット損失補償装置。

  11. 前記予測復号化器は、減衰係数を用いるか又は用いずに、作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分およびその無相関バージョンに基づいて、前記損失フレームに対する前記少なくとも1つの他のモノラル成分を予測するように構成される、請求項10に記載のパケット損失補償装置。

  12. 前記予測復号化器は、前記損失フレームに対する作成された1つのモノラル成分に対応する過去フレーム内の前記モノラル成分を、作成された1つのモノラル成分の前記無相関バージョンとして取り込むように構成される、請求項11に記載のパケット損失補償装置。

  13. 各音声フレームは、少なくとも2つのモノラル成分を含み、
    前記第1の補償部は、
    前記損失フレームに対して前記少なくとも2つのモノラル成分のうちの1つを作成するための主補償部と、
    過去フレームを用いて前記損失フレームに対する少なくとも1つの予測パラメータを計算するための予測パラメータ計算器と、
    作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて、前記損失フレームの前記少なくとも2つのモノラル成分の少なくとも1つのもう一方のモノラル成分を予測するための予測復号化器とを含む、請求項1〜7のうちいずれか一項に記載のパケット損失補償装置。

  14. 前記第1の補償部は、
    少なくとも1つの予測パラメータが、前記損失フレーム以前の最後のフレームに含まれるか該最後のフレームに対して作成および計算のうちのいずれか一方を実施されている場合、前記最後のフレームに対する前記少なくとも1つの予測パラメータに基づいて、前記損失フレームに対する前記少なくとも1つの予測パラメータを作成するための第3の補償部をさらに備え、
    前記予測パラメータ計算器は、予測パラメータが含まれていないか、あるいは前記損失フレーム以前の最後のフレームに対して作成および計算のうちのいずれか一方を実施されていない場合に、前記以前のフレームを用いて前記損失フレームに対する前記少なくとも1つの予測パラメータを計算するように構成され、
    前記予測復号化器は、計算または作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて、前記損失フレームの少なくとも2つのモノラル成分のうちの少なくとも1つのもう一方のモノラル成分を予測するように構成される、請求項13に記載のパケット損失補償装置。

  15. 前記主補償部は、前記少なくとも1つのもう一方のモノラル成分を作成するようにさらに構成され、
    前記第1の補償部は、前記予測復号化器によって予測された前記少なくとも1つのもう一方のモノラル成分を、前記主補償部によって作成された前記少なくとも1つのもう一方のモノラル成分と調整するための調整部をさらに含む、請求項13に記載のパケット損失補償装置。

  16. 前記調整部は、前記予測復号化器によって予測された前記少なくとも1つのもう一方のモノラル成分と、前記主補償部によって作成された前記少なくとも1つのもう一方のモノラル成分との重み付き平均値を、前記少なくとも1つのもう一方のモノラル成分の最終結果として計算するように構成される、請求項15に記載のパケット損失補償装置。

  17. 前記第3の補償部は、減衰係数を用いるか又は用いずに、前記最後のフレーム内の対応する予測パラメータを複製することによって、あるいは1つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも1つの予測パラメータを作成するように構成される、請求項14に記載のパケット損失補償装置。

  18. 前記予測復号化器は、減衰係数を用いるか又は用いずに、作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分およびその無相関バージョンに基づいて、前記損失フレームの前記少なくとも1つのもう一方のモノラル成分を予測するように構成される、請求項13に記載のパケット損失補償装置。

  19. 前記予測復号化器は、前記損失フレームに対する作成された1つのモノラル成分に対応する過去フレーム内の前記モノラル成分を、作成された1つのモノラル成分の前記無相関バージョンとして取り込むように構成される、請求項18に記載のパケット損失補償装置。

  20. 前記予測パラメータ計算器は、前記損失フレームに対して作成された1つのモノラル成分に対応する前記損失フレーム以前の最後のフレーム内の前記モノラル成分と、前記損失フレームに対して予測されることになっている前記モノラル成分に対応する前記最後のフレーム内の前記モノラル成分とに基づいて、前記損失フレームに対する前記少なくとも1つの予測パラメータを計算するように構成される、請求項13に記載のパケット損失補償装置。

  21. 前記予測パラメータ計算器は、前記損失フレームに対して予測されることになっている前記モノラル成分に対応する前記最後のフレーム内の前記モノラル成分と、その相関成分との予測残差の平均二乗誤差が小さくなるように、前記損失フレームに対する前記少なくとも1つの予測パラメータを計算するように構成される、請求項20に記載のパケット損失補償装置。

  22. 前記少なくとも1つの予測パラメータは、エネルギー調整利得を含み、
    前記予測パラメータ計算器は、予測残差の振幅と、前記損失フレームに対して作成された1つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分の振幅との比に基づいて前記エネルギー調整利得を計算するように構成される、請求項21に記載のパケット損失補償装置。

  23. 前記予測パラメータ計算器は、前記予測残差の二乗平均平方根と、前記損失フレームに対して前記作成された1つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分の二乗平均平方根との比に基づいて前記エネルギー調整利得を計算するように構成される、請求項22に記載のパケット損失補償装置。

  24. 前記少なくとも1つの予測パラメータは、エネルギー調整利得を含み、
    前記予測パラメータ計算器は、
    前記損失フレームに対して作成された1つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分に基づいて無相関信号を算出し、
    前記無相関信号のエネルギーの第2の指標と、前記損失フレームに対して作成された1つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分のエネルギーの第1の指標とを算出し、
    前記第2の指標が前記第1の指標よりも大きい場合に、前記無相関信号に基づいて前記エネルギー調整利得を算出するように構成される、請求項20に記載のパケット損失補償装置。

  25. 前記第2の補償部は、1つまたは複数の隣接フレームの前記少なくとも1つの空間成分の値を平滑化することによって、前記損失フレームに対して前記少なくとも1つの空間成分を作成するように構成される、請求項1に記載のパケット損失補償装置。

  26. 前記第2の補償部は、少なくとも1つの隣接した過去フレームおよび少なくとも1つの隣接した未来フレーム内の対応する空間成分の値に基づいて、補間アルゴリズムを介して前記損失フレームに対する前記少なくとも1つの空間成分を作成するように構成される、請求項1に記載のパケット損失補償装置。

  27. 少なくとも2つの連続するフレームが損失しており、
    前記第2の補償部は、少なくとも1つの隣接した過去フレームおよび少なくとも1つの隣接した未来フレーム内の対応する空間成分の値に基づいて、前記損失フレームのすべてに対して前記少なくとも1つの空間成分を作成するように構成される、請求項25または26に記載のパケット損失補償装置。

  28. 前記第2の補償部は、最後のフレーム内の対応する空間成分を複製することによって、前記損失フレームに対して前記少なくとも1つの空間成分を作成するように構成される、請求項1に記載のパケット損失補償装置。

  29. 音声パケットのストリーム内でパケット損失を補償するためのパケット損失補償方法であって、各音声パケットが、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含む、前記パケット損失補償方法において、
    損失パケットの損失フレームに対して前記少なくとも1つのモノラル成分を作成すること、
    前記損失フレームに対して前記少なくとも1つの空間成分を作成すること、を備えるパケット損失補償方法。

  30. 前記音声フレームは、適応直交変換に基づいて符号化されている、請求項29に記載のパケット損失補償方法。

  31. 前記音声フレームは、パラメータによる固有分解に基づいて符号化され、
    前記少なくとも1つのモノラル成分は、少なくとも1つの固有チャネル成分を含み、
    前記少なくとも1つの空間成分は、少なくとも1つの空間パラメータを含む、請求項29に記載のパケット損失補償方法。

  32. 前記少なくとも1つのモノラル成分を作成することは、減衰係数を用いるか又は用いずに、隣接フレーム内の対応するモノラル成分を複製することによって、前記損失フレームに対して前記少なくとも1つのモノラル成分を作成することを含む、請求項29〜31のうちいずれか一項に記載のパケット損失補償方法。

  33. 少なくとも2つの連続するフレームが損失しており、前記少なくとも1つのモノラル成分を作成することは、減衰係数を用いるか又は用いずに、隣接した過去フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの前の方の損失フレームに対して前記少なくとも1つのモノラル成分を作成すること、減衰係数を用いるか用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの後の方の損失フレームに対して前記少なくとも1つのモノラル成分を作成することを含む、請求項29〜32のうちいずれか一項に記載のパケット損失補償方法。

  34. 前記少なくとも1つのモノラル成分を作成することは、
    前記損失フレームよりも前の少なくとも1つの過去フレームにある前記少なくとも1つのモノラル成分を時間領域信号に変換すること、
    前記時間領域信号に関する前記パケット損失を補償して、パケット損失を補償した時間領域信号にすること、
    前記パケット損失を補償した時間領域信号を前記少なくとも1つのモノラル成分の形式に変換して、前記損失フレーム内の前記少なくとも1つのモノラル成分に対応する作成後のモノラル成分にすることを含む、請求項29に記載のパケット損失補償方法。

  35. 少なくとも2つの連続するフレームが損失しており、前記少なくとも1つのモノラル成分を作成することは、減衰係数を用いるか又は用いずに、隣接した未来フレーム内の対応するモノラル成分を複製することによって、少なくとも1つの後の方の損失フレームに対して前記少なくとも1つのモノラル成分を作成することをさらに備える、請求項34に記載のパケット損失補償方法。

  36. 各音声フレームは、前記音声フレーム内の前記少なくとも1つのモノラル成分、前記音声フレーム内の少なくとも1つの他のモノラル成分に基づいて、予測するために使用される少なくとも1つの予測パラメータをさらに備え、
    前記少なくとも1つのモノラル成分を作成することは、
    前記損失フレームに対して前記少なくとも1つのモノラル成分を作成すること、
    前記損失フレームに対して前記少なくとも1つの予測パラメータを作成することを含む、請求項29〜35のうちいずれか一項に記載のパケット損失補償方法。

  37. 前記少なくとも1つの予測パラメータを作成することは、減衰係数を用いるか又は用いずに、最後のフレーム内の対応する予測パラメータを複製することによって、あるいは1つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも1つの予測パラメータを作成することを含む、請求項36に記載のパケット損失補償方法。

  38. 作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて、前記損失フレームに対する前記少なくとも1つの他のモノラル成分を予測することをさらに含む、請求項36に記載のパケット損失補償方法。

  39. 予測した動作は、減衰係数を用いるか又は用いずに、作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分およびその無相関バージョンから、前記損失フレームに対する前記少なくとも1つの他のモノラル成分を予測することを含む、請求項38に記載のパケット損失補償方法。

  40. 予測した動作は、前記損失フレームに対する作成された1つのモノラル成分に対応する過去フレーム内の前記モノラル成分を、作成された1つのモノラル成分の前記無相関バージョンとして取り込む、請求項39に記載のパケット損失補償方法。

  41. 各音声フレームは、少なくとも2つのモノラル成分を含み、
    前記少なくとも1つのモノラル成分を作成することは、
    前記損失フレームに対して前記少なくとも2つのモノラル成分のうちの1つを作成すること、
    過去フレームを用いて前記損失フレームに対する少なくとも1つの予測パラメータを計算すること、
    作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて、前記損失フレームの前記少なくとも2つのモノラル成分の少なくとも1つのもう一方のモノラル成分を予測することを含む、請求項29〜35のうちいずれか一項に記載のパケット損失補償方法。

  42. 前記少なくとも1つのモノラル成分を作成することは、
    少なくとも1つの予測パラメータが、前記損失フレーム以前の最後のフレームに含まれるか該最後のフレームに対して作成および計算のうちのいずれか一方を実施されている場合、前記最後のフレームに対する前記少なくとも1つの予測パラメータに基づいて、前記損失フレームに対する前記少なくとも1つの予測パラメータを作成することをさらに含み、
    計算動作は、予測パラメータが含まれていないか、あるいは前記損失フレーム以前の最後のフレームに対して作成および計算のうちのいずれか一方を実施されていない場合に、前記以前のフレームを用いて前記損失フレームに対する前記少なくとも1つの予測パラメータを計算することを含み、
    予測動作は、前記計算または作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分に基づいて、前記損失フレームの少なくとも2つのモノラル成分のうちの少なくとも1つのもう一方のモノラル成分を予測することを含む、請求項41に記載のパケット損失補償方法。

  43. 前記少なくとも1つのもう一方のモノラル成分を作成すること、
    予測動作によって予測された前記少なくとも1つのもう一方のモノラル成分を、作成された少なくとも1つのもう一方のモノラル成分と調整することをさらに含む、請求項41に記載のパケット損失補償方法。

  44. 調整動作は、予測された前記少なくとも1つのもう一方のモノラル成分と、作成された前記少なくとも1つのもう一方のモノラル成分との重み付き平均値を、前記少なくとも1つのもう一方のモノラル成分の最終結果として計算することを含む、請求項43に記載のパケット損失補償方法。

  45. 前記少なくとも1つの予測パラメータを作成することは、減衰係数を用いるか又は用いずに、前記最後のフレーム内の対応する予測パラメータを複製することによって、あるいは1つまたは複数の隣接フレームの対応する予測パラメータの値を平滑化することによって、あるいは過去フレームおよび未来フレーム内の対応する予測パラメータの値を用いる補間によって、前記損失フレームに対して前記少なくとも1つの予測パラメータを作成することを含む、請求項42に記載のパケット損失補償方法。

  46. 予測動作は、減衰係数を用いるか又は用いずに、作成された少なくとも1つの予測パラメータを用いて、作成された1つのモノラル成分およびその無相関バージョンに基づいて、前記損失フレームの前記少なくとも1つのもう一方のモノラル成分を予測することを含む、請求項41に記載のパケット損失補償方法。

  47. 予測動作は、前記損失フレームに対する作成された1つのモノラル成分に対応する過去フレーム内のモノラル成分を、作成された1つのモノラル成分の前記無相関バージョンとして取り込む、請求項46に記載のパケット損失補償方法。

  48. 計算動作は、前記損失フレームに対して作成された1つのモノラル成分に対応する前記損失フレーム以前の最後のフレーム内のモノラル成分と、前記損失フレームに対して予測されることになっている前記モノラル成分に対応する前記最後のフレーム内のモノラル成分とに基づいて、前記損失フレームに対する前記少なくとも1つの予測パラメータを計算することを含む、請求項41に記載のパケット損失補償方法。

  49. 計算動作は、前記損失フレームに対して予測されることになっているモノラル成分に対応する前記最後のフレーム内のモノラル成分と、その相関成分との予測残差の平均二乗誤差が小さくなるように、前記損失フレームに対する前記少なくとも1つの予測パラメータを計算することを含む、請求項48に記載のパケット損失補償方法。

  50. 前記少なくとも1つの予測パラメータは、エネルギー調整利得を含み、
    計算動作は、予測残差の振幅と、前記損失フレームに対して作成された1つのモノラル成分に対応する、損前記失フレーム以前の最後のフレーム内のモノラル成分の振幅との比に基づいて前記エネルギー調整利得を計算することを含む、請求項49に記載のパケット損失補償方法。

  51. 計算動作は、前記予測残差の二乗平均平方根と、前記損失フレームに対して作成された1つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内のモノラル成分の二乗平均平方根との比に基づいて前記エネルギー調整利得を計算することを含む、請求項50に記載のパケット損失補償方法。

  52. 前記少なくとも1つの予測パラメータは、エネルギー調整利得を含み、
    計算動作は、
    前記損失フレームに対して作成された1つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内の前記モノラル成分に基づいて無相関信号を算出すること、
    前記無相関信号のエネルギーの第2の指標と、前記損失フレームに対して作成された1つのモノラル成分に対応する、前記損失フレーム以前の最後のフレーム内のモノラル成分のエネルギーの第1の指標とを算出すること、
    前記第2の指標が前記第1の指標よりも大きい場合に、前記無相関信号に基づいて前記エネルギー調整利得を算出することを含む、請求項48に記載のパケット損失補償方法。

  53. 前記少なくとも1つの空間成分を作成することは、1つまたは複数の隣接フレームの前記少なくとも1つの空間成分の値を平滑化することによって、前記損失フレームに対して前記少なくとも1つの空間成分を作成することを含む、請求項29に記載のパケット損失補償方法。

  54. 前記少なくとも1つの空間成分を作成することは、少なくとも1つの隣接した過去フレームおよび少なくとも1つの隣接した未来フレーム内の対応する空間成分の値に基づいて、補間アルゴリズムを介して前記損失フレームに対する前記少なくとも1つの空間成分を作成することを含む、請求項29に記載のパケット損失補償方法。

  55. 少なくとも2つの連続するフレームが損失しており、前記少なくとも1つの空間成分を作成することは、少なくとも1つの隣接した過去フレームおよび少なくとも1つの隣接した未来フレーム内の対応する空間成分の値に基づいて、前記損失フレームのすべてに対して前記少なくとも1つの空間成分を作成することを含む、請求項53または54に記載のパケット損失補償方法。

  56. 前記少なくとも1つの空間成分を作成することは、最後のフレーム内の対応する空間成分を複製することによって、前記損失フレームに対して前記少なくとも1つの空間成分を作成することを含む、請求項29に記載のパケット損失補償方法。

  57. 計算動作は、下式に基づいて前記予測パラメータを計算することを含み、
    式中、norm()はRMS(根平均二乗)演算を指し、上付き文字Tは転置行列を表し、pはフレーム数であり、kは周波数ビンであり、E1(p−1,k)は前記最後のフレーム内の主要モノラル成分であり、Em(p−1,k)は、前記最後のフレーム内の重要性の低いモノラル成分であり、mは、前記最後のフレーム内の重要性の低いモノラル成分の連続番号であり、
    は、前記損失フレームpに対する作成された主要モノラル成分E1(p,k)に基づいて、前記損失フレームpに対して重要性の低いモノラル成分Em(p,k)を予測するための予測パラメータである、請求項48に記載のパケット損失補償方法。

  58. 前記計算動作は、下式に基づいて前記パラメータ
    を調整することを含み、
    請求項57に記載のパケット損失補償方法。

  59. 前記損失フレームに対する前記少なくとも1つのモノラル成分は、第1の補償方法で作成され、前記損失フレームに対する前記少なくとも1つの空間成分は、第2の補償方法で作成され、前記第1の補償方法は前記第2の補償方法とは異なる、請求項29〜58のうちいずれか一項に記載のパケット損失補償方法。

  60. 前記音声パケットに対して逆適応変換を実施して逆変換した音場信号を得ることをさらに含む、請求項29〜59のうちいずれか一項に記載のパケット損失補償方法。

  61. 前記逆適応変換は、逆のKarhunen−Loeve変換(KLT)を含む、請求項60に記載のパケット損失補償方法。

  62. 前記予測パラメータ計算器は、下式に基づいて前記予測パラメータを計算するように構成され、
    式中、norm()はRMS(根平均二乗)演算を指し、上付き文字Tは転置行列を表し、pはフレーム数であり、kは周波数ビンであり、E1(p−1,k)は前記最後のフレーム内の主要モノラル成分であり、Em(p−1,k)は、前記最後のフレーム内の重要性の低いモノラル成分であり、mは、前記最後のフレーム内の重要性の低いモノラル成分の連続番号であり、
    は、前記損失フレームpに対する作成された主要モノラル成分E1(p,k)に基づいて、前記損失フレームpに対して重要性の低いモノラル成分Em(p,k)を予測するための予測パラメータである、請求項20に記載のパケット損失補償方法。

  63. 前記予測パラメータ計算器は、下式に基づいて前記パラメータ
    を調整するように構成され、
    請求項62に記載のパケット損失補償装置。

  64. 前記第1の補償部は、第1の補償方法を用いて前記損失フレームに対する前記少なくとも1つのモノラル成分を作成するように構成され、
    前記第2の補償部は、第2の補償方法を用いて前記損失フレームに対する前記少なくとも1つの空間成分を作成するように構成され、
    前記第1の補償方法は前記第2の補償方法とは異なる、請求項1〜28、62および63のうちいずれか一項に記載のパケット損失補償装置。

  65. 前記音声パケットに逆適応変換を実施して逆変換した音場信号を得るための第2の逆変換器をさらに備える、請求項1〜28、62〜64のうちいずれか一項に記載のパケット損失補償装置。

  66. 前記逆適応変換は、逆のKarhunen−Loeve変換(KLT)を含む、請求項65に記載のパケット損失装置。

  67. 請求項1〜28および62〜66のうちいずれか一項に記載のパケット損失補償装置を備えるサーバと、請求項1〜28および62〜66のうちいずれか一項に記載のパケット損失補償装置とのうちの少なくとも一方を備える通信端末を備える音声処理システム。

  68. 入力音声信号に適応変換を実施して前記少なくとも1つのモノラル成分および前記少なくとも1つの空間成分を抽出するための第2の変換器を備える通信端末をさらに備える、請求項67に記載の音声処理システム。

  69. 前記適応変換は、Karhunen−Loeve変換(KLT)を含む、請求項68に記載の音声処理システム。

  70. 前記第2の変換器は、
    前記入力音声信号の各フレームを前記少なくとも1つのモノラル成分に分解するための適応変換器であって、該モノラル成分は、変換行列を介して前記入力音声信号の前記フレームと関連付けられる、前記適応変換器と、
    前記変換行列の各成分の値を平滑化して、現在フレームに対する平滑化した変換行列にする平滑化部と、
    前記平滑化した変換行列から前記少なくとも1つの空間成分を導き出すための空間成分抽出器とをさらに備える、請求項68に記載の音声処理システム。

  71. コンピュータプログラム命令が記録されているコンピュータ可読媒体であって、
    プロセッサによって実行されると、前記コンピュータプログラム命令により前記プロセッサが音声パケットのストリーム内のパケット損失を補償するためのパケット損失補償方法を実行でき、
    各音声パケットが、少なくとも1つのモノラル成分および少なくとも1つの空間成分を含む伝送形式で少なくとも1つの音声フレームを含み、
    前記パケット損失補償方法が、
    損失パケット内の損失フレームに対して前記少なくとも1つのモノラル成分を作成すること、
    前記損失フレームに対して前記少なくとも1つの空間成分を作成することを備える、コンピュータ可読媒体。

 

 

Patent trol of patentswamp
類似の特許
【課題】
【解決手段】 符号化コア信号とパラメトリックデータとを含む符号化オーディオ信号を復号する復号装置であり、符号化コア信号を復号して復号化コア信号を得るコアデコーダ(600)と、周波数再生動作の前または後に復号化コア信号を解析して解析結果(603)を得るアナライザ(602)と、復号化コア信号のスペクトル部、パラメトリックデータ(605)および解析結果(603)を使用して、復号化コア信号に含まれないスペクトル部を再生成する周波数再生成器とを備える復号装置。
【選択図】図6A
【課題】
【解決手段】 符号化信号を復号する装置において、第1セットの第1スペクトル部の符号化表現を復号して、復号化された第1セットの第スペクトル部を得るオーディオデコーダ(1102)と、第2セットの第2スペクトル部の符号化パラメトリック表現を復号して、パラメトリック表現(1103)の復号化表現を得るパラメトリックデコーダ(1104)とを備え、パラメトリック情報は、各ターゲット周波数タイルに対して、ソース領域識別を整合情報として含み、第1セットの第1スペクトル部(1101)から整合情報により識別されるソース領域を用いてターゲット周波数タイルを再生する周波数再生器(1106)を備える。
【選択図】図11A
符号化音声信号を復号して再構成音声信号を得るための装置が提供される。当該装置は、1つ以上のフレームを受信するための受信インターフェース(1110)と、係数生成部(1120)と、信号再構成部(1130)とを備える。係数生成部(1120)は、1つ以上のフレームのうちの現在のフレームが受信インターフェース(1110)によって受信されており、且つ受信インターフェース(1110)によって受信されている現在のフレームが破損していない場合、現在のフレームに含まれる1つ以上の第1の音声信号係数を決定するように構成され、前記1つ以上の第1の音声信号係数は、符号化音声信号の特性を示し、1つ以上のノイズ係数が、符号化音声信号の背景ノイズを示す。更に、係数生成部(1120)は、現在のフレームが受信インターフェース(1110)によって受信されていない場合、又は受信インターフェース(1110)によって受信されている現在のフレームが破損している場合、1つ以上の第1の音声信号係数と1つ以上のノイズ係数とに応じて1つ以上の第2の音声信号係数を生成するように構成される。音声信号再構成部(1130)は、現在のフレームが受信インターフェース(1110)によって受信されており、且つ受信インターフェース(1110)によって受信されている現在のフレームが破損していない場合、1つ以上の第1の音声信号係数に応じて再構成音声信号の第1の部分を再構成するように構成される。更に、音声信号再構成部(1130)は、現在のフレームが受信インターフェース(1110)によって受信されていない場合、又は受信インターフェース(1110)によって受信されている現在のフレームが破損している場合、1つ以上の第2の音声信号係数に応じて再構成音声信号の第2の部分を再構成するように構成される。
【選択図】図11
本発明の実施形態は適応的なオーディオ・コンテンツ生成に関する。具体的には、適応的なオーディオ・コンテンツを生成するための方法が提供される。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出し、少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成することを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。
音声信号を復号するための装置が提供される。当該装置は、受信インターフェース(110)を備え、受信インターフェースは、音声信号の第1の音声信号部分を含む第1のフレームを受信するように構成され、受信インターフェース(110)は、音声信号の第2の音声信号部分を含む第2のフレームを受信するように構成される。更に、当該装置は、ノイズレベルトレース部(130)を備え、ノイズレベルトレース部(130)は、第1の音声信号部分及び第2の音声信号部分のうちの少なくとも1つに応じてノイズレベル情報を決定するように構成され、ノイズレベル情報は、トレース領域において表される。更に、当該装置は、複数のフレームのうちの第3のフレームが受信インターフェース(110)によって受信されていない場合、又は前記第3のフレームが受信インターフェース(110)によって受信されているが破損している場合、ノイズレベル情報に応じて音声信号の第3の音声信号部分を第1の再構成領域において再構成するための第1の再構成部(140)を備え、第1の再構成領域は、トレース領域と異なる又は等しい。更に、当該装置は、複数のフレームのうちの第4のフレームが受信インターフェース(110)によって受信されていない場合、又は前記第4のフレームが受信インターフェース(110)によって受信されているが破損している場合、ノイズレベル情報をトレース領域から第2の再構成領域に変換するための変換部(121)を備え、第2の再構成領域は、トレース領域とは異なり、第2の再構成領域は、第1の再構成領域とは異なる。更に、当該装置は、複数のフレームのうちの前記第4のフレームが受信インターフェース(110)によって受信されていない場合、又は前記第4のフレームが受信インターフェース(110)によって受信されているが破損している場合、第2の再構成領域において表現されているノイズレベル情報に応じて音声信号の第4の音声信号部分を第2の再構成領域において再構成するための再構成部(141)を備える。
【選択図】図1a
信号符号化方法及びデバイスが開示される。この方法は、現在の入力フレームの前のフレームの符号化方式が連続符号化方式である場合、現在の入力フレームがsidフレームに符号化される場合に現在の入力フレームに従ってデコーダにより生成されるコンフォートノイズを予測し、実際の静音信号を決定するステップであり、現在の入力フレームは静音フレームであるステップ(210)と、コンフォートノイズと実際の静音信号との間の逸脱度を決定するステップ(220)と、逸脱度に従って現在の入力フレームの符号化方式を決定するステップであり、現在の入力フレームの符号化方式は、ハングオーバフレーム符号化方式又はsidフレーム符号化方式を含むステップ(230)と、現在の入力フレームの符号化方式に従って現在の入力フレームを符号化するステップ(240)とを含む。コンフォートノイズと実際の静音信号との間の逸脱度に従って、現在の入力フレームの符号化方式がハングオーバフレーム符号化方式又はsidフレーム符号化方式であることが決定される。これは、通信帯域幅を節約することができる。
オーディオ入力データ(101)を符号化してオーディオ出力データ(501)を取得するオーディオ符号器は、複数のオーディオチャネルと複数のオーディオオブジェクトと前記複数のオーディオオブジェクトの1つ以上に関連するメタデータとを受信する入力インターフェイス(100)と、前記複数のオブジェクトと前記複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー(200)であって、各プレミクスされたチャネルは1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む、ミキサー(200)と、コア符号器入力データをコア符号化するコア符号器(300)と、前記複数のオーディオオブジェクトの1つ以上に関連する前記メタデータを圧縮するメタデータ圧縮部(400)とを備える。前記オーディオ符号器は、前記コア符号器がコア符号器入力データとして前記入力インターフェイスにより受信された前記複数のオーディオチャネルと前記複数のオーディオオブジェクトとを符号化する第1モードと、前記コア符号器(300)が前記コア符号器入力データとして前記ミキサー(200)により生成された前記複数のプレミクス済みチャネルを受信する第2モードとを含む、少なくとも2つのモードからなる1クループの両モードにおいて作動するよう構成されている。
【選択図】 図1
ダウンミックス信号Xとサイド情報psiとからなるマルチオブジェクト・オーディオ信号を復号化するためのオーディオ復号器を提案する。サイド情報は、時間/周波数領域Rにおけるオーディオオブジェクトsiについてのオブジェクト特有サイド情報psiiと、時間/周波数領域Rにおけるオーディオオブジェクトsiについてのオブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能TFRhを示すオブジェクト特有時間/周波数分解能情報tfriiとを含む。オーディオ復号器は、オーディオオブジェクトsiについて、サイド情報psiからオブジェクト特有時間/周波数分解能情報tfriiを決定するオブジェクト特有時間/周波数分解能決定部110と、オブジェクト特有時間/周波数分解能に従ってオブジェクト特有サイド情報を使用してダウンミックス信号Xからオーディオオブジェクトsiを分離するオブジェクト分離部120とを含む。
【選択図】 図8
音声信号を復号するための装置が提供される。当該装置は、受信インターフェース(110)を備え、受信インターフェース(110)は、音声信号の第1の音声信号部分を含む第1のフレームを受信するように構成され、受信インターフェース(110)は、音声信号の第2の音声信号部分を含む第2のフレームを受信するように構成される。更に、当該装置は、ノイズレベルトレース部(130)を備え、ノイズレベルトレース部(130)は、第1の音声信号部分および第2の音声信号部分の少なくとも1つに応じてノイズレベル情報を決定するように構成され、ノイズレベル情報は、トレース領域において表される。更に、当該装置は、複数のフレームのうちの第3のフレームが受信インターフェース(110)によって受信されていない場合、又は前記第3のフレームが受信インターフェース(110)によって受信されているが破損している場合、ノイズレベル情報に応じて音声信号の第3の音声信号部分を、第1の再構成領域において、再構成するための第1の再構成部(140)を備え、第1の再構成領域は、トレース領域と異なる又は等しい。更に、当該装置は、複数のフレームのうちの第4のフレームが受信インターフェース(110)によって受信されていない場合、又は前記第4のフレームが受信インターフェース(110)によって受信されているが破損している場合、ノイズレベル情報をトレース領域から第2の再構成領域へ変換するための変換部(121)を備え、第2の再構成領域は、トレース領域と異なっており、第2の再構成領域は、第1の再構成領域と異なる。更に、当該装置は、複数のフレームのうちの前記第4のフレームが受信インターフェース(110)によって受信されていない場合、又は前記第4のフレームが受信インターフェース(110)によって受信されているが破損している場合、第2の再構成領域において表されているノイズレベル情報に応じて音声信号の第4の音声信号部分を、第2の再構成領域において、再構成するための第2の再構成部(141)を備える。
【選択図】図14
To top