オーバーラップ範囲における組み合わせを用いて音声信号を処理するための装置及び方法

著者らは特許

G06F17/14 - フーリエ,ウオルシュまたは類似の領域変換
G10L19/02 - スペクトル分析を用いるもの,例.変換ボコーダまたはサブバンドボコーダ
G10L19/022 - ブロック化,すなわち時間領域内の標本のグループ化;分析ウインドウの選択;オーバーラップ因子
G10L19/032 - スペクトル成分の量子化または逆量子化
G10L21/038 - 帯域拡張技術を用いるもの

の所有者の特許 JP2016528562:

フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.

 

スペクトル値のブロックのシーケンス(114)を含む音声信号を処理するための装置は、第1のブロックについて少なくとも1つの変更値(102)を用いてブロックのシーケンスを処理することによってオーバーラップ範囲(170)におけるエイリアシング低減済み又はエイリアシング無しの第1の結果信号を得るとともに、ブロックのシーケンスの第2のブロックについて少なくとも1つの第2の異なる変更値(106)を用いてオーバーラップ範囲(170)におけるエイリアシング低減済み又はエイリアシング無しの第2の結果信号(108)を得るための処理部(100)と、オーバーラップ範囲(170)において第1の結果信号(104)及び第2の結果信号(108)を組み合わせて、オーバーラップ範囲(170)についての処理済み信号(112)を得るための組み合わせ部(110)と、を備える。
【選択図】図1a

 

 

本発明は、音声処理に関するものであり、具体的には、音声信号のエイリアシング影響下の処理の文脈における音声処理に関するものである。
通常動作においては、変更後離散余弦変換(MDCT)は、音声符号化用途に極めて好適なツールとなるための特徴を有している。MDCTは、複数のオーバーラップするフレームから、臨界的にサンプリングされたスペクトル信号表現を生成し、完全な復元を行う。これは、逆方向の変換及びオーバーラップ領域におけるオーバーラップ加算演算を適用することにより、順方向の変換のスペクトル係数から入力信号を復元することができることを意味する。しかしながら、スペクトル係数に追加の処理を適用する場合、MDCTは、DFTベースのオーバーラップ処理といったオーバーサンプリングされた表現と比較していくつかの欠点を有する。比較的単純な時間及び周波数依存のゲイン制御、例えばダイナミックレンジ制御又はクリッピング防止に用いられるものでも、不所望の副作用が生じ得る。従って、MDCTベースのスペクトル表現はデコーダ内で利用可能であるにもかかわらず、音声復号に対するDFTベースの別個の後処理が、この種の信号変更を必要とするいくつかの用途において適用される。計算上の複雑さ以外のもう1つの欠点は、このような後処理によって導入される追加的な遅延である。
MDCT時間領域エイリアシング低減のための一般的な方策は、オーバーサンプリングされた変調後の複雑なラップド変換(MCLT)を再作成することである。MCLTは、MDCTを、その複雑な対照物である変更後離散正弦変換(MDST)と組み合わせた結果のものである。MCLTにおいては、信号のDFT表現といった類似の特徴が提供されるため、スペクトル操作による時間領域エイリアシング(TDA)に対するロバスト性は、DFT表現に相当する。しかし、残念ながら、MDCTスペクトルからMDSTスペクトルを算出することは計算上極めて複雑であり、かなりの信号遅延をもたらす。従って、先行技術においては、遅延と複雑さの両方を低減させるための技術が提供されている[非特許文献2]〜[非特許文献3]。これらの方策においては、必要なMDST値に近似するために、実から複雑(R2C)の変換が用いられる。そして、MCLT領域において、スペクトル係数の操作を適用する。その後、複雑から実(C2R)の変換を用いて複雑な値を再びMDCT領域に変換する。この方策は、エイリアシングに対するロバスト性の観点で良好な結果をもたらすものであるが、いくつかの問題を有する。第1に、MDST係数を推定し、その正確さは計算上の複雑さの量によって規定される。第2に、変換チェーンR2C−C2Rは、やはり遅延をもたらす。
H. S. Malvar, "A modulated complex lapped transform and its applications to audio processing", in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), Phoenix, March 1999
Kuech, F.; Edler, B., "Aliasing Reduction for Modified Discrete Cosine Transform Domain Filtering and its Application to Speech Enhancement", in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 21-24 Oct. 2007
Edler, B., "Aliasing Reduction for Gain Control with Critically Sampled Filter Banks", in First International Conference on Communications and Electronics, ICCE '06, 10-11 Oct. 2006
E. Larsen and R. M. Aarts. Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004
M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, May 2002
P. Ekstrand, "Bandwidth Extension of Audio Signals by Spectral Band Replication", in Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, November 2002

本発明の目的は、音声信号の処理のための向上した概念を提供することである。
この目的は、請求項1に記載の音声信号を処理するための装置、請求項15に記載の音声信号を処理する方法、又は請求項16のコンピュータプログラムによって達成される。
本発明の局面において、スペクトル値のブロックのシーケンスを含む音声信号を処理するための装置は、第1のブロックについて少なくとも1つの変更値を用いて前記スペクトル値のブロックのシーケンスを処理することによってオーバーラップ範囲におけるエイリアシング低減済み又はエイリアシング無しの第1の結果信号を得るとともに、前記スペクトル値のブロックのシーケンスの第2のブロックについて少なくとも1つの第2の異なる変更値を用いて前記オーバーラップ範囲におけるエイリアシング低減済み又はエイリアシング無しの第2の結果信号を得るための処理部を備える。次に、両方が同じ信号部分の1つの特定の表現を構成する、前記オーバーラップ範囲内で両方の信号を組み合わせて、前記オーバーラップ範囲についての処理済み信号を得る。
好ましくは、この組み合わせは、一方の結果信号から他方の結果信号へのクロスフェード、即ち、第1の結果信号のフェードアウト及び同時に第2の結果信号のフェードインを利用する。
好ましくは、前記処理部は、前記少なくとも1つの第1の変更値を用いて前記シーケンスの第1のブロックを変更することによって第1の変更後ブロックを得、前記少なくとも1つの第2の変更値を用いて前記シーケンスの第2のブロックを変更して第2の変更後ブロックを得、前記少なくとも1つの第1の変更値を用いて前記第2のブロックを変更して第3の変更後ブロックを得、前記少なくとも1つの第2の変更値を用いて前記第1のブロックを変更して第4の変更後ブロックを得るための変更部を備える。スペクトル・時間変換部が、前記第1から第4の変更後ブロックをその時間表現に変換するように構成され、前記第1及び第3の変更後ブロックをオーバーラップ加算することで結果信号を得るとともに、前記第2及び第4の変更後ブロックの時間表現をオーバーラップ加算することで前記第2の結果信号を得るためのオーバーラップ加算部が提供される。従って、基本的に、2つの並列の逆変換演算が実行される。即ち、第1のゲイン変更値によるものと、第2のゲイン変更値によるものと、である。
ゲイン変更値が単に時間可変である、即ち周波数範囲全体に亘って一定である場合、ブロックの変更には単一のゲイン変更値のみが用いられる。しかしながら、ゲイン変更値が周波数に亘って変化する場合、スペクトル値の各ブロックは、複数のゲイン変更値によって変更される。ゲイン変更値は、各々個々のスペクトル値に該当する場合もあれば、2,3,4又は5個の周波数隣接のスペクトル値といった1群のスペクトル値に該当する場合もある。しかしながら、一般的な場合においては、各々全てのスペクトル線につき単一のゲイン変更値が存在することができ、スペクトル値のブロックは、或る数のゲイン変更値によって変更され、その数はスペクトル値のブロックにおけるスペクトル値の数に等しい。
従って、この局面に従うと、前記オーバーラップ範囲について2つのエイリアシング低減済み又はエイリアシング無しの出力信号が生成され、それからこれら2つの出力又は結果信号の間でクロスフェードが実行される。
本発明の更なる局面に従うと、音声信号を処理するための装置は、前記シーケンスの第1のブロックについての少なくとも1つの第1の変更値、及び、前記スペクトル値のブロックのシーケンスの第2のブロックについての少なくとも1つの第2の異なる変更値を用いてエイリアシング影響下の信号を算出するための処理部を備える。次に、エイリアシングエラー信号が推定され、ここでこのエイリアシングエラー信号は、前記エイリアシング影響下又はエイリアシング支配下の音声信号に含まれる。次に、前記エイリアシング影響下の信号及び前記エイリアシングエラー信号を組み合わせて、前記組み合わせによって得られた信号がエイリアシング低減済み又はエイリアシング無しの信号となるようにする。
換言すると、前記他の局面は、エイリアシング影響下の信号及びエイリアシングエラー信号を算出し、続いて両方の信号を組み合わせて前記エイリアシング低減済み又はエイリアシング無しの信号を得ることを利用する。好ましくは、エイリアシングの相殺は、両方のブロックについてゲインの等しい追加の周波数・時間変換によってオーバーラップ領域において入力信号を復元し、窓関数又は関連の関数によって乗算し、時間反転を行い、前記2つのゲイン又は変更値間のゲイン差によって乗算し、前記異なるゲインによる処理の出力から減算することによって行われる。
好ましくは、用いられる変換アルゴリズムは、変更後離散余弦変換(MDCT)であり、逆の変換演算は、逆変更後離散余弦変換である。これに代えて、このような他のエイリアシング導入アルゴリズムを用いても良く、これには例えばMDST(変更後離散正弦変換)又は逆変更後離散正弦変換(IMDST)又は、その他任意のこのような変換であって、分析側では時間部分におけるサンプルの数がスペクトル値の数よりも大きい、又は換言すると、スペクトル値からなる2つの続くブロック、即ち時間的に続くスペクトル値のブロックを結果として生じさせる2つの続く時間部分間にオーバーラップ領域が存在する変換、が挙げられる。ここでは、スペクトル値からなる両方のブロックは、同一のオーバーラップ領域、即ちスペクトル値からなる2つの時間的に続くブロックを最終結果として生じさせた2つの時間部分間のオーバーラップ領域に少なくとも部分的に関連する。これは、分析側において、サンプルのブロック又はフレーム内の時間領域サンプルの数が、周波数領域表現ブロック内の周波数領域値の数よりも大きく、合成側においては、合成された時間領域サンプルの数が、時間領域サンプルからなるオーバーラップするブロックを合成するために用いられるブロックにおけるスペクトル値の数よりも大きいことを意味する。
しかしながら、合成側における最終段階では、オーバーラップ加算処理を実行することで、最終的に、オーバーラップ範囲におけるサンプルの数が合成フレームにおける時間領域サンプルの数よりも少なく、好ましくはスペクトル値のブロックのスペクトル値の数に等しい。後者の場合、臨界的にサンプリングされた変換が得られ、このような変換が本発明では好ましいが、本発明は、非臨界的にサンプリングされた変換に適用することも可能である。但し、これらの変換は、臨界的にサンプリングされた変換と比較して或る種の追加的なオーバーヘッドを有する。
本発明の各局面は、時間・周波数可変ゲイン変更によるエイリアシングを補償するために有用であるだけでなく、帯域幅拡張(BWE)にも有用である。この使用側では、BWEアルゴリズムのコピーアップ段階によって生成された複写スペクトルは、スペクトル包絡線によって、元のスペクトル包絡線と可能な限り近く一致するように形状付けられる必要がある[非特許文献4]〜[非特許文献6]。このスペクトル包絡線は、一般的に、時間及び周波数の両方に依存する。殆どの先行技術のBWE技術においては、コピーアップ方式は一定であるが、追加のエイリアシングへ導く時間可変コピーアップを実行することも可能である。本願において提案される新規のエイリアシング相殺技術もまた、これらBWEアーティファクトを取り扱うことができる。
以下、本発明の好ましい実施例について、添付の図面の文脈で説明する。
図1aは、第1の局面の好ましい実施例を示す図である。 図1bは、第2の局面の好ましい実施例を示す図である。 図1cは、スペクトル値のブロックのシーケンスの概略図である。 図1dは、図1cの各ブロックのシーケンスを結果として生じさせるオーバーラップする時間部分のシーケンスの概略図である。 図2aは、エイリアシングを導入する順方向変換の実現例を示す図である。 図2bは、エイリアシングを低減させる逆変換の実現例を示す図である。 図3aは、第2の局面の更なる実施例を示す図である。 図3bは、第2の局面の更なる実施例を示す図である。 図3cは、第1及び第2の局面についての帯域幅拡張用途の概略図である。 図4は、第2の局面についてのエイリアシングエラー成分を示す図である。 図5aは、第1の局面の実施例を示す図である。 図5bは、第2の局面の実施例を示す図である。 図6は、第2の局面に関連した復元、時間反転及び窓化によって生成されるエイリアシング限界線を示す図である。 図7は、フレームにおける可変ゲイン因数を示す図である。 図8は、逆MDCT処理に先立つゲイン因数の適用を示す図である。 図9は、図8の処理に関連した信号を示す図である。
図1aは、第1の局面に従うスペクトル値のブロックのシーケンスを含む音声信号を処理するための装置を示す。当該処理するための装置は、第1のブロックについて少なくとも1つの変更値102を用いてスペクトル値のブロックのシーケンスを処理することによってエイリアシング低減済み又はエイリアシング無しの第1の結果信号104を得るための処理部100を備える。この処理部は、更に、時間的に第1のブロックに続く又は時間的に第1のブロックに先行して第1のブロックに直接隣接する、ブロックのシーケンスの第2のブロックを、少なくとも1つの第2の異なる変更値、即ち第1の変更値と異なる第2の変更値106を用いて処理することによって、オーバーラップ範囲におけるエイリアシング低減済み又はエイリアシング無しの第2の結果信号108を得る。従って、処理部は、同じオーバーラップ範囲について、2つのエイリアシング無し又は少なくともエイリアシング低減済みの時間領域信号を生成する。これら信号108を組み合わせ部110に入力する。組み合わせ部110は、オーバーラップ範囲における第1及び第2の結果信号を組み合わせてオーバーラップ範囲についての処理済み信号112を得る。好ましくは、処理部は、オーバーラップ領域についての2つのエイリアシング無しの出力信号を生成するように構成され、次に、好ましくは、これら2つのエイリアシング無しの出力信号間のクロスフェードを実行する。これを達成するための処理部についての1実現例は、両方のブロックについてのIMDCT処理又はブロックについての両方の異なる変更値といった完全な逆変換処理を設けることである。換言すると、処理部は、第1のブロックのオーバーラップ範囲についての完全なIMDCT処理、第1及び第2のブロックについての同一の変更値を生成する。更に、処理部は、第1及び第2のブロックについての完全なIMDCT処理を実行するが、ここでは第2の変更値を用いる。これらの完全なIMDCT処理演算の両方の結果として、オーバーラップ範囲における2つのエイリアシング無し又は少なくともエイリアシング低減済みの時間領域結果信号が得られ、これらを次に組み合わせ部によって組み合わせる。
続いて、図1bの文脈で第2の局面について説明する。図1bは、第2の局面に関して本発明の実施例に従うスペクトル値のブロックのシーケンスを含む音声信号を処理するための装置を示す。当該装置は、スペクトル値のブロックのシーケンス114の第1のブロックについて少なくとも1つの第1の変更値102を用い、スペクトル値のブロックのシーケンス114の第2のブロックについて少なくとも1つの異なる第2の変更値106を用いて、エイリアシング影響下の信号154を算出するための処理部150を備える。処理部は、エイリアシング影響下の信号154に加えて、エイリアシングエラー信号158を推定するように構成される。更に、当該装置は、エイリアシング影響下の信号及びエイリアシングエラー信号を組み合わせるための組み合わせ部152を備え、組み合わせ部152による組み合わせによって得られる処理済み音声信号112がエイリアシング低減済み又はエイリアシング無しの信号となるようにする。
具体的に、図1bに示す第2の局面によると、上述の処理は、エイリアシング影響下の信号154を結果としてもたらす同じオーバーラップ範囲に関するブロックについてのそれぞれ異なる変更値を用いて実行される。しかしながら、このエイリアシング影響下の信号が更なる処理のために使用されエイリアシング導入エラーが許容される先行技術とは対照的に、これは本発明では行われない。その代わりに、処理部150は、追加的にエイリアシングエラー信号158を算出し、次にこのエイリアシングエラー信号を、典型的には減算又は一般的に重み付き線形組み合わせによってエイリアシング影響下の信号と組み合わせるため、処理済み音声信号は好ましくはエイリアシング無しとなるが、組み合わせ又は特定のエイリアシングエラー信号が完全に正確に算出されない場合でも、組み合わせの結果として、エイリアシング影響下の信号154よりもエイリアシングエラーの少ない処理済み音声信号が得られる。
多くの用途では、スペクトル係数にゲイン因数を適用することでスペクトル係数を変更してからIMDCTに入力することが望ましく、そのため

となり、ここで、X(k)はj番目のフレームのMDCTスペクトルであり、kは周波数インデックスであり、g(k)は、時間及び周波数依存のスペクトル重み付け関数であり、Y(k)は、フィルタリング済みのMDCTスペクトルである。このゲイン因数の適用を図8にも示す。
特に、図8は、典型的な先行技術のMDCT合成システムを示す。ここでは、時間インデックスj−1を有する先行ブロック800のスペクトル値を、乗算器802によって少なくとも1つのゲイン因数gj−1によって乗算する。更に、時間インデックスjを有する現在のブロック804を、805で示す現在のブロックについてのゲイン因数gによって乗算又は変更する。具体的に、801で示す時間インデックスj−1を有する先行ブロックについてのゲイン因数801と、現在のブロック805についてのゲイン因数gとは互いに異なる。更に、図8に略示するように、ゲイン因数は周波数依存であり得る。これは周波数インデックスkによって示される。従って、インデックスkを有する各々のスペクトル値を、ブロック800又は804のいずれにゲイン因数が属するのかに応じて対応する第1のゲイン因数801又は第2のゲイン因数805で乗算する。従って、2つのブロックについてのゲイン因数が時間可変及び/又は周波数可変であるという事実により、図8に示す処理の適用時に、エイリアシングエラーはその結果として当該処理を生じさせる。この処理は、先行ブロック800についてのIMDCT演算807と、現在のブロック804についての更なるIMDCT演算808とから構成される。IMDCT演算は、図2bの文脈で後述するように、周波数時間変換と後続の展開(fold−out)演算とから構成される。次に、ブロック809によって、実際の加算前に追加的に合成窓化部を含むオーバーラップ加算処理を実行し、810で示すエイリアシング影響下の信号y(n)を最終的に得る。従って、エイリアシング影響下の信号810は、典型的に、図1bの154に示すエイリアシング影響下の信号と全く同じであり得る。
2つの続くフレームにおけるゲインが異なる場合、図9(右側)から見て取れるように、エイリアシング限界線はもはや互いに相殺せず、ゲイン因数は、周波数に亘って一定であるが、時間に亘っては一定ではない。この例では、それらはg(k)=1及びg(k)=0.7であるため、残りのエイリアシング成分は、0.3の因数によって乗算されたフレーム0からのエイリアシングである。
なお、このような主に例示のために選んだ単純なケースでは、周波数領域処理は必要ではない。好適な時間包絡線を適用することによってエイリアシングの問題なしに類似の効果が達成可能であるからである。しかしながら、この例は、エイリアシング低減方式の基本概念を説明する助けとなる。ここでは、残りのエイリアシング成分は、時間反転され窓化された入力信号を2つのゲイン因数の差によって乗算したものであり、これはこの例では0.3である。従って、エイリアシングは、以下のステップによって相殺することができる。
・2つのブロックについての等しいゲインを有する追加のIMDCTによるオーバーラップ領域における入力信号の復元
・関数w(n)・w(N+n)による乗算
・時間反転
・ゲイン差0.3による乗算
・異なるゲインによる処理の出力からの減算
最初の3つのステップの出力を図6に示す。
第1の局面においては、オーバーラップ領域についての2つのエイリアシング無しの出力信号を算出し、それからこれらの間でクロスフェードを実行する。図5aは、実施例のブロック図を示す。
第1の信号p1,j(n)は、ゲイン因数gj−1(k)からなる等しい組を有するスペクトル係数Xj−1(k)及びX(k)を有する2つの影響下のフレームのIMDCT処理から得られる。2つのフレームの時間領域エイリアシング成分は、ゲイン差がないため互いに相殺する。これに応じて第2の信号p2,j(n)がXj−1(k)及びX(k)から生成されるが、ここではゲイン因数g(k)を用いる。スペクトル形状の変化は、オーバーラップ領域内のp1,j(n)からp2,j(n)のクロスフェードを実行することによって得ることができ、即ち、

であり、ここで、f(n)は典型的に、間隔0≦n<Nにおいて1から0へ単調に減少する。f(n)=1−w(n)の場合、両方の方策が全く同じ出力をもたらすことが見て取れる(詳細については付録を参照)。しかし、MDCT窓から独立したクロスフェード関数を選ぶ自由によって、図5aに示すこの方策での利益が得られる。
純粋なゲイン変化については、第2の手順によって、2つのエイリアシング無しの信号を生成してクロスフェードを実行することでエイリアシング成分を減少させることができる。ここでは、2つの信号の各々は、2つの対応するフレームにおける等しいパッチ及び等しいゲイン因数を用いて得られる(図5bを参照)。一定のパッチと固定パッチとの間に特別の区別を行う必要はない。一定のパッチは、単に全てのフレームについて等しいマッピングP(k)=P(k)を意味する。
ゲイン因数が時間に亘って変化するだけでなく周波数に亘って変化する場合、処理はより複雑なものとなる。この場合、時間包絡線による置き換えはもはや不可能であり、時間反転された入力信号の生成も、エイリアシング成分低減のための好適な信号をもたらさない。これは以下の例によって示される。ここでは、第1のフレームにおけるゲインが、周波数(g(k)=1)に亘って一定であるが、第2のフレームg(k)では、図7に示すように変化する。
これによって未相殺のエイリアシング成分が生じるが、これは図9(右側)に示すものとは異なる形状を有する。最初の例から見て取れるように、ゲイン差は、未相殺のエイリアシング成分を引き起こしている。従って、図3aに示す手順となる。
エイリアシング低減は、図3aに示す以下のステップによって実行される。
・元の係数をゲイン差によって重み付け(307,308)することによって追加のスペクトル係数を生成

・Uj−1(k)及びU(k)を有する追加のIMDCTによってオーバーラップ領域における入力信号の復元(303,304,306)
・関数w(n)・w(N+n)による乗算(330)
・時間反転(340)
・異なるゲインによる処理の出力に対する加算又は減算といった組み合わせ
ゲイン差項(g(k)−gj−1(k))の順番は、特定的に例示したMDCT実現例について通常のIMDCTの出力から時間反転の出力を加算又は減算する必要があるかを決定する。他のMDCT実現例では、正負符号は異なり得る。
(g(k)−gj−1(k)):通常のIMDCTの出力に時間反転の出力を加算
(gj−1(k)−g(k)):通常のIMDCTの出力から時間反転の出力を減算
従って、上述の実施例において、及び(g(k)−gj−1(k))を示す図3aに示す場合においては、組み合わせ部341は、両方の入力を加算する加算器として実現されることになる。
なお、重複変換についての異なる実現例について、必要な正負符号は異なり得る。例えば、奇数スタックMDCTについて少なくとも4つの実施例がある。更に、偶数スタックMDCT、又は多数のオーバーラップを有するELTについての更なる実施例がある。奇数スタックMDCTの場合、訂正項についての正負符号は異なる。従って、ブロック341で実施される組み合わせは、加算又は減算を含み得る。
この例についてのエイリアシング訂正項を、図4においてエイリアシング有りのIMDCTの出力とともに示す。
BWEアルゴリズムのコピーアップ段階は、マッピング関数P(k)によって記述される。スペクトル係数の下側半分を上側半分へコピーするには、以下のようにする。

ゲイン関数は一定であり、下側半分において1に等しい。

ゲイン因数がスペクトルの上側半分において変化する場合、未相殺のエイリアシングが再び発生する。しかしながら、エイリアシング低減は、パッチもまた補償信号の生成において考慮されなければならないという相違点を除いて上述の第1の方策で説明したのと全く同じ態様で実行することができる。これを達成するには、マッピングされたスペクトル係数を、IMDCTに入力されたままで用いて、これをゲイン差によって適切に重み付けすれば良い。この場合、下側半分のゲイン差は全て0となる。
より発展させた帯域幅拡張では、フレーム毎に変化するパッチを適用することができる。これは、各々のフレームについての個々のマッピング関数P(k)を定義することによって記述することができる。この場合、エイリアシング低減は、共通のオーバーラップ領域に影響を与える2つのフレームにおける同じ周波数インデックスに対してそれぞれ異なる成分がコピーされ得ることを考慮する必要がある。これはエイリアシング低減成分の生成において考慮される必要がある。この目的のために、第1のフレームにおけるパッチは、フレームj−1におけるgj−1(k)及びフレームjにおける0のゲインを有するものとして扱われ、フレームjにおけるパッチは、フレームj−1における0及びフレームjにおけるg(k)のゲインを有するものと仮定する。結果として得られる、エイリアシング低減信号生成のためのスペクトル係数は、以下の通りである。

この構成についてのブロック図を図3bに示す。
以下の節においては、図3a及び図5a,5bにおける2つの局面について、類似点に関してより詳細に説明する。
サンプル位置jNで始まる2N個のサンプルのフレームx(n)のN個のスペクトル係数の周波数分解能を有するMDCTは、

によって規定され、ここで、w(n)は長さ2Nの窓関数であり、kは周波数インデックスであり、nは、時間領域におけるサンプルインデックスである。時間信号x(n)のフレームx(n)は、

として規定される。
中間出力フレーム

が、逆方向の変換によるスペクトル成分Y(k)から得られる。

逆MDCT(IMDCT)処理の最終出力は、オーバーラップする区間を加算することによって算出される。


の省略形の場合、また

及び

の窓条件の場合、ゲイン因数の適用後のオーバーラップ領域におけるIMDCTの出力は、

となり、ここで、

である。
オーバーラップ加算、窓化及び時間反転の後の図1b,3aに関して説明した第2の局面のエイリアシング訂正項は、

となり、ここで、

である。
余弦項は、以下の対称性を有する。

これらを代入すると、

となる。y(n)からγ(n)を減算すると、エイリアシング低減の出力を構成する項が得られる。

これは、図1a,5a,5bを参照して説明した第1の局面によるゲインgj−1(k)及びg(k)によって復元された信号間のクロスフェードに対応する。
続いて、図1c,1dを参照して、エンコーダ即ち分析側、又はデコーダ即ち合成側における時間部分及びブロックの関係を示す。
図1dは、0番目の時間部分から3番目の時間部分の概略図を示し、これらの続く時間部分の各時間部分は、特定のオーバーラップ範囲170を有する。これら時間部分に基づいて、オーバーラップする時間部分を表すブロックのシーケンスのブロックは、図2aに関してより詳細に説明する処理によって生成される。図2aは、エイリアシングを導入する変換演算の分析側を示す。
具体的には、図1dに示す時間領域信号は、図1dが分析側に該当する場合、分析窓を適用する窓化器201によって窓化される。従って、0番目の時間部分を得るために、例えば、窓化器は、分析窓を、例えば2048個のサンプルに、具体的にはサンプル1からサンプル2048に適用する。従って、Nは1024に等しく、窓は2N個のサンプル、この例では2048個の長さを有する。次に、窓化器は、サンプル2049をブロックの1番目のサンプルとするのではなく、サンプル1025を1番目のサンプルとして更なる分析演算を適用して1番目の時間部分を得る。従って、50%オーバーラップについて1024サンプル長の第1のオーバーラップ範囲170が得られる。この手順は、追加的に、常にオーバーラップを伴いながら2番目及び3番目の時間部分にも適用され、こうして特定のオーバーラップ範囲170を得る。
なお、オーバーラップは必ずしも50%オーバーラップである必要はなく、オーバーラップはこれよりも高い又は低い場合もあり、マルチオーバーラップもあり得る。即ち、オーバーラップが3つ以上の窓を有することで、時間領域音声信号のサンプルが2つの窓即ちスペクトル値ブロックのみに寄与するのではなく、サンプルは、3つ以上の窓・スペクトル値ブロックに寄与する。その一方で、当業者であれば追加的に、図2aの窓化部201によって適用され得る他の窓形状であって、0部分及び/又は単位元値を有する部分を有する窓形状が存在することが理解される。単位元値を有する部分については、そのような部分は典型的に、先行する又は続く窓の0部分とオーバーラップするため、単位元値を有する窓の一定の部分に位置する特定の音声サンプルは、スペクトル値からなる単一のブロックのみに寄与するものと思われる。
次に、図1dで得られた窓化後の時間部分をフォルダ202に入力し、折り畳み演算を実行する。この折り畳み演算は、例えば、フォルダ202の出力において1ブロック当りN個のサンプルを有するサンプリング値のブロックのみが存在するように折り畳みを実行することができる。次に、フォルダ202によって実行される折り畳み演算に続いて、時間・周波数変換部が適用される。時間・周波数変換部は、例えば、入力における1ブロック当りN個のサンプルを、時間・周波数変換部203の出力においてN個のスペクトル値に変換するDCT−IVコンバータである。
従って、ブロック203の出力で得られたスペクトル値のブロックのシーケンスを図1cで示す。図1cは、具体的に、図1a,1bにおいて102で示す第1の変更値を関連付けて有する第1のブロック191と、図1a,1bで示す106といった第2の変更値を関連付けて有する第2のブロック192とを示す。当該シーケンスは、図に示す、第2のブロックに先行する又は第1のブロックをも率いる更なるブロック193,194を有することは言うまでもない。第1のブロック191及び第2のブロック192は、例えば、図1dの窓化された1番目の時間部分を変換して第1のブロックを得ることによって得られ、第2のブロックは、図2aの時間・周波数変換部203によって図1dの窓化された2番目の時間部分を変換することによって得られる。従って、スペクトル値のブロックのシーケンスにおいて時間的に隣接するスペクトル値の両方のブロックは、1番目の時間部分及び2番目の時間部分を含むオーバーラップ範囲を表す。
続いて、図2aのエンコーダ即ち分析側の処理の結果の合成側即ちデコーダ側の処理を説明するために図2bを説明する。図2aの周波数変換部203によって出力されたスペクトル値のブロックのシーケンスを変更部211に入力する。略示したように、各々のスペクトル値ブロックは、図1c〜2bに示す例についてはN個のスペクトル値を有する。各々のブロックは、図1a,1bに示す102,104といった変更値を関連付けて有する。次に、典型的なIMDCT演算又は典型的な冗長度低減合成変換においては、周波数・時間変換部212、展開するためのフォルダ213、合成窓を適用するための窓化部214、及びブロック215で示すオーバーラップ・加算部演算によって例示される演算を実行することによって、オーバーラップ範囲における時間領域信号を得る。これはこの例では1ブロック当り2N個の値を有するため、各々のオーバーラップ及び加算演算の後、変更値102,104が時間又は周波数に亘って可変でない場合にN個の新たなエイリアシング無しの時間領域サンプルが得られる。しかしながら、これらの値が時間及び周波数に亘って可変である場合、ブロック215の出力信号はエイリアシング無しではなく、この問題は、図1b,1aの文脈で説明し、本願明細書の他の図の文脈で説明する本発明の第1及び第2の局面によって対処されることになる。
続いて、図2a及び図2bにおける各ブロックによって実行される手順の更なる説明を行う。
以下の説明は、MDCTを参照して例示するが、他のエイリアシング導入変換を類似の態様で処理しても良い。重複変換として、MDCTは、入力の半分の数(同じ数でなく)の出力を有する点で他のフーリエ関連の変換と比較してやや特殊である。具体的には、線形関数F:R2N→Rである(ここで、Rは実数の組を示す)。2N個の実数x0,…,x2N−1は、

の式によってN個の実数X0,…XN−1に変換される。(この変換の前の正規化係数、ここでは単位元、は任意の慣例であり、処理の間で異なる。以下のMDCT及びIMDCTの正規化の積のみが制約を受ける。)
逆MDCTはIMDCTとして知られる。様々な数の入力及び出力が存在するため、一見するとMDCTは可逆的であるべきではないようにも思われる。しかしながら、時間的に隣接しているオーバーラップする各ブロックのオーバーラップIMDCTを加算することでエラーを相殺して元のデータを取り戻すことによって完全な可逆性が達成される。この技術は、時間領域エイリアシング相殺(TDAC)として知られる。
IMDCTは、

の式によってN個の実数X0,…,XN−1を、2N個の実数y0,…,y2N−1に変換する。(直交変換であるDCT−IVの場合と同様に、逆は順方向の変換と同じ形を有する。)
通常の窓正規化(下記を参照)による窓化MDCTの場合、IMDCTの前の正規化係数を2で乗算することが求められる(即ち、2/Nとなる)。
典型的な信号圧縮用途においては、変換特性を更に向上させるために、上述のMDCT及びIMDCTの式におけるxn及びynで乗算した窓関数wn(n=0,…,2N−1)を用いてn=0及び2N個の境界において当該関数をスムーズに0にすることでこれらの点において非連続性を回避する。(即ち、MDCTの前及びIMDCTの後にデータを窓化する。)原理的には、x及びyは、それぞれ異なる窓関数を有することができ、また、窓関数はブロックごとに変化することができる(特にそれぞれ異なるサイズのデータブロックを組み合わせる場合)が、簡明にするために、等しいサイズのブロックについての同一の窓関数という一般的な場合を検討する。
wがプリンセン・ブラッドリー条件

を満たす限り、変換は対称窓wn=w2N−1−nについて依然として可逆的である(即ち、TDACが動作する)。様々な窓関数が用いられる。変調後の重複変換として知られる形をもたらす窓は、

によって与えられてMP3及びMPEG−2AACについて用いられ、Vorbisについては

が用いられる。AC−3は、カイザー・ベッセル導出(KBD)窓を用い、MPEG−4 AACは、KBD窓を用いることもできる。
なお、MDCTに適用された窓は、プリンストン・ブラッドリー条件を満たさなければならないため、他の種類の信号分析に用いられる窓とは異なる。この違いの理由の一つは、MDCT窓が2度、MDCT(分析)及びIMDCT(合成)の両方に適用されることである。
上述の各定義の検討から見て取れるように、Nが偶数の場合、MDCTは実質的にDCT−IVと等価であり、ここで入力はN/2だけシフトされ、2つのNブロックのデータが一度に変換される。この等価性をより注意深く検討することにより、TDACといった重要な特性を容易に導き出すことができる。
DCT−IVに対する正確な関係を規定するために、DCT−IVは、交互に入れ替わる偶数・奇数の境界条件に対応することを認識する必要がある。即ち、その左側の境界(およそn=−1/2)で偶数であり、右側の境界(およそn=N−1/2)で奇数であり、以下同様(DFTの場合のような周期的な境界でなく)となる。これは恒等式から得られる。即ち、その入力

及び

が長さNの配列xであれば、この配列を(x,−xR,−x,xR,…)等に拡張することを想像することができ、ここでxRは逆の順番でのxを示す。
2N個の入力及びN個の出力を有するMDCTの場合であって、入力を、各々がN/2のサイズの4つのブロック(a,b,c,d)に分割する場合を検討する。これらを右方向にN/2だけ(MDCTの規定における+N/2項から)シフトすると、(b,c,d)はN個のDCT−IV入力の終わりを過ぎて延びるため、上述の境界条件に従いこれらを再び「折り畳む」必要がある。
従って、2N個の入力(a,b,c,d)のMDCTは、N個の入力のDCT−IVと丁度等価であり、即ち(−cR−d,a−bR)であり、ここでRは上述のように逆を示す。
これを図2aの窓関数202について例示する。aは部分204bであり、bは部分205aであり、cは部分205bであり、dは部分206aである。(このようにして、DCT−IVを計算するための任意のアルゴリズムをMDCTに自明に適用することができる。)同様に、上述のIMDCTの式は、DCT−IVの丁度1/2であり(これはそれ自身の逆である)、ここで出力は(境界条件により)長さ2Nに延長され、N/2だけ左側にシフトされる。逆DCT−IVは、単純に上から入力(−cR−d,a−bR)を返すことになる。これが境界条件によって延長されてシフトされると、

が得られる。従って、IMDCTの出力の半分は、b−aR=−(a−bR)Rのように冗長であり、最後の2つの項についても同様である。入力をサイズNのより大きなブロックA,Bにまとめ、ここでA=(a,b)且つB=(c,d)とすると、この結果を

とより簡略化して書くことができる。
こうして、TDACがどのように働くかを理解することができる。時間的に隣接し、50%オーバーラップした2Nブロック(B,C)のMDCTを計算することを想定する。すると、IMDCTは、上述の場合と同様に、(B−BR,C+CR)/2をもたらす。これを、オーバーラップする半分における先行IMDCT結果に加算すると、逆にされた項が相殺されて単にBが得られ、元のデータが回復される。
「時間領域エイリアシング相殺」の用語の由来はこれで明らかである。論理的DCT−IVの境界を越えて延びる入力データの使用によって、ナイキスト周波数を超えた周波数がより低い周波数にエイリアシングされるのと同じ態様でデータがエイリアシングされるが、但しこのエイリアシングは周波数領域でなく時間領域において起こる。即ち、(a,b,c,d)のMDCTに対する、又は等価にIMDCT(MDCT(a,b,c,d))=(a−bR,b−aR,c+dR,d+cR)/2の結果に対するa及びbRの寄与を区別することはできない。組み合わせc−dR等は、それらが加算された際に相殺するために正確に正しい正負符号を有する。
Nが奇数(実際には用いられるのはまれである)の場合、N/2は整数ではないため、MDCTは単純にDCT−IVのシフト置換とはならない。この場合、サンプルの半分による追加のシフトは、MDCT/IMDCTがDCT−III/IIに等価となることを意味し、この分析は上述の場合と類似である。
上述のように、2N入力(a,b,c,d)のMDCTがN入力(−cR−d,a−bR)のDCT−IVと等価である。DCT−IVは、右側境界における関数が奇数である場合に対して設計されるため、右側境界近くの値は0に近くなる。入力信号がスムーズである場合、以下のようになる。即ち、a及びbRの最も右の成分が入力シーケンス(a,b,c,d)において連続しているため、その差は小さい。当該間隔の中央を検討すると、上述の表現を(−cR−d,a−bR)=(−d,a)−(b,c)Rに書き替えると、二番目の項(b,c)Rから中央におけるスムーズな遷移が得られる。しかしながら、1番目の項(−d,a)においては、−dの右端がaの左端に一致するという非連続性が生じる可能性がある。これが、入力シーケンス(a,b,c,d)の境界近くの成分を0に向けて減少させる窓関数を用いる理由である。
上記により、TDAC特性は通常のMDCTについて証明され、時間的に隣接するブロックのIMDCTをそのオーバーラップする半分において加算することで元のデータが回復されることが示された。この窓化MDCTについての逆特性の導出は、僅かに複雑になる。
サイズNのブロックA,B,Cについて2N入力(A,B)及び(B,C)のオーバーラップする連続の組を検討する。上記より、(A,B)及び(B、C)がMDCT及びIMDCTに入力されてそのオーバーラップする半分において加算されると、(B+B)/2+(B−B)/2=B、即ち元のデータが得られることを思い出されたい。
MDCT入力及びIMDCT出力の両方を長さ2Nの窓関数によって乗算することを想定する。上記の場合と同様、対称窓関数を想定し、これは従って(W,W)の形であり、ここで上記の場合と同様にWは長さNのベクトルであり、Rは逆を示す。そして、プリンセン・ブラッドリー条件をW+W=(1,1,…)として書くことができ、平方及び加算は要素単位で実行される。
従って、MDCT(A,B)を実行する代わりに、MDCT(WA,WB)を行い、全ての乗算は要素単位で実行される。これがIMDCTに入力されて窓関数によって再び(要素単位で)乗算されると、最後のN半分は

となる。(IMDCT正規化は、窓化された場合に2の因数だけ異なるため、1/2による乗算は行わない。)
同様に、(B,C)の窓化MDCT及びIMDCTから、その最初のN半分において、

が得られる。これら2つの半分を加算すると、元のデータが回復される。また、2つのオーバーラップする窓の半分がプリンストン・ブラッドリー条件を満たす場合、復元は窓切り替えの文脈で可能である。この場合、エイリアシング低減は、上記の場合と全く同じ態様で行うことができる。多数のオーバーラップによる変換の場合、関連のゲイン値全てを用いて3つ以上の枝が必要になる。
続いて、図5a及び5bを参照して第1の局面をより詳細に説明する。具体的に、図1aに示す処理部100は、参照番号100で規定するボックスにおいて、図5aに示す要素501〜506の全て又は一部を含み得る。好ましくは、処理部100は、少なくとも1つの第1の変更値102を用いて、Xj−1として示すシーケンスの第1のブロックを変更することによって第1の変更後ブロック551を得るための変更部を備える。この変更は、好ましくはゲイン乗算部510によって実行され、これはデジタル的又はアナログ的又はその他任意の好適な態様で実現され得る。更に、変更部は、少なくとも1つの第2の変更値106を用いて、X(k)として示される第2のブロックを変更することによって第2の変更後ブロック552を得るように構成される。この変更も、好ましくは乗算部509によって実行され、これは乗算部510と同じ態様又は異なる態様で実現され得る。更に、変更部は、少なくとも1つの第1の変更値102を用いて第2のブロックX(k)を変更することによって第3の変更後ブロック553を得るように構成され、ここでこの変更も乗算部508によって実行することができ、これは乗算部510又は509に関して同じ又は異なる態様で実現され得る。
更に、変更部は、少なくとも1つの第2の変更値106、即ちXj(k)を用いて第1のブロックxj−1を変更することによって第4の変更後ブロック554を得るように構成される。好ましくは、第4の変更後ブロック554もまた乗算部507によって生成され、これは乗算部510,509,508に関して同じ又は異なる態様で実現され得る。
更に、処理部100は、好ましくは、第1の変更後ブロック551から第4の変更後ブロック554を対応する時間表現561,562,563,564に変換するためのスペクトル・時間変換部を含む。具体的に、スペクトル・時間変換部は、対応する第1の変更後ブロック561から第4の変更後ブロック564を生成するIMDCTブロック501,502,503,504を含むものとして実現される。スペクトル・時間変換部は、図2bの実際の要素212(周波数・時間変換部)、213(展開用フォルダ)及び214(合成窓化部)を含むIMDCTアルゴリズムとして実現され得る。しかしながら、スペクトル・時間変換部は、その他任意のエイリアシング低減変換部であって、入力におけるサンプルの数と比べて、出力において、より大きな数のサンプルを有する時間領域サンプリング値のブロックを結果としてもたらすものとして実現され得る。
これに代えて、計算上効率的な実現例として、完全なIMDCT又は全体のエイリアシング低減逆変換を計算するのではなく、エイリアシング低減済み又はエイリアシング相殺信号を含む時間的部分のみを計算することも可能である。この線に沿って、例えば、IMDCTの場合、1つの展開演算と、合成窓化演算の半分とを省略することができる。従って、処理部は、オーバーラップ範囲を有する重複変換を実行するように構成することができ、処理部は、オーバーラップ範囲における値に影響を与える演算のみを実行し、オーバーラップ範囲における値に影響を与えない演算を実行しないように構成される。図2bに関し、オーバーラップ範囲に影響を与えない演算は、ブロック213の展開演算であり、これは先行ブロックの前半及び現在のブロックの後半に影響を与える。更に、先行ブロックの前半及び現在のブロックの後半に対応する窓化演算もまた、この効率的な実現例では不要である。これは、先行ブロックの後半及び現在のブロックの前半のみがオーバーラップ範囲にあるという事実による。
図5aの実施例では、IMDCTブロックに入力されるサンプルの数はNに等しく、IMDCTブロックによって出力されるサンプルの数は2Nである。しかしながら、スペクトル・時間変換部によって出力されるサンプルの数が、対応するスペクトル・時間変換部に入力されるスペクトル領域サンプルの数よりも大きい限り、他のオーバーラップ因数に対応する他の数の比を実現しても良い。
更に、スペクトル・時間変換部は、変換される各々個々の信号についての個々のスペクトル時間変換部を含むものとして実現しても良く、又は、図5aのブロック501のみといった単一のスペクトル時間変換部と、変更後ブロックを順次変換するための対応するシーケンス制御部とを含んでも良い。
更に、処理部100は、第1の変更後ブロック561及び第3の変更後ブロック563の表現をオーバーラップ加算することによって、エイリアシング無し又は少なくともエイリアシング低減済みの第1の結果信号104を得るためのオーバーラップ加算部を含む。
更に、オーバーラップ加算部は、第2の変更後ブロック562及び第4の変更後ブロック564の時間表現をオーバーラップ加算することによって、やはりエイリアシング無し又は少なくともエイリアシング低減済の第2の結果信号108を得るように構成される。この第1及び第3の時間表現についてのオーバーラップ加算演算は、オーバーラップ加算ブロック505によって実行され、第2及び第4の変更後ブロックの時間表現、即ち線562,564上の信号についての他のオーバーラップ加算演算は、更なるオーバーラップ加算ブロック506によって実行される。ここでも、オーバーラップ加算部は、それぞれ別個のこのようなブロック、又は単一のブロック及び対応のシーケンス制御を有しても良く、又は、規定された結果を得るための任意の他の想像可能な態様で実現しても良い。好ましくは、ブロック505,506の各々は、図2bの文脈で説明した対応のブロック215において実現される。
好ましくは、図5aの組み合わせ部110は、第1の結果信号をフェードアウトするとともに第2の結果信号をフェードインすることによって第1の結果信号104及び第2の結果信号108を組み合わせるように構成される。この目的のために、第1の結果信号104のためのフェードアウトブロック520及び第2の結果信号のためのフェードインブロック521が設けられる。実際の組み合わせは、別個の要素としての図5aに示す加算部522によって実行され得る。しかしながら、好ましくは、組み合わせ部510の実際の演算は重み付け線形組み合わせであり、各々のサンプルについて、フェードアウト関数520は特定の重み付け因数を出力し、次に、この重み付け因数によって重み付けられた対応のサンプルが、対応のサンプルについてのフェードイン関数521の出力した重み付け因数で重み付けられた他の結果信号からの対応のサンプルに加算される。
略示したように、処理部100は、スペクトル・時間変換を実行することにおいてIMDCT演算を実行するように構成され、このIMDCT演算は、ブロック212,213,214の関数を含むことができるが、IMDCT演算は他の任意の態様で実現することができ、図2a,2bの文脈で説明したように基本的に同じ結果を有するいくつかの効率的なIMDCTアルゴリズムが周知である。
更に、処理部100は、図1dにおいて170で示したオーバーラップ範囲において第1及び第2の結果信号を算出することにおいてオーバーラップ加算処理演算505,506を実行するように構成される。更に、組み合わせ部104は、組み合わせ範囲、即ち、例えば、この組み合わせ範囲がオーバーラップ範囲に等しい場合におけるオーバーラップ加算範囲において、第1及び第2の結果信号を組み合わせるように構成される。
従って、図1dは、合成側におけるブロック215によって実行されるオーバーラップ加算演算を表すものとして見なすこともできる。すると、図1dの各々の「時間部分」は、図2bの合成窓化部214によって出力されるブロックを表し、1つの窓化済みブロックのオーバーラップ範囲におけるサンプルが、次の窓化済みブロックのオーバーラップ範囲におけるサンプルに加算される。更に、対応するサンプルは、必要に応じて、520といったフェードアウト関数及びフェードイン関数522によって出力される重み付け因数によって重み付けされる。例えば、1番目の時間部分が窓化済みブロックに対応する場合、図1dのオーバーラップ範囲170において、1番目の時間部分はオーバーラップ範囲中にフェードアウトされ、同時に、2番目の時間部分がオーバーラップ範囲内でフェードインされる。従って、フェードアウト関数は、1から0へ好ましくは線形的に減少し、1からNのサンプルの数に亘って等しく分布するフェードアウト因数を出力する。従って、窓化済みブロックの長さが2Nである場合、1と0の間隔は、N個の等しい感覚に分割され、各々の間隔について、フェードアウト因数は、例えば各々の感覚の中心として決定される。同様に、フェードイン関数は、やはりN個の等しい間隔を伴って0から1に線形的に増加するフェードイン因数を出力する関数である。
しかしながら、線形関数以外に他の関数を適用しても良く、各々のサンプルについて、サンプルについてのフェードイン因数とサンプルについてのフェードアウト因数との和が1に等しく、フェードイン・フェードアウト又は一般的にクロスフェードが結果として音声信号の振幅又は音量の変化を生じさせないようにすることが好ましい。従って、クロスフェード範囲における各々のサンプルについてのフェードアウト部分とフェードイン部分との和は一定であり、好ましくは1に等しい。
好ましくは、本発明は、図5bの文脈における帯域幅充填機能の文脈で適用される。帯域幅拡張とは、入力信号の帯域幅を拡張することによって、典型的に、帯域幅拡張技術で生成される出力信号が入力信号よりも高い帯域幅を有するようにすることを意味する。一方、帯域幅を必ずしも増加させるのではなく、入力信号内のスペクトル孔を充填する帯域幅充填技術もまた存在する。上側の周波数帯域が「スペクトル孔」と見做される場合、帯域幅充填機能は帯域幅拡張技術と類似である。しかしながら、入力信号のスペクトル孔が、周波数に関して、スペクトル値が存在する範囲よりも下側に位置する場合、帯域幅充填機能は帯域幅を拡張するのではなく、この技術の結果は入力と同じ帯域幅を有する。この文脈で、例えばSBRが帯域幅拡張技術の一例であり、インテリジェントギャップ充填(IGF)が、必ずしも入力信号の帯域幅を増加させない一般的な帯域幅充填機能の一例である。
好ましくは、処理部100は、スペクトル値をソース範囲300から目標範囲334へパッチするためのパッチ関数を有する帯域幅充填機能を適用するように構成され、処理部は、第1及び第2の結果信号を算出することにおいてパッチ関数を適用するように構成される。例示として、図3cは、高い分解能を有する又はソース範囲を表すスペクトル値のブロックのシーケンスから、帯域幅充填範囲又は目標範囲におけるスペクトル値のブロックのシーケンス334を生成するためのパッチ部を示す。パッチ部は、図3cにおいて332で示され、図示のようにパッチ関数P(k)を適用するように実現され得る。任意には、図3cに示すように帯域幅充填機能が適用される場合、処理部100及び組み合わせ部110の構成は、以下の事実を除いて、帯域幅充填が適用されていない場合と同一である。即ち、図5bにおいて334で示すスペクトル値のブロックのシーケンスは、図3cのパッチ部の出力であり、ゲイン因数102,106、又は一般的に各々のブロックについての変更因数は、スペクトル帯域複製、インテリジェントギャップ充填又はその他任意の帯域幅充填機能といった特定の帯域幅充填機能によって定義される。従って、パッチ部332は、処理部の一部であっても、又は、処理部への入力において適用される前処理段階として実現されていても良い。
従って、音声信号を処理するための装置は、処理部100の一部として、又は、信号処理方向で図1aの処理部100の前において適用されるブロックとして、パッチ部を備え、このパッチ部は、第1のブロックについてのパッチ関数に従って異なる周波数範囲即ちソース範囲からスペクトル値を用いて帯域幅充填範囲において第1のブロックを生成するように構成され、パッチ部は更に、第2のブロックについてのパッチ関数に従って異なる周波数領域又はソース領域からスペクトル範囲を用いて帯域幅充填範囲又は目標範囲におけるスペクトル値の第2のブロックを生成するように構成され、このパッチ関数は同じパッチ関数でも異なるパッチ関数であっても良い。
更に、図5a又は5bの文脈で既述のように、処理部は、ゲイン関数又はゲイン値を変更値として用いて第1及び第2のブロックを変更するための乗算様の関数510,509,508,507を実行するように構成される。
本発明の第2の局面の更なる実施例について図3a,3bの文脈で説明する。
図3a,3bは、いずれも、スペクトル値のブロックのシーケンス114を含む音声信号を処理するための装置を示す。各々の実現例は、ブロックのシーケンス114の第1のブロックについて少なくとも1つの第1の変更値102を、及びブロックのシーケンスの第2のブロックについて少なくとも1つの異なる第2の変更値を用いてエイリアシング影響下の信号154を算出するための処理部150を備える。好ましくは、エイリアシング影響下の信号を算出するための処理部の機能は、少なくとも1つの第1の変更値を用いて第1のブロックを変更することによって第1の変更後ブロック351を得るためのゲイン変更部を備える。この変更は、好ましくは乗算部310によって実行されるが、図5における対応の乗算部510の文脈で説明したように実現しても良い。更に、ゲイン変更部は、少なくとも1つの第2の変更値106を用いて第2のブロックX(k)を変更することによって第2の変更後ブロック352を得るように構成される。ここでも、この変更は、乗算部309によって実行することができ、これはやはり乗算部510の文脈において説明したように実現することができる。エイリアシング影響下の信号を生成するために、処理部150は、第1及び第2の変更後ブロックを時間領域表現361,362に変換するためのスペクトル・時間変換部を含み、更に、オーバーラップ加算部が、第1及び第2のブロック、即ち361及び362の時間領域表現をオーバーラップ加算することによってエイリアシング影響下の信号154を得るように構成される。
更に、処理部はまた、エイリアシングエラー信号を推定するように構成される。この目的のために、処理部150は、乗算部308,307によって示されるゲイン変更部の更なる機能を含み、これは、少なくとも1つの第1の変更値102又は少なくとも1つの第2の変更値106を用いて第1のブロック及び第2のブロックを変更することによって第3の変更後ブロック353及び第4の変更後ブロック354を得る。
更に、スペクトル・時間変換部を303,304で示し、これは、第3の変更後ブロック353及び第4の変更後ブロック354をそれぞれ時間領域表現363及び364に変換し、次にこれら第3及び第4の変更後ブロックをオーバーラップ加算部によって処理することで、第3及び第4の変更後ブロックの時間領域表現をオーバーラップ加算することによってエイリアシングエラー信号158を得る。
エイリアシングエラー信号158を操作してエイリアシング影響下の信号158との良好な組み合わせを得るために、組み合わせ部は、窓関数を適用するための窓化部330と、信号を時間反転するための時間反転ブロック340とを備える。
ゲイン変更値間の差は、周波数領域において、即ち処理部において、ブロック303,304でのスペクトル・時間変換を実行する前に適用される。この目的のために、図3aを参照する。具体的に、この実施例においては、処理部はゲイン変更部を含み、これは、少なくとも1つの第1の変更値及び少なくとも1つの第2の変更値との差を用いて乗算部307を介して第1のブロックxj−1を変更するように構成され、この差は、好ましくは、図3aにおいてインデックスkによって示すように周波数値又はスペクトル値毎に算出される。更に、ゲイン変更部は、乗算部308内において差125を用いて第2のブロックを変更することによって第3の変更後ブロック353及び第4の変更後ブロック354を得るように構成される。この図3aに示す実施例においては、組み合わせ部は、窓330及び時間反転340を含む。
組み合わせ部内の処理演算のシーケンスは、時間反転340の前に窓化部330が単一の流れの方向で動作させられるように示されているが、これら要素の演算の順番は逆でも良いことは明らかである。
従って、図3aの処理部150は、ゲイン変更部が、少なくとも1つの第1の変更値又は少なくとも1つの第2の変更値を用いて第1のブロック及び第2のブロックを変更するようにされる。図3aにおける変更は、以下の事実により両方の変更値を受ける。即ち、両方の変更値間の差は、例えば乗算部308,307によって実行される変更に実際に用いられるということであり、ここでゲイン差は図3aにおいて125で示される。
更に、略示のように、好ましくは、窓化演算330及び時間反転演算340が適用される。しかしながら、他の実現例においては、例えば、スペクトル・時間変換が異なる態様で実現される場合、時間反転340を全く適用する必要がない場合もある。更に、分析又は合成窓が適用されないが、例えば「矩形窓」のみが適用される場合、窓化330もまた不要であり得る。
しかしながら、好ましい実施例において、窓化部及び時間反転演算部が示され、図示の順番で配置される。
続いて、図3bについてより詳細に説明する。図3bは、ゲイン「差」が周波数領域において適用されるという点で図3aと類似である。しかしながら、パッチ演算が適用されるという事実により、ゲイン差は明示的には適用され得ず、好ましくはそれぞれ異なるパッチ演算について説明される。
従って、エイリアシングエラー信号を得るために、図3cの文脈で説明した帯域幅充填機能の文脈におけるパッチ演算において、好ましくは以下の手順が適用される。最初に、スペクトル値306aのブロックを算出する。これは第1のブロックであるが、第1のブロックを第2のブロックについてのパッチ演算によってパッチする。次に、この第1のブロック306aを第2のブロックについてのゲイン因数106によって乗算する。
更に、図示のように、スペクトル値306bの第1のブロックを生成する。これは第1のブロック304b、即ち第1のブロックと同じであり、これに第1のブロックに関連付けられたパッチ演算を適用する。次に、信号を第1の変更因数102によって乗算する。次に、乗算部によって生成された信号の組み合わせ、例えば329における減算又は加算を行い、これは減算部又は、否定入力等を伴う加算部として実現され得る。次に、基本的にブロック353に対応する第3の変更後ブロックを得る。同様の態様で、ブロック354を得る、即ち、第2のブロックについてのパッチ演算によって第2のブロックXをパッチする、即ちブロック304bを用いてこのブロックを第2の変更因数106によって乗算する。しかしながら、第2のブロックには、306dで示す第1のブロックに関連付けられたパッチアルゴリズムも施し、次に結果を乗算部307bで第1の乗算因数によって乗算する。次に、乗算部307a,307bの出力信号を加算部328において加算し、最終的に第4の変更後ブロック354を得る。次に、図3aの文脈で説明したように、第3の変更後ブロック353及び第4の変更後ブロック354にスペクトル・時間変換を施し、それから図3bで示すようにブロック306を用いてオーバーラップ加算を行う。次に、組み合わせ部における同じ演算、例えば窓化330、時間反転340、そして最後に組み合わせ152を実行し、最終的にエイリアシング無しの信号112を得る。
各ブロックが実際の又は論理的なハードウェア要素を表すブロック図の文脈で本発明を説明したが、本発明はコンピュータによって実現される方法によって実現しても良い。後者の場合、各ブロックは対応する方法ステップを表し、これらステップは、対応する論理的または物理的なハードウェアブロックによって実行される機能を意味する。
装置の文脈でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。方法ステップのうちのいくつか又はその全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラム可能コンピュータ又は電子回路によって(又はこれを用いて)実行され得る。いくつかの実施例においては、最も重要な方法ステップのうちの1つ以上は、このような装置によって実行され得る。
本発明による送信又は符号化された信号は、デジタル記憶媒体で記憶することができ、又は、伝送媒体、例えば無線伝送媒体若しくは有線伝送媒体、例えばインターネット、で送信することができる。
特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する(又は協働可能である)ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。従って、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。
本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の1つが実行されるようにする、電子的に読み出し可能な制御信号を有するデータキャリアを含む。
一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の1つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。
他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の1つを実行するためのプログラムコードを有するものである。
従って、本発明の方法の更なる実施例は、データキャリア(又はデジタル記憶媒体といった非一時的記憶媒体若しくはコンピュータ読み取り可能媒体)であって、そこに記録された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含むものである。データキャリア、デジタル記憶媒体又は記録された媒体は、典型的にはタンジブル且つ/又は非一時的である。
従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。
更なる実施例は、本願明細書に記載の方法の1つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。
更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
本発明による更なる実施例は、本願明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムを受信機に(例えば電子的または光学的に)転送するように構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、移動装置、又はメモリ装置等であり得る。当該装置又はシステムは、例えば、当該コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施例においては、プログラム可能論理装置(例えば、フィールドプログラマブルゲートアレイ)を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の1つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。
上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として提示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。



  1. スペクトル値のブロックのシーケンス(114)を含む音声信号を処理するための装置であって、
    第1のブロックについて少なくとも1つの変更値(102)を用いて前記ブロックのシーケンスを処理することによってオーバーラップ範囲(170)におけるエイリアシング低減済み又はエイリアシング無しの第1の結果信号を得るとともに、前記ブロックのシーケンスの第2のブロックについて少なくとも1つの第2の異なる変更値(106)を用いて前記オーバーラップ範囲(170)におけるエイリアシング低減済み又はエイリアシング無しの第2の結果信号(108)を得るための処理部(100)と、
    前記オーバーラップ範囲(170)において前記第1の結果信号(104)及び前記第2の結果信号(108)を組み合わせて、前記オーバーラップ範囲(170)についての処理済み信号(112)を得るための組み合わせ部(110)と、を備える、装置。

  2. 請求項1に記載の装置であって、前記処理部(100)は、
    前記少なくとも1つの第1の変更値(102)を用いて前記シーケンスの第1のブロックを変更することによって第1の変更後ブロック(551)を得、前記少なくとも1つの第2の変更値(106)を用いて前記シーケンスの第2のブロックを変更して第2の変更後ブロック(552)を得、前記少なくとも1つの第1の変更値(102)を用いて前記第2のブロックを変更して第3の変更後ブロック(553)を得、前記少なくとも1つの第2の変更値(106)を用いて前記第1のブロックを変更して第4の変更後ブロック(554)を得るための変更部(510,509,508,507)と、
    前記第1から第4の変更後ブロックを対応する時間表現(561,562,563,564)に変換するためのスペクトル・時間変換部(501,502,503,504)と、
    前記第1及び第3の変更後ブロック(551,553)の時間表現(561,563)をオーバーラップ加算することで前記第1の結果信号(104)を得るとともに、前記第2及び第4の変更後ブロック(552,554)の時間表現(562,564)をオーバーラップ加算することで前記第2の結果信号(108)を得るためのオーバーラップ加算部(505,506)と、を備える、装置。

  3. 請求項1又は請求項2に記載の装置であって、
    前記組み合わせ部(110)は、前記第1の結果信号をフェードアウト(520)するとともに前記第2の結果信号をフェードイン(521)してから両方の信号を加算(522)することによって前記第1の結果信号(104)及び前記第2の結果信号(108)を組み合わせるように構成される、装置。

  4. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部(100)は、スペクトル・時間変換を実行する際に逆変更後離散余弦変換演算を実行するように構成される、装置。

  5. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部(100)は、前記オーバーラップ範囲において前記第1及び第2の結果信号を算出する際にオーバーラップ加算処理演算(505,506)を実行するように構成され、
    前記組み合わせ部(110)は、組み合わせ範囲において前記第1及び第2の結果信号を組み合わせるように構成され、前記組み合わせ範囲は、前記オーバーラップ範囲(170)と同一である、装置。

  6. 先行する請求項のうちの一つに記載の装置であって、
    前記組み合わせ部(110)は、クロスフェード関数を実行するように構成され、前記クロスフェード関数は、フェードアウト部分(520)及びフェードイン部分(521)を含み、クロスフェード範囲におけるサンプルについての前記フェードアウト部分(520)の重み付け係数と前記フェードイン部分(521)の重み付け係数との和(522)は一定である、装置。

  7. 先行する請求項のうちの一つに記載の装置であって、
    前記組み合わせ部(110)は、クロスフェード演算を実行するように構成され、前記クロスフェード演算は、単調に減少するフェードアウト部分(520)及び単調に増加するフェードイン部分(521)を含む、装置。

  8. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部(100)は、スペクトル値をソース範囲(300)から目標範囲(334)にパッチするためのパッチ関数を有する帯域幅充填演算(332)を適用するように構成され、
    前記処理部(100)は、前記第1及び第2の結果信号を算出する際に前記パッチ関数を適用するように構成される、装置。

  9. 先行する請求項のうちの一つに記載の装置であって、更に、
    前記第1のブロックについてのパッチ関数に従って異なる周波数範囲からスペクトル値を用いて帯域幅充填範囲において前記第1のブロックを生成するとともに、前記第2のブロックに関連付けられたパッチ関数に従って異なる周波数領域についてスペクトル値を有する帯域幅充填範囲における前記第2のブロックを生成するためのパッチ部(332)を備える、装置。

  10. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部(100)は、ゲイン関数を変更値として用いて前記第1及び第2のブロックに乗算演算を実行するように構成される、装置。

  11. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部(100)は、前記ブロックのシーケンスを処理するように構成され、前記第1のブロックは、時間的に前記第2のブロックに隣接し、時間的に隣接する前記第1及び第2のブロックは、時間部分の55%から45%に等しいオーバーラップを有する、装置。

  12. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部(100)は、スペクトル・時間変換部分(212)と、前記スペクトル・時間変換部(212,213)の出力に適用される合成窓部分(214)とを有するスペクトル・時間変換演算を適用するように構成される、装置。

  13. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部(100)は、時間及び周波数に亘って変化する変更値を用いて動作するように構成される、装置。

  14. 先行する請求項のうちの一つに記載の装置であって、
    前記処理部は、オーバーラップ範囲を有する重複変換を実行するように構成され、前記処理部は、前記オーバーラップ範囲における値に影響を与える演算のみを実行し、前記オーバーラップ範囲における値に影響を与えない演算を実行しないように構成される、装置。

  15. スペクトル値のブロックのシーケンス(114)を含む音声信号を処理するための方法であって、
    第1のブロックについて少なくとも1つの変更値(102)を用いて前記ブロックのシーケンスを処理することによってオーバーラップ範囲(170)におけるエイリアシング低減済み又はエイリアシング無しの第1の結果信号を得るとともに、前記ブロックのシーケンスの第2のブロックについて少なくとも1つの第2の異なる変更値を用いて前記オーバーラップ範囲(170)におけるエイリアシング低減済み又はエイリアシング無しの第2の結果信号(180)を得るステップ(100)と、
    前記オーバーラップ範囲(170)において前記第1の結果信号(104)及び前記第2の結果信号(108)を組み合わせて、前記オーバーラップ範囲(170)についての処理済み信号(112)を得るステップ(110)と、を備える、方法。

  16. コンピュータ又はプロセッサにおいて実行された時に請求項15に記載の方法を実行するためのコンピュータプログラム。

 

 

Patent trol of patentswamp
類似の特許
本発明は、音声周波数信号の周波数帯域拡張のための処理の間に励磁信号またはフィルタに適用されることになる最適化スケール因子を判定する方法に関し、帯域拡張処理(E601)は、第1の周波数帯域において、励磁信号、および線形予測フィルタの係数を備えた第1の周波数帯域のパラメータを復号化または抽出するステップと、少なくとも1つの第2の周波数帯域上で、拡張する励磁信号を生成するステップと、線形予測フィルタによって、第2の周波数帯域をフィルタリングするステップとを備える。判定する方法は、第1の周波数帯域の線形予測フィルタの次数よりも低次数の、追加フィルタと称される線形予測フィルタを判定するステップ(E602)であって、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されたパラメータから取得される、ステップと、追加フィルタの係数に少なくとも応じて、最適化スケール因子を算出するステップ(E603)とを備える。本発明はまた、上述した方法を使用して最適化スケール因子を判定するデバイス、およびそのようなデバイスを含む復号器に関する。
【課題】
【解決手段】 符号化コア信号とパラメトリックデータとを含む符号化オーディオ信号を復号する復号装置であり、符号化コア信号を復号して復号化コア信号を得るコアデコーダ(600)と、周波数再生動作の前または後に復号化コア信号を解析して解析結果(603)を得るアナライザ(602)と、復号化コア信号のスペクトル部、パラメトリックデータ(605)および解析結果(603)を使用して、復号化コア信号に含まれないスペクトル部を再生成する周波数再生成器とを備える復号装置。
【選択図】図6A
【課題】
【解決手段】 符号化信号を復号する装置において、第1セットの第1スペクトル部の符号化表現を復号して、復号化された第1セットの第スペクトル部を得るオーディオデコーダ(1102)と、第2セットの第2スペクトル部の符号化パラメトリック表現を復号して、パラメトリック表現(1103)の復号化表現を得るパラメトリックデコーダ(1104)とを備え、パラメトリック情報は、各ターゲット周波数タイルに対して、ソース領域識別を整合情報として含み、第1セットの第1スペクトル部(1101)から整合情報により識別されるソース領域を用いてターゲット周波数タイルを再生する周波数再生器(1106)を備える。
【選択図】図11A
オーディオ信号のデコードおよびエンコードのための方法および装置が提供される。特に、デコード方法は、クロスオーバー周波数より上の周波数範囲のある部分集合に対応するスペクトル内容をもつ波形符号化された信号を受領することを含む。波形符号化された信号は、クロスオーバー周波数より上のオーディオ信号のパラメトリック高周波数再構成とインターリーブされる。このようにして、オーディオ信号の高周波数帯域の改善された再構成が達成される。
特定の方法が、ローバンド部分とハイバンド部分とを含むオーディオ信号に対応するスペクトル情報に基づいて、オーディオ信号が、アーティファクト生成条件に対応する成分を含むことを決定することを含む。本方法は、オーディオ信号のハイバンド部分をフィルタリングすること、符号化された信号を生成することをも含む。符号化された信号を生成することは、アーティファクト生成条件の可聴効果を低減するために、フィルタされたハイバンド出力に対応する第1のエネルギーとローバンド部分に対応する第2のエネルギーとの比に基づいて利得情報を決定することを含む。
周波数増強信号(130)を生成する装置であって、コア信号(120、110)から増強信号を生成する信号生成器であって、増強信号はコア信号に含まれない増強周波数レンジを備え、増強信号またはコア信号の現在の時間部分(320、340)は複数のサブバンドに対してサブバンド信号を備える、信号生成器(200)と、増強周波数レンジまたはコア信号の複数のサブバンド信号に対して同じ平滑化情報(802)を計算する制御装置(800)とを備え、信号生成器(200)は、同じ平滑化情報を用いて増強周波数レンジまたはコア信号の複数のサブバンド信号を平滑化するように構成されている。
【選択図】図8
周波数増強信号(140)を生成する装置であって、コア信号(110、120)における周波数に関するエネルギー分布を記述する値を計算する計算器(500)と、増強信号のまたはコア信号のスペクトル包絡がコア信号における周波数に関するエネルギー分布を記述する値(501)に従属するように、コア信号(502)から、コア信号に含まれない増強周波数レンジを備える増強信号(130)を生成する信号生成器(200)を備える。
【選択図】図5
【要約書】帯域幅拡張に使用されるモデルが各特定のユーザにパーソナライズされる(例えば、調整される)、パーソナライズされた(すなわち、話者導出可能な)帯域幅拡張が提供される。トレーニングフェーズは、ユーザにパーソナライズされた帯域幅拡張モデルを生成するように実行される。モデルは、ユーザを伴う通話中の帯域幅拡張フェーズで続いて使用され得る。パーソナライズされた帯域幅拡張モデルを使用する帯域幅拡張フェーズは、高帯域(例えば、広帯域)が利用不可能であり、呼が低帯域(例えば、狭帯域)で行なわれる場合にアクティベートされる。
【選択図】 図1
入力オーディオ情報に基づき符号化されたオーディオ情報を提供するためのオーディオエンコーダであって、可変時間分解能を使用して帯域幅拡張情報を提供するよう構成される帯域幅拡張情報提供部と、摩擦音または破擦音のオンセットを検知するよう構成される検知部とを含む。オーディオエンコーダは、少なくとも摩擦音または破擦音のオンセットが検知される時点より前の予め定められた期間、および摩擦音または破擦音のオンセットが検知される時点に続く予め定められた期間に、帯域幅拡張情報が増大した時間分解能で提供されるよう、帯域幅拡張情報提供部により使用される時間分解能を調節するよう構成される。代替的にまたは付加的には、帯域幅拡張情報は、摩擦音または破擦音のオフセットの検知に応じて、帯域幅拡張情報が増大させた時間分解能で提供される。オーディオエンコーダおよび方法は、対応するコンセプトを利用する。
【選択図】図1
To top