音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子

著者らは特許

G10L21/038 - 帯域拡張技術を用いるもの

の所有者の特許 JP2016528539:

オランジュ

 

本発明は、音声周波数信号の周波数帯域拡張のための処理の間に励磁信号またはフィルタに適用されることになる最適化スケール因子を判定する方法に関し、帯域拡張処理(E601)は、第1の周波数帯域において、励磁信号、および線形予測フィルタの係数を備えた第1の周波数帯域のパラメータを復号化または抽出するステップと、少なくとも1つの第2の周波数帯域上で、拡張する励磁信号を生成するステップと、線形予測フィルタによって、第2の周波数帯域をフィルタリングするステップとを備える。判定する方法は、第1の周波数帯域の線形予測フィルタの次数よりも低次数の、追加フィルタと称される線形予測フィルタを判定するステップ(E602)であって、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されたパラメータから取得される、ステップと、追加フィルタの係数に少なくとも応じて、最適化スケール因子を算出するステップ(E603)とを備える。本発明はまた、上述した方法を使用して最適化スケール因子を判定するデバイス、およびそのようなデバイスを含む復号器に関する。

 

 

本発明は、送信または記憶のための音声周波数信号(会話、音楽、または他のそのような信号など)の符号化/復号化および処理の分野に関する。
特に、本発明は、励磁信号の準位、または均等な方式で、復号器もしくは音声周波数信号を改善するプロセッサにおける周波数帯域拡張の一部としてのフィルタの準位を調節するために使用することができる最適化スケール因子を判定する方法およびデバイスに関する。
会話または音楽などの音声周波数信号を圧縮する(損失を伴う)多数の技術が存在する。
会話アプリケーションのための従来の符号化方法は概して、波形符号化(「パルス符号変調」を表すPCM、「適応差分パルス符号変調」を表すADCPM、変換符号化など)、パラメトリック符号化(「線形予測符号化」を表すLPC、正弦符号化など)、およびそのCELP(「符号励振線形予測」)符号化が最も知られている例である、「合成による分析」によるパラメータの量子化でのパラメトリックハイブリッド符号化として分類される。
非会話アプリケーションの場合、(モノラルの)音声信号符号化のための従来技術は、帯域レプリケーションによる高周波数のパラメトリック符号化での、変換による知覚的符号化、またはサブ帯域における知覚的符号化から構成される。
従来の会話および音声符号化方法の概要を、(非特許文献1)、(非特許文献2)、(非特許文献3)による研究において発見することができる。
ここでの焦点はより具体的に、16kHzの入力/出力周波数において動作する、3GPPの標準化されたAMR−WB(「適応マルチレートワイドバンド」コーデック(符号器および復号器)であり、3GPP標準AMR−WBでは、12.8kHzにおいてサンプリングされ、およびCELPモデルによって符号化される低帯域(0〜6.4kHz)と、カレントフレームのモードに応じた追加情報を伴い、もしくは追加情報なしで、「帯域拡張」(または、「帯域幅拡張」を表すBWE」)によってパラメータ的に再構築される高帯域(6.4〜7kHz)と、の2つのサブ帯域に信号が分割される。ここで、7kHzにおけるAMR−WBコーデックの符号化された帯域の制限は、ITU−T標準の341ページで定義された周波数マスクに従って、より具体的には、7kHzを超える周波数をカットするITU−T標準G.191で定義されたいわゆる「P341」フィルタ(このフィルタは、341ページで定義されたマスクを観察する)を使用することよって、標準化(ETSI/3GPP次いでITU−T)の時に広帯域端末の送信における周波数応答が近似していた事実に本来関連付けられることに留意されたい。しかしながら、理論的には、16kHzにおいてサンプリングされた信号は、0〜8000Hzの定義された音声帯域を有することができ、したがって、AMR−WBコーデックは、8kHzの理論上の帯域幅との比較によって高帯域の制限をもたらす。
3GPP AMR−WB会話コーデックは、主にGSM(2G)およびUMTS(3G)上の回路モード(CS)電話アプリケーションのために2001年に標準化された。この同一のコーデックはまた、勧告G.722.2「適応マルチレートワイドバンド(AMR−WB)を使用した約16キロビット/秒における広帯域符号化会話」の形式でITU−Tによって2003年に標準化された。
それは、9のビットレート、6.6〜23.85キロビット/秒の呼モードを備え、ならびに音声区間検出(VAD:voice activity detection)、およびサイレンス記述フレーム(silence description frame)(「Silence Insertion Descriptor」を表すSID)からの快適雑音生成(CNG:comfort noise generation)を有する連続送信機構(「不連続送信」を表すDTX)と、損失フレーム補正機構(「Frame Erasure Concealment」を表すFEC、時に「Packet Loss Concealment」を表すPLCと称される)とを備える。
AMR−WB符号化および復号化アルゴリズムの詳細は、ここでは繰り返されず、このコーデックの詳細な説明を、(非特許文献4)、(非特許文献5)(および対応する付属文書および附録)、(非特許文献6)による論文、および関連する3GPPとITU−T標準のソースコードにおいて発見することができる。
AMR−WBコーデックにおける帯域拡張の原理は、非常に基礎的である。実際に、時間(サブフレームごとのゲインの形式で適用される)および周波数(線形予測合成フィルタまたは「線形予測符号化」を表すLPCの適用によって)エンベロープを通じてホワイトノイズを形成することによって、高帯域(6.4〜7kHz)が生成される。この帯域拡張技術は図1に示される。
ホワイトノイズuHB1(n)、n=0,・・・,79は、線形合同ジェネレータによって5ミリ秒のサブフレームごとに16kHzにおいて生成される(ブロック100)。このノイズuHB1(n)は、サブフレームごとにゲインを適用することによって時間でフォーマットされ、この動作は、2つの処理ステップ(ブロック102、106または109)に分解される。
・第1の因子が算出されて(ブロック101)、低帯域で12.8kHzにおいて復号化された、励磁u(n)、n=0,・・・,の準位と同様の準位でホワイトノイズuHB1(n)を設定する(ブロック102)。
ここで、異なるサイズ(u(n)に対して64、およびuHB1(n)に対して80)のブロックを比較することによって、サンプリング周波数(12.8または16kHz)における差異の補償をすることなく、エネルギーの正規化が行われることに留意されたい。
・次いで、高帯域における励磁が
の形式で取得され(ブロック106または109)、ゲイン
は、ビットレートに応じて異なって取得される。カレントフレームのビットレートが23.85キロビット/秒を下回る場合、
が「分かりにくく」(すなわち、追加情報なしで)評価され、このケースでは、ブロック103は、信号
ここで、n=0,・・・,63を取得するために400Hzにおけるカットオフ周波数を有するハイパスフィルタによって、低帯域で復号化された信号をフィルタリングし、このハイパスフィルタは、ブロック104においてなされた評価を歪めることがある超低周波数の影響を除去し、次いで、信号
のetiltで表される「傾斜」(スペクトル傾斜のインジケータ)が、正規化自己相関によって算出され(ブロック104)、
最後に、

の形式で算出され、gSP=1−etiltは、活性会話(SP)フレームに適用されるゲインであり、gBG=1.25gSPは、背景(BG)ノイズと関連付けられた非活性会話フレームに適用されるゲインであり、およびwSPは、音声区間検出(VAD)に依存した重み付け関数である。傾斜(etilt)の評価によって、信号のスペクトルの性質に応じて高帯域の準位を適合させることが可能になり、この評価は、CELP復号化信号のスペクトル傾斜によって、周波数が増加するときに(よって、etiltが1に近く、よって、gSP=1−etiltが減少する音声信号のケース)平均エネルギーが減少することになるときに特に重要であることが理解される。また、AMR−WB復号化における因子
が範囲[0.1、1.0]内での値をとるように境界を付けられることに留意されたい。実際に、そのエネルギーが増大する信号の場合、周波数が増加するときに(−1に近いetilt、2に近いgSP)、ゲイン
は通常、過小評価される。
23.85キロビット/秒において、サブフレームごとに(5ミリ秒ごとに4ビット、または0.8キロビット/秒)評価されたゲインを改善するために、補正情報項目がAMR−WB符号器によって伝達され、および復号化される(ブロック107、108)。次いで、人工励磁uHB(n)が、伝達関数1/AHB(z)のLPC合成フィルタ(ブロック111)によってフィルタリングされ、16kHzのサンプリング周波数において動作している。このフィルタの構築は、カレントフレームのビットレートに依存し、
・6.6キロビット/秒において、フィルタ1/AHB(z)は、因子γ=0.9によって次数16のLPCフィルタ
を「推定する」、次数20のLPCフィルタ
を重み付けすることによって取得され、低帯域(12.8kHz)で復号化され、ISF(Imittance Spectral Frequency)の領域における推定の詳細は、第6.3.2.1章における標準G.722.2で説明されており、このケースでは、
である。
・ビットレートが6.6キロビット/秒を上回る場合、フィルタ1/AHB(z)は、次数16のフィルタであり、および単純に
に相当し、γは0.6である。このケースでは、フィルタ
([0、6.4kHz]〜[0、8kHz]のこのフィルタの周波数応答の拡散(比例変換による)をもたらす)が16kHzにおいて使用されることに留意するべきである。
最後に、結果SHB(n)が、FIR(「有限インパルス応答」)タイプのバンドパスフィルタ(ブロック112)によって処理されて、6〜7kHzの帯域のみを維持し、23.85キロビット/秒においては、FIRタイプのローパスフィルタ(ブロック113)がまた、7kHzを上回る周波数をさらに減衰させるために処理に追加される。最後に、高周波数(HF)合成は、ブロック120〜122で取得された低周波数(LF)合成に追加され(ブロック130)、および16kHzにおいてリサンプリングされる(ブロック123)。よって、AMR−WBコーデックにおいて、高帯域が理論的に6.4から7kHzまでに拡張する場合でさえ、HF合成はむしろ、LF合成での追加の前に6〜7kHz帯域に含まれる。
AMR−WBコーデックの帯域拡張技術における多数の欠点を特定することができ、特に、
・サブフレームごとのゲインの評価(ブロック101、103〜105)が最適でない。部分的に、それは、異なる周波数における信号、16kHzにおける人工励磁(ホワイトノイズ)および12.8kHzにおける信号(復号化ACELP励磁)の間のサブフレームごとの「絶対」エネルギーの等化(ブロック101)に基づいている。特に、このアプローチは、高帯域励磁(12.8/16=0.8の比率により)の減衰を黙示的に誘導することに留意することができ、また、実際に、0.6に比較的近い減衰(6400Hzにおける1/(1−0.68z−1))の周波数応答の値に相当する)を黙示的に誘導する、AMR−WBコーデックにおける高帯域上でデエンファシスが実行されないことに留意されたい。実際に、1/0.8の因子および0.6の因子が近似して補償される。
・会話に関して、3GPPレポートTR26.976において文書化された3GPP AMR−WBコーデックの特性化試験は、23.85キロビット/秒におけるモードが23.05キロビット/秒よりも劣る品質を有し、実際にその品質が15.85キロビット/秒におけるモードの品質と同様であることを示している。これは特に、品質が23.85キロビット/秒に低下し、フレームごとの4ビットが元の高周波数のエネルギーに近似させることを可能にするのに最良であると考えられるため、人工HF信号の準位が非常に慎重に制御されるべきであることを示す。
・7kHzにおけるローパスフィルタ(ブロック113)は、低帯域と高帯域との間で約1ミリ秒のシフトをもたらし、それは、23.85キロビット/秒における2つの帯域をわずかに非同期化することによって一定の信号の品質を低下させることがあり、この非同期化はまた、ビットレートを23.85キロビット/秒から他のモードに切り替えるときに問題を引き起こすことがある。
一時的なアプローチを介した帯域拡張の例は、AMR−WB+コーデックを説明した3GPP標準TS26.290(2005年に標準化された)において説明されている。この例は、3GPP specification TS26.290の図16および10にそれぞれ対応する、図2a(全体的なブロック図)および2b(応答レベル補正によるゲイン予測)のブロック図で示される。
AMR−WB+コーデックでは、周波数Fs(Hz)においてサンプリングされた(モノラルの)入力信号が、2つの別個の周波数帯域に分割され、そこでは2つのLPCフィルタが別個に算出および符号化され、
・低帯域(0〜Fs/4)におけるA(z)で表される1つのLPCフィルタ、その量子化されたバージョンが
で表され、
・スペクトル的に生じる高帯域(Fs/4〜Fs/2)におけるAHF(z)で表される別のLPCフィルタ、その量子化されたバージョンが
で表される。
3GPP specification TS26.290の第5.4章(HF符号化)および6.2章(HF復号化)で詳述されるようなAMR−WB+コーデックにおいて、帯域拡張が行われる。その原理がここで要約され、拡張は、低周波数(LFC励磁)において復号化された励磁を使用すること、ならびにサブフレームごとの一時ゲインによるこの励磁(ブロック205)およびLPC合成フィルタリング(ブロック207)をフォーマットすることにあり、励磁を改善し(後処理)(ブロック206)、および再構築されたHF信号のエネルギーを平滑化する(ブロック208)ための動作を処理することがさらに、図2aで示されるように実装される。
AMR−WB+におけるこの拡張が追加情報の伝達、204におけるフィルタ
の係数、およびサブフレームごとのゲインを一時的にフォーマットする(ブロック201)ことを必要とすることに留意することが重要である。AMR−WB+における帯域拡張アルゴリズムの1つの特定の機能は、サブフレームごとのゲインが予測的アプローチによって量子化されることであり、言い換えると、ゲインが直接符号化されず、むしろgmatchで表されるゲインの評価に相対的なゲイン補正である。この評価gmatchは実際には、低帯域と高帯域(Fs/4)との間の分離の周波数におけるフィルタ
と、
との間の準位等化因子に相当する。因子gmatchの算出(ブロック203)は、図2bにおいてここで複製される3GPP specification TS26.290の図10で詳述される。この図は、ここではこれ以上詳述されない。
のインパルス応答のエネルギーを算出するために、ブロック210〜230が使用されることに単純に留意されるとともに、フィルタ
がスペクトル的に生じた高帯域(低帯域および高帯域を分離するフィルタバンクのスペクトル特性を理由に)をモデル化することが想起される。フィルタがサブフレームによって補間されるため、ゲインgmatchがフレームごとに1回のみ算出され、およびそれはサブフレームによって補間される。
AMR−WB+における帯域拡張ゲイン符号化技術、より具体的には、それらの分岐におけるLPCフィルタの準位の補償が、低帯域および高帯域におけるLPCモデルによる帯域拡張に関連して適切な方法であり、ならびにLPCフィルタの間のそのような準位補償がAMR−WBコーデックの帯域拡張には存在しないことに留意されたい。しかしながら、実際には、別個の周波数における2つのLPCフィルタの間の準位の直接等化が最適な方法でなく、ならびに一部のケースでは、高帯域におけるエネルギーの過大評価、および可聴アーチファクトを引き起こすことがあることを立証することが可能であり、LPCフィルタは、スペクトルエンベロープ、および2つのLPCエンベロープの相対準位を調整することになる所与の周波数に対する2つのLPCフィルタの間の準位の等化の原理が想起される。ここで、正確な周波数において実行されるそのような等化は、等化ポイントの周辺においてエネルギー(周波数における)の完全な連続性および全体的な一貫性を保証しない(信号の周波数エンベロープがこの周辺で著しく変動するときに)。問題を仮定する数学的方法は、2つの曲線の間の連続性を、それらを1つかつ同一のポイントにおいて一致させることによって保証することができることに留意することにあるが、より全体的な一貫性を保証するようにローカル特性(逐次導関数)が一致することを保証するものが存在しない。低帯域および高帯域LPCエンベロープの間の点の一貫性を保証するリスクは、非常に強く、または非常に弱い相対準位の高帯域におけるLPCエンベロープを設定するリスクであり、非常に強い準位のケースでは、それがさらに問題となるアーチファクトをもたらすため、さらに不利である。
さらに、AMR−WB+におけるゲイン補償は主として、符号器および復号器に既知であり、かつ高帯域励磁信号をスケーリングするゲイン情報の伝達に必要なビットレートを減少させる役割を果たすゲインの予測である。ここで、AMR−WB符号化/復号化の相互動作可能な改善に関連して、AMR−WB23.85キロビット/秒モードにおいて帯域拡張のサブフレーム(0.8キロビット/秒)によるゲインの既存の符号化を修正することが可能ではない。さらに、厳密に23.85キロビット/秒未満のビットレートの場合、低帯域および高帯域におけるLPCフィルタの準位の補償を、AMR−WBと互換性を有する復号化の帯域拡張に適用することができるが、最適化をすることなく適用される、AMR−WB+符号化から導出されるこの唯一の技術によって、高帯域(6kHzを上回る)のエネルギーの過大評価の問題が生じることがある。
W.B.Kleijn and K.K.Paliwal(eds.),Speech Coding and Synthesis,Elsevier(1995)
M.Bosi,R.E.Goldberg,Introduction to Digital Audio Coding and Standards,Springer(2002)
J.Benesty,M.M.Sondhi,Y.Huang(Eds.),Handbook of Speech Processing,Springer(2008)
3GPP specifications(TS26.190、26.191、26.192、26.193、26.194、26.204)
ITU−T−G.722.2
B.Bessette et al.entitled"The adaptive multirate wideband speech codec(AMR−WB)",IEEE Transactions on Speech and Audio Processing,vol.10,No.8,2002,pp.620−636

したがって、周波数帯域においてエネルギーを過大評価することなく、かつ符号器からの追加情報を必要とすることなく、AMR−WBタイプのコーデックにおける周波数帯域拡張に対する異なる周波数帯域の線形予測フィルタと、このコーデックの相互動作可能なバージョンとの間のゲインの補償を改善する必要が存在する。
本発明はこの状況を改善する。
この目的を達成するために、本発明は、音声周波数信号周波数帯域拡張方法において励磁信号またはフィルタに適用されることになる最適化スケール因子を判定する方法を対象とし、帯域拡張方法は、第1の周波数帯域において、励磁信号、および線形予測フィルタの係数を備えた第1の周波数帯域のパラメータを復号化または抽出するステップと、少なくとも1つの第2の周波数帯域上で、拡張された励磁信号を生成するステップと、線形予測フィルタによって、第2の周波数帯域をフィルタリングするステップと、を備える。判定方法は、
− 第1の周波数帯域の線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するステップであって、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されたパラメータから取得される、ステップと、
− 追加フィルタの係数に少なくとも応じて、最適化スケール因子を算出するステップと
を備える。
よって、等化されることになる第1の周波数帯域のフィルタよりも低次数の追加フィルタの使用によって、エンベロープの局所揺らぎから生じることがあり、かつ予測フィルタの等化を中断させることがある、高周波数におけるエネルギーの過大評価を回避することが可能になる。
よって、第1の周波数帯域の線形予測フィルタと第2の周波数帯域の線形予測フィルタとの間のゲインの等化が改善される。
正規に取得された最適化スケール因子の有利な適用では、帯域拡張方法は、最適化スケール因子を拡張された励磁信号に適用するステップを備える。
最適な実施形態では、最適化スケール因子の適用は、第2の周波数帯域においてフィルタリングするステップと組み合わされる。
よって、最適化スケール因子をフィルタリングおよび適用するステップは、処理の複雑度を減少させる単一のフィルタリングステップにおいて組み合わされる。
特定の実施形態では、追加フィルタの係数は、低次数を取得するために第1の周波数帯域の線形予測フィルタの伝達関数の打ち切り(truncation)によって取得される。
したがって、この低次数追加フィルタは単一の方式で取得される。
さらに、安定したフィルタを取得するために、追加フィルタの係数が追加フィルタの安定度基準に応じて修正される。
特定の実施形態では、最適化スケール因子を算出するステップは、
− 共通周波数に対する第1の周波数帯域および第2の周波数帯域の線形予測フィルタの周波数応答を算出するステップと、
− この共通周波数に対する追加フィルタの周波数応答を算出するステップと、
− 正規に算出された周波数応答に応じて、最適化スケール因子を算出するステップと
を備える。
よって、最適化スケール因子は、共通周波数に近接した第1の帯域の高次数フィルタ周波数応答が信号の最大値または最小値を示すはずである、起こり得る問題となるアーチファクトを防止する方法で算出される。
特定の実施形態では、方法はさらに、予め定められた復号化ビットレートに対して実装される、以下のステップ:
− 復号化された励磁信号と拡張された励磁信号との間のエネルギー比に応じて、サブフレームごとに算出されたゲインによって、拡張された励磁信号をスケーリングする第1のステップと、
− 復号化された補正ゲインによってスケーリングする第1のステップから取得された励磁信号をスケーリングする第2のステップと、
− スケーリングする第2のステップの後に取得された信号のエネルギーに応じて、および最適化スケール因子の適用の後に取得された信号に応じて、算出された調整因子によって、カレントサブフレームに対する励磁のエネルギーを調整するステップと
を備える。
よって、予め定められた動作モードに対する拡張された信号の品質を改善するために追加情報を使用することができる。
本発明はまた、音声周波数信号周波数帯域拡張デバイスにおいて励磁信号またはフィルタに適用されることになる最適化スケール因子を判定するデバイスを対象とし、帯域拡張デバイスは、第1の周波数帯域において、励磁信号、および線形予測フィルタの係数を備えた第1の周波数帯域のパラメータを復号化または抽出するモジュールと、少なくとも1つの第2の周波数帯域上で、拡張された励磁信号を生成するモジュールと、線形予測フィルタによって、第2の周波数帯域をフィルタリングするモジュールとを備える。判定するデバイスは、
− 第1の周波数帯域の線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するモジュールであって、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されたパラメータから取得される、モジュールと、
− 追加フィルタの係数に少なくとも応じて、最適化スケール因子を算出するモジュールと
を備える。
本発明は、上述したデバイスを備える復号器を対象とする。
それは、コード命令がプロセッサによって実行されると、上述した最適化スケール因子を判定する方法のステップを実行するそれらのコード命令を備えるコンピュータプログラムを対象とする。
最後に、本発明は、上述した最適化スケール因子を判定する方法を実行するコンピュータプログラムを記憶している、最適化スケール因子を判定するデバイスに組み込まれ、または組み込まれていない、場合によっては着脱可能である、プロセッサによって読み取ることが可能な記憶媒体に関する。
本発明の他の特徴および利点が、純粋に非限定的な例として与えられる、以下の発明を実施するための形態を読むことによって、かつ添付の図面を参照してより明確になるであろう。
従来技術の、および前に説明された周波数帯域拡張ステップを実装するAMR−WBタイプの復号器の一部を示す図である。 従来技術に従って、および前に説明されたAMR−WB+コーデックにおける高帯域の符号化を提示する図である。 従来技術に従って、および前に説明されたAMR−WB+コーデックにおける高帯域の符号化を提示する図である。 本発明の実施形態に従って使用される帯域拡張デバイスを組み込んだ、AMR−WB符号化と相互動作することができる復号器を示す図である。 本発明の実施形態に従って、ビットレートに応じてサブフレームによって最適化されたスケール因子を判定するデバイスを示す図である。 本発明の実施形態に従って、最適化スケール因子の算出に使用されるフィルタの周波数応答を示す図である。 本発明の実施形態に従って、最適化スケール因子の算出に使用されるフィルタの周波数応答を示す図である。 本発明の実施形態に従って、最適化スケール因子を判定する方法の主たるステップをフローチャート形式で示す図である。 帯域拡張の一部として最適化スケール因子を判定するデバイスの周波数領域における実施形態を示す図である。 本発明の実施形態に従って、帯域拡張における最適化スケール因子判定デバイスのハードウェア実装形態を示す図である。
図3は、ブロック309によって示される帯域拡張デバイスによって実装される、本発明の方法の実施形態に従って最適化スケール因子を判定するステップを備える帯域拡張が存在する、AMR−WB/G.722.2標準と互換性を有する、例示的な復号器を示す。
16kHzの出力サンプリング周波数で動作するAMR−WB復号化とは異なり、ここでは、復号器は、周波数fs=8、16、32または48kHzにおいて出力信号(合成)で動作することができると考えられる。ここでは、低帯域におけるCELP符号化に対する12.8kHzの内部周波数でのAMR−WBアルゴリズムに従って、および16kHzの周波数におけるサブフレームごとの23.85キロビット/秒のゲイン符号化において符号化が実行されていることが想定され、ここでは、本発明が復号化準位において説明されるが、ここでは、符号化はまた、周波数fs=8、16、32または48kHzにおいて入力信号で動作することができ、および本発明の文脈の範囲外の、適切なリサンプリング動作が、fsの値に応じて符号化において実装されることが想定される。fs=8kHzのとき、AMR−WBと互換性を有する復号化のケースでは、周波数fsにおいて再構築される音声帯域が0〜4000Hzに制限されるため、0〜6.4kHz低帯域を拡張する必要がないことに留意されたい。
図3では、CELP復号化(低周波数を表すLF)は、AMR−WBにあるように、12.8kHzの内部周波数においていまだに動作し、本発明に使用される帯域拡張(高周波数を表すHF)は、16kHzの周波数において動作し、ならびにLFおよびHF合成は、適切なリサンプリング(ブロック306およびブロック311における内部処理)の後、周波数fsにおいて結合される(ブロック312)。変形形態の実施形態では、周波数fsにおける結合された信号をリサンプリングする前に、12.8〜16kHzの低帯域をリサンプリングした後、低帯域および高帯域の結合を16kHzにおいて行うことができる。
図3に従った復号化は、受信されるカレントフレームと関連付けられたAMR−WBモード(またはビットレート)に依存する。インジケーションとして、およびブロック309に影響を与えることなく、低帯域におけるCELP部の復号化は、以下のステップ、
・正確に受信されたフレームのケースでは(bfi=0、bfiは「受信されたフレームに対して値0、および損失したフレーム対して値1を有する、「不良フレームインジケータ」である)、符号化されたパラメータを逆多重化する(ブロック300)ステップ、
・標準G.722.2の第6.1節で説明される補間およびLPC係数への変換を伴うISFパラメータを復号化する(ブロック301)ステップ、
・12.8kHzにおいて長さ64の各サブフレームにおいて励磁(excまたはu‘(n))を再構築する適応および固定部で、CELP励磁を復号化する(ブロック302)ステップであって、CELP復号化に関して、AMR−WB符号器/復号器と相互動作可能な復号器のITU−T勧告G.718の第7.1.2.1節の以下の注記によって、
であり、v(n)およびc(n)はそれぞれ、適応および固定ディクショナリのコードワードであり、ならびに
および
は、関連付けられた復号化されたゲインである。この励磁u‘(n)は、次のサブフレームの適応ディクショナリに使用され、次いで、それは後処理され、およびG.718にあるように、励磁u‘(n)(excとも表される)が、ブロック303における合成フィルタ
に対する入力としての役割を果たす、その修正された後処理されたバージョンu(n)(exc2とも表される)と区別される、ステップ、

によって合成フィルタリングする(ブロック303)ステップであって、復号化されたLPCフィルタ
は、次数16のフィルタである、ステップ、
・fs=8kHzの場合、G.718の第7.3節に従って狭帯域の後処理をするステップ、
・フィルタ1/(1−0.68z−1)によってデエンファシスするステップと、
・G.718の第7.14.1.1節で説明される、低周波数における混調波ノイズ(cross−harmonics noise)を減衰させる、低周波数を後処理する(「帯域ポスフィルタ(bass posfilter)」と称される)(ブロック306)ステップ。この処理は、高帯域(6.4kHzを上回る)の復号化において考慮される遅延を生じさせる、
・出力周波数fsにおいて12.8kHzの内部周波数をリサンプリングするステップ。多数の実施形態が可能である。概念を失うことなく、ここでは、例として、fs=8または16kHzの場合、G.718の第7.6節で説明されるリサンプリングがここで繰り返され、およびfs=32または48kHzの場合、追加有限インパルス応答(FIR)フィルタが使用され、
・準位低減によるサイレンスの品質を「改善する」ためにG.718の第7.14.3節で説明されるように好ましくは実行される「ノイズゲート」(ブロック308)のパラメータを算出するステップ。
本発明に対して実装することができる変形形態では、帯域拡張の本質に影響を与えることなく、励磁に適用される後処理動作を修正することができ(例えば、位相分散を改善することができ)、またはそれらの後処理動作を拡張することができる(例えば、混調波ノイズの低減を実装することができる)。
ブロック306、308、314の使用は任意選択であることに留意されたい。
上記説明された低帯域の復号化は、6.6キロビット/秒と23.85キロビット/秒との間のビットレートを有する、いわゆる「活性」カレントフレームを想定していることに留意されたい。実際に、DTXモードが活性化されるとき、一定のフレームを「非活性」として符号化することができ、このケースでは、サイレンス記述子(silence descriptor)を伝達し(35ビット上で)、または何も伝達しないかのいずれかが可能である。特に、SIDフレームは、多数のパラメータ、8のフレームで平均化されたISFパラメータ、8のフレームでの平均エネルギー、非固定ノイズの再構築のための「ディザリング」フラグを記述することが想起される。全てのケースでは、復号器では、カレントフレームに対する励磁およびLPCフィルタの再構築(それによって、さらに非活性フレームに帯域拡張を適用することが可能になる)を伴う、活性フレームに対するのと同一の復号化モデルが存在する。同一の観察は、LPCモデルが適用される、「損失フレーム」(またはFEC、PLC)の復号化を要求する。
ここで説明される実施形態において、および図7を参照して、復号器によって、復号化された低帯域を、カレントフレームで実装されたモードに応じて約50〜6900Hzから50〜7700Hzまでの範囲でその幅が変動する、拡張された帯域に拡張することが可能になる(復号器上での50Hzハイパスフィルタリングを考慮した50〜6400Hz、一般的なケースでは0〜6400Hz)。よって、0〜6400Hzの第1の周波数帯域、および6400〜8000Hzの第2の周波数帯域を参照することが可能である。実際に、好ましい実施形態では、6000〜6900または7700Hzの幅のバンドパスフィルタリングを可能にするために、5000〜8000Hzの帯域における周波数領域において励磁の拡張が実行される。
23.85キロビット/秒において、23.85キロビット/秒において伝達されるHFゲイン補正情報(0.8キロビット/秒)がここで復号化される。その使用は、図4を参照して後に詳述される。本発明のために使用される帯域拡張デバイスを示し、および実施形態における図7で詳述される、高帯域合成部が、ならびにブロック309において作成される。
復号化された低帯域および高帯域を調整するために、ブロック306および307の出力を同期する遅延(ブロック310)がもたらされ、16kHzにおいて合成される高帯域は、16kHz〜周波数fsでリサンプリングされる(ブロック311の出力)。遅延Tの値は、高帯域信号がどのように合成されるかに依存し、および低周波数の後処理にあるように周波数fsに依存する。よって、全体的に、ブロック310におけるTの値は、特定の実装形態に従って調整される必要がある。
次いで、低帯域および高帯域がブロック312において結合され(追加され)、得られた合成が、次数2の、その係数が周波数fsに依存する50Hzハイパスフィルタリング(IIRタイプの)によって後処理され(ブロック313)、ならびにG.718と同様の方式で、「ノイズゲート」の任意選択の適用で後処理を出力する(ブロック314)。
図3を参照して、ここでは、周波数帯域拡張処理において励磁信号に適用されることになる最適化スケール因子を判定するデバイスの実施形態が説明される。このデバイスは、前に説明された帯域拡張ブロック309に含まれる。
よって、ブロック400は、第1の周波数帯域u(n)において復号化された励磁信号から、少なくとも1つの第2の周波数帯域上で、拡張された励磁信号uHB(n)を取得するために帯域拡張を実行する。
本発明に従った最適化スケール因子評価は、信号uHB(n)がどのように取得されるかとは独立していることに留意されたい。しかしながら、そのエネルギーに関する1つの条件が重要である。実際に、6000〜8000Hzの高帯域のエネルギーは、ブロック302の出力における復号化された励磁信号の4000〜6000Hzの帯域のエネルギーと同様の準位にあるべきである。さらに、低帯域信号がデエンファシスされるため(ブロック305)、特定のデエンファシスフィルタを使用し、または上述したフィルタの平均減衰に対応する定数因子を乗算するかのいずれかによって、デエンファシスがまた高帯域励磁信号に適用されるべきである。この条件は、符号器によって伝達される追加情報を使用する23.85キロビット/秒ビットレートのケースには当てはまらない。このケースでは、高帯域励磁信号のエネルギーは、後に説明されるように、符号器に対応する信号のエネルギーと一致するはずである。
周波数帯域拡張は、例えば、ホワイトノイズから、図1を参照してブロック100〜102において説明されたAMR−WBタイプの復号器に対するのと同一の方法で実装されてもよい。
別の実施形態では、図7におけるブロック700〜707に対して後に示され、かつ説明されるホワイトノイズおよび復号化された励磁信号の結合から、この周波数帯域拡張を実装することができる。
以下で説明される復号化された励磁信号と拡張された励磁信号との間のエネルギー準位の保存を伴う他の周波数帯域拡張方法はもちろん、ブロック400に対して想定されてもよい。
さらに、帯域拡張モジュールはまた、復号器から独立することができ、ならびに励磁およびそれからのLPCフィルタを抽出する音声信号の分析と共に、拡張モジュールに記憶されまたは拡張モジュールに送信される既存の音声信号に対する帯域拡張を実行することができる。このケースでは、拡張モジュールの入力における励磁信号は、もはや復号化された信号ではないが、本発明の実装形態において最適化スケール因子を判定する方法で使用される第1の周波数帯域の線形予測フィルタの係数と同様に、分析の後に抽出された信号である。
図4で示された例では、それに対して最適化スケール因子の判定がブロック401に制限される、23.85キロビット/秒を上回るビットレートのケースが最初に考えられる。
このケースでは、gHB2(m)で表される最適化スケール因子が算出される。一実施形態では、この算出は、好ましくはサブフレームごとに実行され、ならびにそれは、合成された高帯域の過度なエネルギーをもたらし、よって可聴アーチファクトを生じさせることがある過大評価のケースを回避するための追加の予防策を有する、図7を参照して後に説明されるような、低周波数および高周波数で使用されるLPCフィルタ
および
の周波数応答の準位を均等にすることにある。
代替的な実施形態では、例えば、フィルタ
の代わりに、ITU−T勧告G.718に従って、AMR−WB符号器/復号器と相互作用することができるAMR−WB復号器または復号器で実装されるような、推定されたHF合成フィルタ
を維持することが可能である。次いで、本発明に従った補償が、フィルタ
および
から実行される。
最適化スケール因子の判定はまた、第1の周波数帯域の線形予測フィルタ
よりも低次数の、追加フィルタと称される線形予測フィルタの判定(401aにおいて)によって実行され、追加フィルタの係数は、第1の周波数帯域から復号化または抽出されるパラメータから取得される。次いで、最適化スケール因子は、拡張された励磁信号uHB(n)に適用されることになるそれらの係数に少なくとも応じて算出される(401bにおいて)。
ブロック401で実装される、最適化スケール因子の判定の原理は、16kHzにおいてサンプリングされる信号から取得される具体的な例と共に図5aおよび5bで示され、3つのフィルタの以下でR、P、Qで表される周波数応答振幅値が、カレントサブフレームにおける6000Hz(垂直破線)の共通周波数において算出され、カレントサブフレームのインデックスmは、文章を明確にするために、サブフレームによって推定されるLPCフィルタの表記においてここでは想起されない。6000Hzの値は、それが低帯域のナイキスト周波数に近づくように、すなわち、6400Hzになるように選択される。最適化スケール因子を判定するためにこのナイキスト周波数をとらないことが好ましい。実際に、低周波数における復号化された信号のエネルギーは典型的には、6400Hzにおいて既に減衰している。さらに、ここで説明される帯域拡張は、6000〜8000Hzの範囲にある、高帯域と称される第2の周波数帯域上で実行される。本発明の変形形態では、6000Hz以外の周波数が、最適化スケール因子を判定する概念を失うことなく、選択されることが可能であることに留意するべきである。2つのLPCフィルタが別個の帯域(AMR−WB+にあるように)に対して定義されるケースを考えることも可能である。このケースでは、R、PおよびQが別個の周波数において算出される。
図5aおよび5bは、量(quantities)R、P、Qがどのように定義されるかを示す。
第1のステップは、6000Hzの周波数における第1の周波数帯域(低帯域)および第2の周波数帯域(高帯域)の線形予測フィルタの周波数応答RおよびPをそれぞれ算出することにある。以下が最初に算出され、
M=16は、復号化されたLPCフィルタ
の次数であり、θは、12.8kHzのサンプリング周波数に対して正規化される6000Hzの周波数に相当し、すなわち、
である。
次いで、同様に以下が算出され、
である。
好ましい実施形態では、量PおよびRが、以下の疑似コードに従って算出される。
px=py=0
rx=ry=0
for i=0 to 16
px=px+Ap[i]*exp_tab_p[i]
py=py+Ap[i]*exp_tab_p[33−i]
rx=rx+Aq[i]*exp_tab_q[i]
ry=ry+Aq[i]*exp_tab_q[33−i]
end for
P=1/sqrt(px*px+py*py)
R=1/sqrt(rx*rx+ry*ry)
ここで、
は、
(次数16の)の係数に相当し、
は、
の係数に相当し、sqrt()は、平方根演算に対応し、ならびにサイズ34のテーブルexp_tab_pおよびexp_tab_qは、
を有する、6000Hz周波数と関連付けられた複素指数関数の実数部および虚数部を含む。
例えば、多項式
を次数2に適切に切り捨てることによって、追加予測フィルタが取得される。
実際に、次数への直接の切り捨ては、次数2のこのフィルタが安定することを保証するものが通常存在しないため、問題を引き起こすことがある、フィルタ
につながる。好ましい実施形態では、したがって、フィルタ
の安定度が検出され、およびフィルタ
が使用され、その係数は、不安定度検出に応じて
から得られる。特に、以下が初期化される。

フィルタ
の安定度を異なって検証することができ、ここでは、PARCOR係数(または反発係数)領域において
を算出することによって変換が使用される。
|k|<1、i=1,2の場合に安定度が検証される。したがって、kの値は、以下のステップで、フィルタの安定度を保証する前に条件付きで修正され、
ここで、min(.,.)およびmax(.,.)はそれぞれ、2つのオペランドの最小値および最大値を与える。
に対する閾値0.99およびkに対する閾値0.6は、本発明に変形形態において調整されることが可能であることに留意されたい。第1の反発係数kは、次数1にモデル化される信号のスペクトル傾斜(またはチルト)を特徴付け、本発明におけるkの値は、この傾斜を保持し、および
のそれと同様のチルトを維持するために、安定限界に近い値で飽和することが想起される。また、第2の反発係数kは、次数2にモデル化される信号の共鳴準位を特徴付け、次数2のフィルタの使用が6000Hzの周波数の周囲のそのような共鳴の影響を除去することを目的としているため、kの値はさらに強く制限され、この制限は0.6に設定されることが想起される。
次いで、
の係数が
によって取得される。
したがって、追加フィルタの周波数応答は最後に
で算出され
である。この量は、好ましくは以下の疑似コードに従って算出され、
qx=qy=0
for i=0 to 2
qx=qx+As[i]*exp_tab_q[i];
qy=qy+As[i]*exp_tab_q[33−i];
end for
Q=1/sqrt(qx*qx+qy*qy)
ここで、As[i]=
である。
概念を失うことなく、別の方法では、例えば、次数16のLPCフィルタ
に、J.D.Markel and A.H.Gray,Linear Prediction of Speech,Springer Verlag(1976年)で説明される「STEP DOWN」と称されるLPC次数の削減手順を適用することよって、または12.8kHzにおいて合成され(復号化され)およびウインドウ化された信号上で算出された自己相関からの2つのLevinson−Durbin(またはSTEP−UP)アルゴリズムの繰り返しを実行することによって、次数2のフィルタの係数を算出することが可能である。
一部の信号に対し、復号化された最初の3つのLPC係数から算出された量Qは、スペクトルにおけるスペクトル傾斜(またはチルト)をより良好に考慮し、および「偽」ピークの影響を回避し、または全てのLPC係数から算出される量Rの値を歪めもしくは上昇させることがある6000Hzに近い。
好ましい実施形態では、以下のように、事前に算出された量R、P、Qから条件付きで推定される:
チルト(r(i)が自己相関であるr(1)/r(0)の形式で正規化された自己相関によって、ブロック104でAMR−WBにあるように算出される)が負である場合(図5bに示されるようにチルトが0未満である)、以下のようにスケール因子の算出が行われ、
高帯域のエネルギーの過度に急激な変動に起因したアーチファクトを回避するために、平滑化がRの値に適用される。好ましい実施形態では、指数関数的平滑化が、
R=0.5R+0.5Rprev
prev=R
の形式で時間(0.5)において固定因子で実行され、Rprevは、先行のサブフレームにおけるRの値に相当し、因子0.5は、経験的に最適化され、明白に、因子0.5は、別の値に変更されることが可能であり、および他の平滑化方法も可能である。平滑化によって、一時的な変動を減少させることが可能であり、よってアーチファクトを回避することが可能である。
次いで、最適化スケール因子が
HB2(m)=max(min(R,Q),P)/P
によって与えられる。
代替的な実施形態では、
HB2(m)←0.5gHB2(m)+0.5gHB2(m−1)
となるように、Rの平滑化をgHB2(m)の平滑化に置き換えることが可能である。チルト(ブロック104でAMR−WBにあるように算出される)が正である場合(図5aにあるようにチルトが0を上回る)、以下のようにスケール因子の算出が行われる:
先行のケースにあるように、Rが低いときにより強い平滑化で、量Rが時間で適応して平滑化され、この平滑化によって一時的な変動を減少させることが可能であり、よってアーチファクトを回避することが可能である。
R=(1−α)R+αRprev、α=1−R
prev=R
次いで、最適化スケール因子が
HB2(m)=min(R,P,Q)/P
によって与えられる。
代替的な実施形態では、Rの平滑化を、上記算出されたgHB2(m)の平滑化に置き換えることが可能である。
HB(m)=(1−α)gHB(m)+αgHB(m−1)、m=0,...,3、α=1−gHB(m)
ここで、gHB(−1)は、先行のフレームの最後のサブフレームに対して算出されたスケールまたはゲイン因子である。
ここで、スケール因子を過大評価することを回避するために、R、P、Qの最小値がとられる。
変形形態では、チルトにのみ依存する上記条件は、決定を改善するために、チルトパラメータのみでなく、他のパラメータをも考慮するように拡張されることが可能である。さらに、gHB2(m)の算出は、それらの前記追加パラメータに従って調整されることが可能である。
追加パラメータの例は、
として定義することができるゼロ交差(ZCR、ゼロ交差率)の数であり、
である。
パラメータzcrは概して、チルトと同様の結果を与える。良好な分類基準は、合成信号s(n)に対して算出されたzcrと、12800Hzにおける励磁信号u(n)に対して算出されたzcrとの間の比率である。この比率は、0と1との間であり、0は、減少するスペクトルを信号が有していることを意味し、1は、スペクトルが増加していることを意味(1−tilt)/2に相当する)する。このケースでは、zcr/zcr>0.5の比率は、tilt<0のケースに相当し、zcr/zcr<0.5の比率は、tilt>0に相当する。
変形形態では、パラメータtilthpの関数を使用することが可能であり、tilthpは、例えば、4800Hzにおいてカットオフ周波数でハイパスフィルタによってフィルタリングされる、合成信号s(n)に対して算出されたチルトであり、このケースでは、6〜8kHzの応答
(16kHzにおいて適用される)は、4.8〜6.4kHzの
の重み付け応答(weighted response)に相当する。
は、さらなる平坦化応答(flattened response)を有するため、このチルトの変化を補償する必要がある。tilthpに従ったスケール因子関数は次いで、(1−tilthp+0.6、によって実施形態において与えられる。したがって、QおよびRは、tilt>0のときに、min(1,(1−tilthp+0.6)、と乗算され、tilt<0のときに、max(1,(1−tilthp+0.6)、と乗算される。
ここで、23.85キロビット/秒ビットレートのケースが考えられ、そのケースでは、ブロック403〜408によってゲイン補正が実行される。このゲイン補正はさらに、別の発明の主題である。本発明に従ったこの特定の実施形態では、23.85キロビット/秒において品質を改善するために使用される、0.8キロビット/秒のビットレートを有するAMR−WB(互換性を有する)符号化によって伝達される、gHBcorr(m)で表されるゲイン補正情報が使用される。
ここで、ITU−T clause G.722.2/5.11、または同様に、3GPP clause TS26.190/5.11で説明されるように、AMR−WB(互換性を有する)符号化は、4ビット上で補正ゲイン量子化を実行している。
AMR−WB符号器では、16kHzにおいてサンプリングされ、および6〜7kHzバンドパスフィルタsHB(n)によってフィルタリングされた元の信号のエネルギーを、合成フィルタ
および6〜7kHzバンドパスフィルタ(フィルタリングの前に、ノイズのエネルギーが、12.8kHzにおける励磁の準位と同様の準位に設定される)sHB2(n)によってフィルタリングされた16kHzにおけるホワイトノイズのエネルギーと比較することによって、補正ゲインが算出される。ゲインは元の信号のエネルギーと、2つに分割されるノイズのエネルギーとの比率のルートである。1つの可能な実施形態では、より広帯域(例えば、6〜7.6kHz)を有するフィルタに対するバンドパスフィルタを変更することが可能である。

23.85キロビット/秒において受信されるゲイン情報(ブロック407で)を適用することを可能にするために、AMR−WB(互換性を有する)符号化の予想される準位と同様の準位に励磁をさせることが重要である。よって、ブロック404は、以下の式に従って励磁信号のスケーリングを実行し、
HB1(n)=gHB3(m)uHB(n)、n=80m,・・・,80(m+1)−1
HB3(m)は、
の形式で、ブロック403で算出されたサブフレームごとのゲインであり、AMR−WB符号化において、HF励磁が0〜8000Hz帯域を上回るホワイトノイズであると仮定すると、分母における因子5は、信号u(n)と信号uHB(n)との間の帯域幅差を補償する役割を果たす。
23.85キロビット/秒において送信される、indexHF_gain(m)で表されるサブフレームごとの4ビットのインデックスは、ビットストリームから逆多重化され(ブロック405)、および以下のようにブロック406によって復号化され、
HBcorr(m)=2.HP_gain(indexHF_gain(m))
HP_gain(.)は、AMR−WB符号化で定義され、および以下で想起されるHFゲイン量子化辞書である。

ブロック407は、以下の式に従って、励磁信号のスケーリングを実行する。
HB2(n)=gHBcorr(m)uHB1(n)、n=80m,・・・,80(m+1)−1
最後に、励磁のエネルギーは、以下の条件(ブロック408)でのカレントサブフレームの準位に調整される。以下が算出される。

ここで、分子は、モード23.05で取得される高帯域信号エネルギーを表す。前に説明されたように、ビットレート<23.85キロビット/秒の場合、復号化された励磁信号と拡張された励磁信号uHB(n)との間のエネルギーの準位を保持することが必要であるが、23.85キロビット/秒のビットレートのケースでは、uHB(n)がゲインgHB3(m)によってスケーリングされるため、この制約は、このケースでは必要ではない。二重乗算を回避するために、ブロック400で信号に適用される一定の乗算演算は、g(m)と乗算することによってブロック402で適用される。g(m)の値は、uHB(n)合成アルゴリズムに依存し、および低帯域における復号化された励磁信号と信号g(m)uHB(n)との間のエネルギー準位が保持されるように調整される必要がある。
図7を参照して後に詳細に説明される特定の実施形態では、g(m)=0.6gHB1(m)であり、gHB1(m)は、信号uHBに対し、サブフレームごとのエネルギーと信号u(n)に関するフレームごとのエネルギーとの間で同一の比率を保証するゲインであり、および0.6は、5000〜6400Hzのデエンファシスフィルタの平均周波数応答振幅値に相当する。
ブロック408では、低帯域信号のチルト上に情報が存在し、好ましい実施形態では、このチルトは、ブロック103および104に従ってAMR−WBコーデックにあるように算出されるが、本発明の原理を変更することなくチルトを評価する他の方法が可能であることが想定される。
fac(m)>1またはチルト<0の場合、
HB‘(n)=uHB2(n)、n=80m,・・・,80(m+1)−1
が想定され、それ以外の場合、
が想定される。
特にブロック401および402では、ここで説明される最適化スケール因子の算出は、多数の態様によるAMR−WB+コーデックで実行されるフィルタ準位の上述した等化と区別される。
・最適化スケール因子は、一時的フィルタリングを伴うことなくLPCフィルタの伝達関数から直接算出される。これは方法を簡易化する。
・好ましくは低帯域と関連付けられたナイキスト周波数(6400Hz)とは異なる周波数において等化が行われる。実際に、LPCモデリングは、リサンプリング動作によって典型的には生じる信号の減衰を黙示的に表し、したがってLPCフィルタの周波数応答は、選択された共通周波数にはないナイキスト周波数における減少の影響を受けることがある。
・ここで、等化は、等化されることになる2つのフィルタに加え、低次数(ここでは次数2の)フィルタに依存する。この追加フィルタによって、予測フィルタの周波数応答の算出のために共通周波数に存在することがある局所的スペクトル変動(最大値または最小値)の影響を回避することが可能になる。
ブロック403〜408に対し、本発明の利点は、本発明に従って23.85キロビット/秒において復号化された信号の品質が、AMR−WB復号器におけるケースではない、23.05キロビット/秒において復号化された信号と比較して改善されることである。実際に、本発明のこの態様によって、23.85キロビット/秒において受信される追加情報(0.8キロビット/秒)を使用することが可能になるが、制御された方式では(ブロック408)、23.85のビットレートにおいて拡張された励磁信号の品質を改善することが可能になる。
図4のブロック401〜408によって示されるような最適化スケール因子を判定するデバイスは、図6を参照してここで説明される最適化スケール因子を判定する方法を実装する。
メインステップは、ブロック401によって実装される。
よって、拡張された励磁信号uHB(n)は、低帯域と称される第1の周波数帯域で、励磁信号、および例えば、第1の周波数帯域の線形予測フィルタの係数などの第1の周波数帯域のパラメータを復号化または抽出するステップを備える周波数帯域拡張方法E601において取得される。
ステップE602は、第1の周波数帯域の次数よりも低次数の、追加フィルタと称される線形予測フィルタを判定する。このフィルタを判定するために、復号化または抽出された第1の周波数帯域のパラメータが使用される。
一実施形態では、例えば2の、より低いフィルタ次数を取得するために低帯域の線形予測フィルタの伝達関数の打ち切りによってこのステップが実行される。次いで、図4を参照して前に説明されたような安定度基準に応じてそれらの係数を修正することができる。
よって、判定された追加フィルタの係数から、拡張された励磁信号に適用されることになる最適化スケール因子を算出するために、ステップE603が実装される。この最適化スケール因子は例えば、低帯域(第1の周波数帯域)と高帯域(第2の周波数帯域)との間の共通周波数において、追加フィルタの周波数応答から算出される。このフィルタの周波数応答と低帯域および高帯域フィルタの応答との間で最小値を選択することができる。
したがって、これは、従来技術の方法に存在することがあったエネルギーの過大評価を回避する。
最適化スケール因子の算出のこのステップは、例えば、図4ならびに図5aおよび5bを参照して前に説明されている。
帯域拡張のためのブロック402または409によって実行される(復号化ビットレートに応じて)ステップE604は、正規に算出された最適化スケール因子を拡張された励磁信号に適用して、最適に拡張された拡張信号uHB‘(n)を取得する。
特定の実施形態では、最適化スケール因子708を判定するデバイスは、図7を参照してここで説明される帯域拡張デバイスに組み込まれる。ブロック708によって示される最適化スケール因子を判定するこのデバイスは、図6を参照して前に説明された最適化スケール因子を判定する方法を実装する。
この実施形態では、図4の帯域拡張ブロック400は、ここで説明される図7のブロック700〜707を備える。
よって、帯域拡張デバイスの入力において、分析によって復号化または評価された低帯域励磁信号が受信される(u(n))。ここでの帯域拡張は、図3のブロック302の出力において12.8kHzにおいて復号化された励磁(exc2またはu(n))を使用する。
この実施形態では、オーバーサンプリングおよび拡張された励磁の生成が、5〜8kHzの範囲にあり、よって第1の周波数帯域(0〜6.4kHz)を上回る第2の周波数帯域(6.4〜8kHz)を含む周波数帯域において実行される。
よって、拡張された励磁信号の生成は、少なくとも第2の周波数帯域上で実行されるが、第1の周波数帯域の一部の上でも実行される。
明らかに、それらの周波数帯域を定義する値は、復号器または本発明が適用される処理デバイスに応じて異なってもよい。
この例示的な実施形態の場合、この信号は、時間−周波数変換モジュール500によって励磁信号スペクトルU(k)を取得するために変換される。
特定の実施形態では、変換は、ウインドウ化なしで、20ミリ秒(256サンプル)のカレントフレーム上でDCT−IV(「離散コサイン変換」−タイプIVを表す)を使用し、それは以下の式に従ってn=0,・・・,255を有するu(n)を直接変換することになり、
Nは256であり、およびkは、0,・・・,255である。
処理が信号領域においてではなく、励磁領域において実行され、それによって、アーチファクトが聞こえなくなり(ブロック効果)、それは本発明のこの実施形態の重要な利点を構成するため、ウインドウ化なしの(または同様に、フレームの長さの黙示的な長方形ウインドウでの)変換が可能であることに留意するべきである。
この実施形態では、DCT−IV変換は、D.M.Zhang,H.T.Li,A Low Complexity Transform−Evolved DCT,IEEE 14th International Conference on Computational Science and Engineering(CSE),2011年8月,144〜149ページの論文によって説明され、およびITU−T標準G.718 Annex BおよびG.729.1 Annex Eにおいて実装されるいわゆる「発展型DCT(EDCT)」アルゴリズムに従ったFFTによって実装される。
本発明の変形形態では、および概念を失うことなく、DCT−IV変換は、FFT(「高速フーリエ変換」を表す)またはDCT−II(離散コサイン変換−タイプII)などの、同一の長さの、かつ励磁領域における他の短期時間−周波数変換と置き換えられることが可能である。代わりに、変換によるフレーム上でのDCT−IVを、例えば、MDCT(「修正離散コサイン変換」を表す)を使用することによって、カレントフレームの長さよりも長い長さの重複−加算およびウインドウ化と置き換えることが可能である。このケースでは、図3のブロック310における遅延Tは、この変換による分析/合成に起因した追加遅延に応じて適切に調整(減少)される必要がある。
0〜6400Hz帯域をカバーする(12.8kHzにおいて)256のサンプルの、DCTスペクトルU(k)は次いで、以下の形式にある0〜8000Hz帯域をカバーする(16kHzにおいて)320のサンプルのスペクトルに拡張され(ブロック701)、
そこでは、好ましくはstart_band=160とされる。
ブロック701は、オーバーサンプリングおよび拡張された励磁信号を生成するモジュールとして動作し、ならびにサンプル(k=240,・・・,319)の1/4をスペクトルに追加することによって(16と12.8との間の比率は5/4である)、周波数領域における12.8〜16kHzでリサンプリングを実行する。
さらに、ブロック701は、UHB1(k)の最初の200のサンプルがゼロに設定されるため、0〜5000Hz帯域において黙示的なハイパスフィルタリングを実行し、後に説明されるように、このハイパスフィルタリングはまた、5000〜6400Hz帯域におけるインデックスk=200,・・・,255のスペクトル値の漸進的な減衰の一部によって補完され、この漸進的な減衰は、ブロック704において実装されるが、ブロック704の外部では別個に実行されてもよい。同様に、かつ本発明の変形形態では、変換された領域における減衰された係数k=200,・・・,255の、ゼロに設定されるインデックスk=0,・・・,199の係数のブロックに分離されるハイパスフィルタリングの実装形態は、したがって、単一のステップで実行されることが可能である。
この例示的な実施形態では、かつUHB1(k)の定義に従って、UHB1(k)(インデックスk=200,・・・,239に相当する)の5000〜6000Hz帯域は、U(k)の5000〜6000Hz帯域から複製されることに留意されたい。このアプローチによって、この帯域において元のスペクトルを保持し、およびLF合成にHF合成を追加するときの5000〜6000Hz帯域における歪みを生じさせることを回避することが可能になり、特に、この帯域における信号の位相(DCT−IV領域において黙示的に表される)が保持される。
ここで、UHB1(k)の6000〜8000Hz帯域は、start_bandの値が好ましくは160に設定されるため、U(k)の4000〜6000Hz帯域を複製することによって定義される。
実施形態の変形形態では、start_bandの値は、160の値の周囲で適応することが可能になる。start_band値の適応の詳細は、それらが本発明の枠組みを、その範囲を変更することなく超えるため、ここでは説明されない。
一定の広帯域信号(16kHzにおいてサンプリングされる)の場合、高帯域(6kHzを上回る)は、ノイズが入り、調波であり、またはノイズおよび調波の混合を含むことがある。さらに、6000〜8000Hz帯域における調波の準位は概して、低周波数帯域の準位と相関付けられる。よって、ノイズ生成ブロック702は、高周波数と称される第2の周波数帯域に相当する周波数領域UHBN(k)、k=240,・・・,319(80のサンプル)においてノイズ生成を実行して、次いで、ブロック703において、このノイズをスペクトルUHB1(k)と結合する。
特定の実施形態では、ノイズ(6000〜8000Hz帯域における)は、16ビット上の線形合同ジェネレータで疑似ランダムに生成され、
上記規定では、カレントフレームにおけるUHBN(239)は、前のフレームの値UHBN(319)に相当する。本発明の変形形態では、このノイズ生成を他の方法によって置き換えることが可能である。
異なる方法で、結合ブロック703を作成することができる。好ましくは、以下の式の適応加法混合が考えられ、
HB2(k)=βUHB1(k)+αGHBNHBN(k)、k=240,・・・,319
HBNは、2つの信号の間のエネルギーの準位を等化する役割を果たす正規化因子であり、
ε=0.01であり、係数α(0と1との間)は、復号化された低帯域から評価されたパラメータに応じて調整され、および係数β(0と1との間)は、αに依存する。
好ましい実施形態では、ノイズのエネルギーは、3つの帯域、
を有する2000〜4000Hz、4000〜6000Hzおよび6000〜8000Hzにおいて算出され、
であり、N(k,k)は、インデックスkの集合であり、インデックスkに対して、インデックスkの係数が、ノイズと関連付けられるものとして分類される。この集合は、例えば、|U‘(k)|≧|U‘(k−1)|および|U‘(k)|≧|U‘(k+1)|を検証するU‘(k)における局所的ピークを検出し、およびそれらの射線がノイズと関連付けられないことを考慮することによって、すなわち、(前の条件の否定を適用することによって)
N(a,b)={a≦k≦b||U‘(k)|<|U‘(k−1)|または|U‘(k)|<|U‘(k+1)|}
取得されてもよい。
例えば、考えられる帯域上のスペクトルの中間値をとることによって、または帯域ごとのエネルギーを算出する前に、各々の周波数の射線に平滑化を適用することによって、ノイズのエネルギーを算出する他の方法が可能であることに留意されたい。
αは、4〜6kHzおよび6〜8kHz帯域におけるノイズのエネルギーの間の比率が、2〜4kHzおよび4〜6kHz帯域の間と同一であるように設定され、
であり、
である。
本発明の変形形態では、αの算出は、他の方法によって置き換えられることが可能である。例えば、変形形態では、AMR−WBコーデックにおいて算出されるのと同様の「チルト」パラメータを含む、低帯域における信号を特徴付ける異なるパラメータ(または「特徴」)を抽出(算出)することが可能であり、および因子αは、0と1との間のその値を制限することによってそれらの異なるパラメータから線形回帰に応じて評価される。線形回帰は、例えば、学習に基づく元の高帯域を交換することによる因子αを評価することによって、指揮された方式で評価されることが可能である。αが算出される方法は、本発明の本質を限定しないことに留意されたい。
好ましい実施形態では、混合の後に拡張された信号のエネルギーを保持するために、
がとられる。
変形形態では、因子βおよびαは、信号の所与の帯域に入り込むノイズが概して、同一の帯域における同一のエネルギーを有する調波信号よりも強いとして知覚される事実を考慮するように適合されることが可能である。よって、以下のように、因子βおよびαを修正することが可能であり、
β←β.f(α)
α←α.f(α)
f(α)は、αの減少関数であり、例えば、
であり、b=1.1、α=1.2であり、f(α)は、0.3〜1に制限される。f(α)との乗算の後に、信号UHB2(k)=βUHB1(k)+αGHBNHBN(k)のエネルギーがUHB1(k)のエネルギーよりも低くなるように(エネルギー差はαに依存し、ノイズがさらに追加されると、エネルギーはさらに減衰する)、α+β<1となることに留意するべきである。
本発明の他の変形形態では、
β=1−α
をとることが可能であり、それによって、振幅準位を保持することが可能であるが(結合された信号が同一の兆候の信号であるとき)、この変形形態は、αに応じて単調にならない、全体的なエネルギー(UHB2(k)の準位における)をもたらすという欠点を有する。
したがって、ここでは、ブロック703は、励磁に応じてホワイトノイズを正規化する、図1のブロック101と均等な内容を実行し、一方で、励磁は、周波数領域において、16kHzの速度で既に拡張されており、さらに混合は6000〜8000Hz帯域に制限されることに留意するべきである。
単一の変形形態では、ブロック703の実装形態を考慮することが可能であり、そこでは、αに対して値0または1のみを許可することになる、スペクトルUHB1(k)またはGHBNHBN(k)が適応的に選択され(切り替えられ)、このアプローチは、6000〜8000Hz帯域において生成されることになる励磁のタイプを分類することになる。
ブロック704は、周波数領域においてバンドパスフィルタ周波数応答およびデエンファシスフィルタリングの適用の二重動作を任意選択で実行する。
本発明の変形形態では、デエンファシスフィルタリングは、ブロック705の後、さらにはブロック700の前で、時間領域において実行されることが可能であるが、しかしながら、このケースでは、ブロック704において実行されるバンドパスフィルタリングは、復号化された低帯域をわずかに知覚可能な方式で修正することができる、デエンファシスによって増幅される超低準位の一定の低周波数成分をそのままとすることがある。その理由として、ここでは、周波数領域においてデエンファシスを実行することが好ましいからである。好ましい実施形態では、インデックスk=0,・・・,199の係数はゼロに設定され、よってデエンファシスはより高い係数に制限される。
励磁は、以下の式に従って最初にデエンファシスされ、
deemph(k)は、制限された離散周波数帯域上でのフィルタ1/(1−0.68z−1)の周波数応答である。DCT−IVの離散(奇数)周波数を考慮することによって、Gdeemph(k)はここでは以下のように定義され、
である。
DCT−IV以外の変換が使用されるケースでは、θの定義が調整されることが可能である(例えば、偶数周波数に対し)。
5000〜6400Hz周波数帯域に相当する2つの位相、k=200,・・・,255にデエンファシスが適用され、応答1/1(1−0.68z−1)が12.8kHzにおいて、および、6400〜8000Hz周波数帯域に相当するk=256,・・・,319に対して適用され、ここでは、応答が16kHzから6.4〜8kHz帯域における一定値に拡張されることに留意するべきである。
AMR−WBコーデックでは、HF合成がデエンファシスされないことに留意されたい。
ここで提示される実施形態では、一方で、高周波数信号がデエンファシスされて、それを、図3のブロック305を出る低周波数信号(0〜6.4kHz)と一致する領域に持ち込む。これは、HF合成のエネルギーの評価および後続の調整に対して重要である。
実施形態の変形形態では、複雑度を低減させるために、例えば、上記説明された実施形態の条件におけるGdeemph(k)、k=200,・・・,319の平均値に大凡相当するGdeemph(k)=0.6をとることによって、kとは独立した一定値にGdeemph(k)を設定することが可能である。
拡張デバイスの実施形態の別の変形形態では、逆DCTの後に時間領域において均等な方式で、デエンファシスが実行されることが可能である。
デエンファシスに加え、1つがハイパス、固定、その他がローパス、適応的(ビットレートの関数)、の2つの部分でバンドパスフィルタリング適用される。
このフィルタリングは、周波数領域において実行される。
好ましい実施形態では、ローパスフィルタ部分応答は、以下のように周波数領域において算出され、
lpは、6.6キロビット/秒においては60、8.85キロビット/秒においては40、およびビットレート>8.85ビット/秒においては20である。
次いで、
の形式で、バンドパスフィルタが適用される。
hp(k)、k=0,・・・,55の定義は、例えば、以下の表1において与えられる。

本発明の変形形態では、Ghp(k)の値は、漸次的な減衰を維持する間に修正されることが可能であることに留意されたい。同様に、可変帯域幅Glp(k)を有するローパスフィルタリングは、このフィルタリングステップの原理を変更することなく、異なる値または周波数の中間(medium)で調整されることが可能である。
ハイパスおよびローパスフィルタリングを組み合わせる単一のフィルタリングステップを定義することによって、バンドパスフィルタリングが適応されることが可能であることにも留意されたい。
別の実施形態では、バンドパスフィルタリングは、逆DCTステップの後に、ビットレートに従った異なるフィルタ係数を有する時間領域における(図1のブロック112にあるように)均等な方式で実行されることが可能である。しかしながら、フィルタリングがLPC励磁の領域で実行され、よって、巡回畳み込み、およびエッジ効果の問題がこの領域において非常に限定されるため、このステップを周波数領域において直接実行することが有利である。
また、23.85キロビット/秒ビットレートのケースでは、励磁UHB2(k)のデエンファシスは、補正ゲインがAMR−WB符号器において算出される方法との一致を維持するため、および二重乗算を回避するために実行されない。このケースでは、ブロック704は、ローパスフィルタリングのみを実行する。
逆変換ブロック705は、16kHzにおいてサンプリングされた高周波数励磁を発見するために320のサンプル上で逆DCTを実行する。その実装形態はブロック700と同様であり、なぜならば、変換の長さが256の代わりに320であることを除いて、DCT−IVが正規直交しており、および以下が取得されるからであり、
16k=320であり、k=0,・・・,319である。
16kHzにおいてサンプリングされたこの励磁は、次いで、任意選択で、80のサンプルのサブフレームごとに定義されたゲインによってスケーリングされる(ブロック707)。
好ましい実施形態では、ゲインgHB1(m)は、サブフレームのエネルギー比によってサブフレームごとに最初に算出され(ブロック706)、それによって、カレントフレームのインデックスm=0、1、2または3の各々のサブフレームにおいて、
となり、
ε=0.01である。サブフレームgHB1(m)ごとのゲインは、信号uHBにおいて、サブフレームごとのエネルギーと信号u(n)にあるようにフレームごとのエネルギーとの間の同一の比率が保証されることを示す
の形式で書き込まれる。
ブロック707は、以下の式に従って、結合された信号のスケーリングを実行する。
HB(n)=gHB1(m)uHB0(n)、n=80m,・・・,80(m+1)−1
ブロック706の実装形態は、図1のブロック101の実装形態とは異なり、なぜならば、カレントフレームにおけるエネルギーの準位が、サブフレームの準位に加えて考慮されるからである。これによって、フレームのエネルギーに関連して各々のサブフレームのエネルギーの比率を有することが可能になる。したがって、低帯域と高帯域との間の絶対エネルギーよりもエネルギー比(または相対エネルギー)が比較される。
よって、このスケーリングステップによって、高帯域において、低帯域にあるのと同一の方法で、サブフレームとフレームとの間のエネルギー比を維持することが可能になる。
ここでは、23.85キロビット/秒ビットレートのケースでは、ゲインgHB1(m)が算出されるが、二重乗算を回避するために、図4を参照して説明されるように、次のステップにおいてゲインgHB1(m)が適用される。このケースでは、uHB(n)=uHB0(n)である。
本発明に従って、次いで、ブロック708は、図6を参照して前に説明され、ならびに図4および5において詳述されたように、信号のサブフレームごとのスケール因子算出を実行する(図6のステップE602〜E603)。
最後に、補正された励磁uHB‘(n)は、伝達関数
として見なすことによって、ここで実行することができるフィルタリングモジュール710によってフィルタリングされ、6.6キロビット/秒においてγ=0.9であり、および他のビットレートにおいてγ=0.6であり、それは、フィルタの次数を次数16に制限する。
変形形態では、このフィルタリングは、AMR−WB復号器の図1のブロック111に対して説明されたのと同一の方法で実行されることが可能であるが、フィルタの次数は、6.6ビットレートにおいては20に変化し、それは、合成信号の品質を著しく変化させるものではない。別の変形形態では、ブロック710で実装されるフィルタの周波数応答を算出した後、周波数領域においてLPC合成フィルタリングを実行することが可能である。
変形形態では、第2の周波数帯域に対する線形予測フィルタ710によるフィルタリングのステップは、処理の複雑度を低減させることが可能な最適化スケール因子の適用と組み合わされる。よって、フィルタリング
および最適化スケール因子gHB2の適用のステップは、処理の複雑度を低減させるために、フィルタリング
の単一のステップにおいて組み合わされる。
本発明の変形形態では、低帯域(0〜6.4kHz)の符号化は、例えば、8キロビット/秒におけるG.718でのCELP符号器などの、AMR−WBで使用される以外のCELP符号器によって置き換えられることが可能である。概念を失うことなく、他の広帯域符号器、または低帯域の符号化が12.8kHzにおいて内部周波数で動作する、16kHzを上回る周波数において動作する符号器が使用されてもよい。さらに、本発明は、低周波数符号器が、元の信号または再構築された信号の周波数よりも低いサンプリング周波数で動作するとき、12.8kHz以外の周波数をサンプリングするように明確に適合されてもよい。低帯域復号化が線形予測を使用しないとき、拡張されることになる励磁信号が存在せず、そのケースでは、カレントフレームにおいて再構築された信号のLPC分析を実行することが可能であり、およびLPC励磁は、本発明を適用することが可能なように算出される。
最後に、本発明の別の変形形態では、例えば、長さ320の変換(例えば、DCT−IV)の前に12.8kHz〜16kHzで、線形補間または三次「スプライン」によって、励磁(u(n))がリサンプリングされる。この変形形態は、励磁の変換(DCT−IV)が次いで、さらなる長さ上で算出され、およびリサンプリングが変換領域で実行されないため、より複雑になる欠点を有する。
さらに、本発明の変形形態では、ゲイン(GHBN,gHB1(m),gHB2(m),gHBN,・・・)の評価に必要な全ての算出は、対数領域で実行されることが可能である。
帯域拡張の変形形態では、低帯域u(n)における励磁およびLPCフィルタ
は、それに対して帯域が拡張される必要がある低帯域信号のLPC分析によって、フレームごとに評価される。次いで、低帯域励磁信号は、音声信号の分析によって抽出される。
この変形形態の可能な実施形態では、音声信号から抽出された励磁(線形予測によって)が既にリサンプリングされるように、励磁を抽出するステップの前に低帯域音声信号がリサンプリングされる。
図7で示された帯域拡張は、このケースでは、復号化されないが分析される低帯域に適用される。
図8は、本発明に従って最適化スケール因子800を判定するデバイスの例示的な物理的な実施形態を示す。後者は、音声周波数信号復号器、または復号化され、もしくは復号化されていない音声周波数信号を受信する設備機器の一体部分を形成することができる。
このタイプのデバイスは、記憶装置および/または作業メモリMEMを備えたメモリブロックBMと協働するプロセッサPROCを備える。
そのようなデバイスは、低帯域(u(n)またはU(k))と称される第1の周波数帯域において復号化または抽出された励磁音声信号、および線形予測合成フィルタ
のパラメータを受信するのに適切な入力モジュールEを備える。それは、合成および最適化された高周波数信号(uHB‘(n))を、例えば、図7のブロック710のようなフィルタリングモジュールまたは図3のモジュール311のようなリサンプリングモジュールに送信するのに適切な出力モジュールSを備える。
有利なことに、メモリブロックは、コード命令を備えたコンピュータプログラムを備え、それらの命令がプロセッサPROCによって実行されるとき、命令は、本発明の意義の中で励磁信号またはフィルタに適用されることになる最適化スケール因子を判定する方法のステップ、ならびに、特に、第1の周波数帯域の線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタ、第1の周波数帯域から復号化または抽出されたパラメータから取得される追加フィルタの係数を判定するステップ(E602)、および追加フィルタの係数に少なくとも応じて最適化スケール因子を算出するステップ(E603)を実行する。
典型的に、図6の説明は、そのようなコンピュータプログラムのアルゴリズムのステップを繰り返す。また、デバイスの読取機によって読み取ることが可能であり、またはそのメモリ空間にダウンロードすることが可能なメモリ媒体にコンピュータプログラムを記憶することができる。
メモリMEMは概して、方法の実装に必要な全てのデータを記憶する。
可能な実施形態では、説明されたデバイスはまた、拡張された励磁信号への最適化スケール因子の適用、周波数帯域拡張の適用、低帯域復号化の適用のための機能、ならびに本発明に従った最適化スケール因子判定機能に加え、例えば、図3および4において説明された他の処理機能を備えることができる。
16kHzの出力サンプリング周波数で動作するAMR−WB復号化とは異なり、ここでは、復号器は、周波数fs=8、16、32または48kHzにおいて出力信号(合成)で動作することができると考えられる。ここでは、低帯域におけるCELP符号化に対する12.8kHzの内部周波数でのAMR−WBアルゴリズムに従って、および16kHzの周波数におけるサブフレームごとのゲイン符号化により23.85キロビット/秒で符号化が実行されていることが想定され、ここでは、本発明が復号化準位において説明されるが、ここでは、符号化はまた、周波数fs=8、16、32または48kHzにおいて入力信号で動作することができ、および本発明の文脈の範囲外の、適切なリサンプリング動作が、fsの値に応じて符号化において実装されることが想定される。fs=8kHzのとき、AMR−WBと互換性を有する復号化のケースでは、周波数fsにおいて再構築される音声帯域が0〜4000Hzに制限されるため、0〜6.4kHz低帯域を拡張する必要がないことに留意されたい。
特にブロック401および402では、ここで説明される最適化スケール因子の算出は、多数の態様によるAMR−WB+コーデックで実行されるフィルタ準位の上述した等化と区別される。
・最適化スケール因子は、一時的フィルタリングを伴うことなくLPCフィルタの伝達関数から直接算出される。これは方法を簡易化する。
・低帯域と関連付けられたナイキスト周波数(6400Hz)とは異なる周波数において好ましくは等化が行われる。実際に、LPCモデリングは、リサンプリング動作によって典型的には生じる信号の減衰を黙示的に表し、したがってLPCフィルタの周波数応答は、選択された共通周波数までではないナイキスト周波数における減少の影響を受けることがある。
・ここで、等化は、等化されることになる2つのフィルタに加え、低次数(ここでは次数2の)フィルタに依存する。この追加フィルタによって、予測フィルタの周波数応答の算出のために共通周波数に存在することがある局所的スペクトル変動(最大値または最小値)の影響を回避することが可能になる。
帯域拡張のためのブロック402または409によって実行される(復号化ビットレートに応じて)ステップE604は、正規に算出された最適化スケール因子を拡張された励磁信号に適用して、最適に拡張された励磁信号uHB‘(n)を取得する。
hp(k)、k=0,・・・,55の定義は、例えば、以下の表において与えられる。



  1. 音声周波数信号周波数帯域拡張方法において励磁信号またはフィルタに適用されることになる最適化スケール因子を判定する方法であって、前記帯域拡張方法(E601)は、
    第1の周波数帯域において、励磁信号、および線形予測フィルタの係数を備えた前記第1の周波数帯域のパラメータを復号化または抽出するステップと、
    少なくとも1つの第2の周波数帯域上で、拡張された励磁信号を生成するステップと、
    線形予測フィルタによって、前記第2の周波数帯域をフィルタリングするステップと
    を備える、前記判定する方法において、
    − 前記第1の周波数帯域の前記線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するステップ(E602)であって、前記追加フィルタの係数は、前記第1の周波数帯域から復号化または抽出された前記パラメータから取得される、ステップと、
    − 前記追加フィルタの前記係数に少なくとも応じて、前記最適化スケール因子を算出するステップ(E603)と
    を備えることを特徴とする方法。

  2. 前記帯域拡張方法は、前記最適化スケール因子を前記拡張された励磁信号に適用するステップ(E604)を備えることを特徴とする請求項1に記載の方法。

  3. 前記最適化スケール因子を適用する前記ステップは、前記第2の周波数帯域においてフィルタリングするステップと組み合わされることを特徴とする請求項2に記載の方法。

  4. 前記追加フィルタの前記係数は、低次数を取得するために前記第1の周波数帯域の前記線形予測フィルタの伝達関数の打ち切りによって取得されることを特徴とする請求項1に記載の方法。

  5. 前記追加フィルタの前記係数は、前記追加フィルタの安定度基準に応じて修正されることを特徴とする請求項4に記載の方法。

  6. 前記最適化スケール因子を算出する前記ステップは、
    − 共通周波数に対する前記第1および第2の周波数帯域の前記線形予測フィルタの周波数応答を算出するステップと、
    − 前記共通周波数に対する前記追加フィルタの前記周波数応答を算出するステップと、
    − 前記正規に算出された周波数応答に応じて、前記最適化スケール因子を算出するステップと
    を備えることを特徴とする請求項1に記載の方法。

  7. 予め定められた復号化ビットレートに対して実装される、以下のステップ:
    − 前記復号化された励磁信号と前記拡張された励磁信号との間のエネルギー比に応じて、サブフレームごとに算出されたゲインによって、前記拡張された励磁信号をスケーリングする第1のステップと、
    − 復号化された補正ゲインによって前記スケーリングする第1のステップから取得された前記励磁信号をスケーリングする第2のステップと、
    − 前記スケーリングする第2のステップの後に取得された前記信号のエネルギーに応じて、および前記最適化スケール因子を適用するステップの後に取得された前記信号に応じて、算出された調整因子によって、カレントサブフレームに対する励磁のエネルギーを調整するステップと
    をさらに備えることを特徴とする請求項1に記載の方法。

  8. 音声周波数信号周波数帯域拡張デバイスにおいて励磁信号またはフィルタに適用されることになる最適化スケール因子を判定するデバイスであって、前記帯域拡張デバイス(400)は、
    第1の周波数帯域において、励磁信号、および線形予測フィルタの係数を備えた前記第1の周波数帯域のパラメータを復号化または抽出するモジュールと、
    少なくとも1つの第2の周波数帯域上で、拡張された励磁信号を生成するモジュールと、
    線形予測フィルタによって、前記第2の周波数帯域をフィルタリングするモジュールと
    を備える、前記判定するデバイスにおいて、
    − 前記第1の周波数帯域の前記線形予測フィルタよりも低次数の、追加フィルタと称される線形予測フィルタを判定するモジュール(401a)であって、前記追加フィルタの係数は、前記第1の周波数帯域から復号化または抽出された前記パラメータから取得される、モジュールと、
    − 前記追加フィルタの前記係数に少なくとも応じて、前記最適化スケール因子を算出するモジュール(401b)と
    を備えることを特徴とするデバイス。

  9. 請求項8に記載の最適化スケール因子を判定するデバイスを備えることを特徴とする音声周波数信号復号器。

  10. プロセッサによって命令が実行されるときに、請求項1〜7のいずれか一項に記載の最適化スケール因子を判定する方法のステップを実行するコード命令を備えるコンピュータプログラム。

  11. 請求項1〜7のいずれか一項に記載の最適化スケール因子を判定する方法のステップを実行するためのコード命令を備えるコンピュータプログラムを記憶している、最適化スケール因子を判定するデバイスによって読み取ることが可能な記憶媒体。

 

 

Patent trol of patentswamp
類似の特許
【課題】
【解決手段】 符号化コア信号とパラメトリックデータとを含む符号化オーディオ信号を復号する復号装置であり、符号化コア信号を復号して復号化コア信号を得るコアデコーダ(600)と、周波数再生動作の前または後に復号化コア信号を解析して解析結果(603)を得るアナライザ(602)と、復号化コア信号のスペクトル部、パラメトリックデータ(605)および解析結果(603)を使用して、復号化コア信号に含まれないスペクトル部を再生成する周波数再生成器とを備える復号装置。
【選択図】図6A
【課題】
【解決手段】 符号化信号を復号する装置において、第1セットの第1スペクトル部の符号化表現を復号して、復号化された第1セットの第スペクトル部を得るオーディオデコーダ(1102)と、第2セットの第2スペクトル部の符号化パラメトリック表現を復号して、パラメトリック表現(1103)の復号化表現を得るパラメトリックデコーダ(1104)とを備え、パラメトリック情報は、各ターゲット周波数タイルに対して、ソース領域識別を整合情報として含み、第1セットの第1スペクトル部(1101)から整合情報により識別されるソース領域を用いてターゲット周波数タイルを再生する周波数再生器(1106)を備える。
【選択図】図11A
オーディオ信号のデコードおよびエンコードのための方法および装置が提供される。特に、デコード方法は、クロスオーバー周波数より上の周波数範囲のある部分集合に対応するスペクトル内容をもつ波形符号化された信号を受領することを含む。波形符号化された信号は、クロスオーバー周波数より上のオーディオ信号のパラメトリック高周波数再構成とインターリーブされる。このようにして、オーディオ信号の高周波数帯域の改善された再構成が達成される。
特定の方法が、ローバンド部分とハイバンド部分とを含むオーディオ信号に対応するスペクトル情報に基づいて、オーディオ信号が、アーティファクト生成条件に対応する成分を含むことを決定することを含む。本方法は、オーディオ信号のハイバンド部分をフィルタリングすること、符号化された信号を生成することをも含む。符号化された信号を生成することは、アーティファクト生成条件の可聴効果を低減するために、フィルタされたハイバンド出力に対応する第1のエネルギーとローバンド部分に対応する第2のエネルギーとの比に基づいて利得情報を決定することを含む。
周波数増強信号(130)を生成する装置であって、コア信号(120、110)から増強信号を生成する信号生成器であって、増強信号はコア信号に含まれない増強周波数レンジを備え、増強信号またはコア信号の現在の時間部分(320、340)は複数のサブバンドに対してサブバンド信号を備える、信号生成器(200)と、増強周波数レンジまたはコア信号の複数のサブバンド信号に対して同じ平滑化情報(802)を計算する制御装置(800)とを備え、信号生成器(200)は、同じ平滑化情報を用いて増強周波数レンジまたはコア信号の複数のサブバンド信号を平滑化するように構成されている。
【選択図】図8
周波数増強信号(140)を生成する装置であって、コア信号(110、120)における周波数に関するエネルギー分布を記述する値を計算する計算器(500)と、増強信号のまたはコア信号のスペクトル包絡がコア信号における周波数に関するエネルギー分布を記述する値(501)に従属するように、コア信号(502)から、コア信号に含まれない増強周波数レンジを備える増強信号(130)を生成する信号生成器(200)を備える。
【選択図】図5
【要約書】帯域幅拡張に使用されるモデルが各特定のユーザにパーソナライズされる(例えば、調整される)、パーソナライズされた(すなわち、話者導出可能な)帯域幅拡張が提供される。トレーニングフェーズは、ユーザにパーソナライズされた帯域幅拡張モデルを生成するように実行される。モデルは、ユーザを伴う通話中の帯域幅拡張フェーズで続いて使用され得る。パーソナライズされた帯域幅拡張モデルを使用する帯域幅拡張フェーズは、高帯域(例えば、広帯域)が利用不可能であり、呼が低帯域(例えば、狭帯域)で行なわれる場合にアクティベートされる。
【選択図】 図1
入力オーディオ情報に基づき符号化されたオーディオ情報を提供するためのオーディオエンコーダであって、可変時間分解能を使用して帯域幅拡張情報を提供するよう構成される帯域幅拡張情報提供部と、摩擦音または破擦音のオンセットを検知するよう構成される検知部とを含む。オーディオエンコーダは、少なくとも摩擦音または破擦音のオンセットが検知される時点より前の予め定められた期間、および摩擦音または破擦音のオンセットが検知される時点に続く予め定められた期間に、帯域幅拡張情報が増大した時間分解能で提供されるよう、帯域幅拡張情報提供部により使用される時間分解能を調節するよう構成される。代替的にまたは付加的には、帯域幅拡張情報は、摩擦音または破擦音のオフセットの検知に応じて、帯域幅拡張情報が増大させた時間分解能で提供される。オーディオエンコーダおよび方法は、対応するコンセプトを利用する。
【選択図】図1
入力されたオーディオ情報に基づいて符号化されたオーディオ情報を生成するためのオーディオエンコーダは、低周波数部分の符号化表現を得るために、入力されたオーディオ情報の低周波数部分を符号化するように構成された低周波数エンコーダと、入力されたオーディオ情報に基づいて帯域幅拡張情報を生成するように構成された帯域幅拡張情報プロバイダとを備えている。このオーディオエンコーダは、帯域幅拡張情報を、選択的に、符号化されたオーディオ情報へ信号に適応して包含するように構成されている。オーディオデコーダは、低周波数部分の復号表現を得るように低周波数部分の符号化表現を復号するように構成された低周波数デコーダと、オーディオコンテンツの部分のうち帯域幅拡張パラメータが符号化されたオーディオ情報に包含されていない部分に関してはブラインド帯域幅拡張を用いて帯域幅拡張信号を得るように、かつオーディオコンテンツの部分のうち帯域幅拡張パラメータが前記符号化されたオーディオ情報に包含されている部分に関してはパラメータ誘導の帯域幅拡張を用いて帯域幅拡張信号を得るように構成された帯域幅拡張とを備えている。
【選択図】図1
To top