音声アクティブ化を制御するための方法および装置

 

モバイルデバイスにおけるターゲットキーワードによって音声アクティブ化変化を制御するための方法が開示される。この方法は、入力サウンドストリームを受信することを含む。入力サウンドストリームがスピーチを示すとき、音声アクティブ化ユニットは、ターゲットキーワードを検出するためにアクティブ化され、少なくとも1つのサウンド特徴が、入力サウンドストリームから抽出される。さらに、この方法は、少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、音声アクティブ化ユニットを非アクティブ化することを含む。

 

 

優先権の主張
[0001]本願は、その内容全体が参照により本明細書に明確に組み込まれる、共通して所有される2013年5月7日に出願された米国仮特許出願第61/820,526号、2013年8月9日に出願された米国仮特許出願第61/864,490号、および2013年11月27日に出願された米国非仮特許出願第14/092,527号からの優先権を主張する。
[0002]本開示は、一般に音声アクティブ化に関し、より詳細には、モバイルデバイスにおける音声アクティブ化を制御することに関する。
[0003]近年、スマートフォン、携帯情報端末(PDA)、タブレットコンピュータ、およびラップトップコンピュータなどのモバイルデバイスの使用は、広く普及した。これらのデバイスは、ユーザがインターネットのブラウジング、写真またはビデオの撮影、電話またはビデオコールを行うなどの様々な機能を実行することを可能にする。加えて、このようなデバイスは、しばしばアプリケーションに様々な機能を提供する。
[0004]さらに、多くのこのようなモバイルデバイスは、オーディオ信号をキャプチャするために使用される1つまたは複数のマイクロフォンを含みうる。これらのデバイスのいくつかは、オーディオ信号が音声アクティブ化のためにキャプチャされおよび処理されることを可能にしうる。このような音声アクティブ化機能(feature)を使用して、アプリケーションは、モバイルデバイスに音声キーワードを入力することによってアクティブ化されうる。
[0005]このような音声アクティブ化機能を最大限に生かすために、モバイルデバイスは、典型的に、潜在的なキーワードに関して周囲のサウンド(environmental sounds)を連続的にモニタおよび処理するように構成される必要がある。しかしながら、音声アクティブ化機能の連続した動作は、モバイルデバイスの制限された電力リソースを消耗しうる。
[0006]本開示は、モバイルデバイスにおける音声アクティブ化を制御するための方法、システムおよびデバイスを提供する。これらの方法、システムおよびデバイスでは、入力サウンドストリームを受信すると、この入力サウンドストリームがスピーチを示すとき、音声アクティブ化ユニットがターゲットキーワードを検出するためにアクティブ化されうる。さらに、少なくとも1つのサウンド特徴(feature)が入力サウンドストリームから抽出されることができ、音声アクティブ化ユニットは、この少なくとも1つのサウンド特徴が非ターゲットキーワードを示すときに非アクティブ化されることができる。
[0007]本開示の一態様によると、モバイルデバイスにおけるターゲットキーワードによって音声アクティブ化を制御するための方法が開示される。この方法では、入力サウンドストリームが受信され、この入力サウンドストリームがスピーチを示すとき、音声アクティブ化ユニットがターゲットキーワードを検出するためにアクティブ化される。少なくとも1つのサウンド特徴が入力サウンドストリームから抽出され、音声アクティブ化ユニットは、この少なくとも1つのサウンド特徴が非ターゲットキーワードを示すときに非アクティブ化される。この開示はまた、この方法に関連するデバイス、システム、手段の組み合わせ、およびコンピュータ可読媒体を説明する。
[0008]本開示の別の態様によると、ターゲットキーワードによって音声アクティブ化を制御するためのモバイルデバイスが開示される。このモバイルデバイスは、受信機、スピーチ検出器、音声アクティブ化ユニット、および音声アクティブ化制御ユニットを含む。受信機は、入力サウンドストリームを受信するように構成される。さらに、スピーチ検出器は、入力サウンドストリームがスピーチを示すとき、ターゲットキーワードを検出するために音声アクティブ化ユニットをアクティブ化するように構成される。音声アクティブ化ユニットは、入力サウンドストリームから少なくとも1つのサウンド特徴を抽出するように構成され、音声アクティブ化制御ユニットは、この少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、音声アクティブ化ユニットを非アクティブ化するように構成される。
図1は、本開示の一実施形態による、入力サウンドをキャプチャし、ターゲットキーワードが入力サウンドにおいて検出されたときに、音声アクティブ化された機能を実行するように構成されたモバイルデバイスを例示する。 図2は、本開示の一実施形態による、ミーティング中の会話がターゲットキーワードを含まないときに、ユーザのモバイルデバイスが音声アクティブ化ユニットを非アクティブ化するように構成される、ミーティングにおけるユーザを例示する。 図3は、本開示の一実施形態による、モバイルデバイスにおける機能をアクティブ化するための入力サウンドストリームにおけるターゲットキーワードを検出するように構成されたモバイルデバイスのブロック図を例示する。 図4Aは、本開示の一実施形態による、サウンドセンサからの入力サウンドストリームおよびアクティブ化信号を受信し、音声支援ユニットをアクティブ化するためのアクティブ化信号を生成するように構成されたDSPのブロック図を例示する。 図4Bは、本開示の別の実施形態による、サウンドセンサからの入力サウンドストリームおよびアクティブ化信号を受信し、音声支援ユニットをアクティブ化するためのアクティブ化信号を生成するように構成されたDSPのブロック図を例示する。 図5は、本開示の一実施形態による、入力サウンドストリームを受信し、この入力サウンドストリームにおけるターゲットキーワードを検出するように構成された音声アクティブ化ユニットのより詳細なブロック図を例示する。 図6は、本開示の一実施形態による、入力サウンドストリームについての複数の信頼性スコア(confidence score)、複数の現在の非キーワードスコア、複数の現在のキーワードスコア、および複数の総平均非キーワードスコアの例示的なグラフを例示する。 図7は、本開示の一実施形態による、音声アクティブ化ユニットによって計算されたキーワードスコアおよび非キーワードスコアに基づいて、モバイルデバイスの音声アクティブ化ユニットを非アクティブ化するための方法のフローチャートを例示する。 図8は、本開示の一実施形態による、受信されている入力サウンドストリームを受信および処理することを終了するために、音声アクティブ化制御ユニットによって音声アクティブ化ユニットを非アクティブ化するための方法のフローチャートを例示する。 図9は、本開示の一実施形態による、受信されている入力サウンドストリームを受信および処理することを終了するために音声アクティブ化ユニットを非アクティブ化した後に、音声アクティブ化ユニットを再アクティブ化するための方法のフローチャートを例示する。 図10は、本開示の一実施形態による、非アクティブ化の数が所定の値に等しいときに、音声アクティブ化ユニットを再アクティブ化するために、入力サウンドストリームのステータス変化を検出するための方法の詳細なフローチャートを例示する。 図11は、本開示の別の実施形態による、非アクティブ化の数が所定の値に等しいときに、音声アクティブ化ユニットを再アクティブ化するために、入力サウンドのステータス変化を検出するための方法の詳細なフローチャートを例示する。 図12Aは、本開示の一実施形態による、平均非キーワードスコアしきい値を決定する際に使用するためのシミュレーションからの複数の線を示すグラフを例示する。 図12Bは、本開示の別の実施形態による、平均非キーワードスコアしきい値を決定する際に使用するためのシミュレーションからの複数の線を示すグラフを例示する。 図13は、本開示の一実施形態による、無線通信能力を有する例示的なモバイルデバイスのブロック図である。
[0024]ここで様々な実施形態が詳細に参照され、その例が添付の図面において例示される。以下の詳細な説明では、多数の特定の詳細が、本主題事項の完全な理解を提供するために記載される。しかしながら、本主題事項がこれらの特定の詳細なしで実現されうることは、当業者にとって明らかであろう。他の事例では、周知の方法、プロシージャ、システム、およびコンポーネントは、様々な実施形態の態様を不必要に曖昧にしないように、詳細には説明されていない。
[0025]図1は、本開示のいくつかの実施形態による、入力サウンドストリームをキャプチャし、ターゲットキーワードが入力サウンドストリームにおいて検出されたときに、音声アクティブ化された機能を実行するように構成されたモバイルデバイス110を例示する。例示される実施形態では、ユーザ120は、ベッド130に横たわりながらターゲットキーワードを発話(speak)することができ、モバイルデバイス110は、発話されたサウンドを受信する。発話されたサウンドに応答して、モバイルデバイス110は、受信された入力サウンドストリームにおけるターゲットキーワードを検出するために音声アクティブ化ユニットをアクティブ化する。音声アクティブ化ユニットは、入力サウンドストリームから少なくとも1つのサウンド特徴を抽出する。少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、モバイルデバイス110は、音声アクティブ化ユニットを非アクティブ化する。
[0026]モバイルデバイス110は、例えば、音声アクティブ化される機能をアクティブ化するためのターゲットキーワードを検出することを可能にするマイクロフォンのような、サウンドキャプチャ能力を装備したセルラ電話、スマートフォン、ラップトップコンピュータまたはタブレットコンピュータなどの任意の適切なデバイスでありうる。例えば、眠りに入る前に、ユーザ120は、モバイルデバイス110における目覚まし時計を口頭で設定しうる。このケースでは、ユーザ120は、モバイルデバイス110にターゲットキーワード「目覚まし時計を設定」を発話することができ、これは目覚まし時計アプリケーションをアクティブ化する。その後、モバイルデバイス110は、サウンドを受信し、受信されたサウンド(すなわち、入力サウンドストリーム)が所定のしきい値サウンド強度を越えるどうかを決定する。さらに、モバイルデバイス110は、受信されたサウンドが所定のしきい値サウンド強度を越えるとき、サウンド分類方法(例えば、サポートベクトルマシン(Support Vector Machine)技法)を使用することによって、受信されたサウンドがスピーチであるかどうかを決定する。
[0027]モバイルデバイス110が、受信されたサウンドが所定のしきい値サウンド強度を越えるスピーチであることを決定した場合、モバイルデバイス110は、受信された音声サウンドが、モバイルデバイス110のキーワードデータベースに予め記憶されることができるターゲットキーワードを含むかどうかを決定するために、音声アクティブ化ユニットをアクティブ化する。受信されたサウンドがターゲットキーワードを含むことを決定すると、モバイルデバイス110は、ターゲットキーワードに関連付けられるアラームアプリケーションをアクティブ化し、ユーザ120が所望の時間にアラーム時計を設定することを可能にする。ここで使用される場合、「サウンドストリーム」という用語は、1つまたは複数のサウンド信号またはサウンドデータのシーケンスを指す。さらに、「キーワード」という用語は、モバイルデバイスにおけるアプリケーションまたは機能をアクティブ化するために使用されうる1つまたは複数の単語またはサウンドの任意のデジタルまたはアナログ表現を称し、人間のスピーチまたは会話の発話形式または録音形式における任意の数の単語を含みうる。ここで使用される場合、「音声アクティブ化」という用語は、キャプチャされたサウンドにおける所定のターゲットキーワードを検出することによって、モバイルデバイスの少なくとも1つの機能またはアプリケーションをアクティブ化することを意味する。
[0028]音声アクティブ化を可能にするために、モバイルデバイス110は、モバイルデバイス110がキャプチャされたサウンドからターゲットキーワードを検出するまで、キャプチャされたサウンドがターゲットキーワードを含むかどうかを決定するために入力サウンドストリームを連続的にモニタするように構成されうる。このような方法でモバイルデバイス110を動作することは、典型的に、電力の使用の増大をもたらし、それによって、バッテリ寿命を短くする。したがって、以下のいくつかの実施形態に説明されるように、電力を節約するために、モバイルデバイス110の電力消費は、音声アクティブ化を制御することによって低減されうる。
[0029]図1では、一旦モバイルデバイス110の音声アクティブ化ユニットがアクティブ化されると、それは、音声アクティブ化ユニットがターゲットキーワードを検出するまで、アクティブモードで動作し続けうる。このケースでは、ユーザ120は眠っているので、モバイルデバイス110への入力サウンドストリームは、ユーザ120のターゲットキーワードを含むいずれのスピーチも有さないであろう。したがって、モバイルデバイス110は、以下により詳細に説明されるように、モバイルデバイス110の音声アクティブ化ユニットを自動的に非アクティブ化するように構成される。入力サウンドストリームをモニタし、必要に応じて音声アクティブ化ユニットを自動的に非アクティブ化することによって、モバイルデバイス110は、電力を節約して、バッテリ寿命を改善しうる。非アクティブ化された音声アクティブ化ユニットは、モバイルデバイス110が、後続する受信されたサウンドがスピーチであることを決定したときに、再アクティブ化されうる。
[0030]上記に説明されたように、モバイルデバイス110の音声アクティブ化ユニットは、モバイルデバイス110が、受信されたサウンドが所定のしきい値サウンド強度を越えるスピーチであることを決定したときに、アクティブ化されうる。いくつかのケースでは、モバイルデバイス110の音声アクティブ化ユニットは、いかなるスピーチ入力もなしに、ノイズまたは誤動作によりアクティブ化されうる。このようなイベントでは、モバイルデバイス110は、アクティブ化を検出し、電力消費を低減させるために音声アクティブ化ユニットを非アクティブ化するように構成される。例えば、モバイルデバイス110の音声アクティブ化ユニットが、図1に例示されるように、ユーザ120が眠っている間にノイズまたは誤動作により偶然にアクティブ化された場合、モバイルデバイス110は、後続する受信されたサウンドに基づいて音声アクティブ化ユニットを非アクティブ化しうる。ここで使用される場合、「アクティブ化」という用語は、デバイスまたはユニットが1つまたは複数の関連する機能を実行することを可能にするために、オフ状態または非アクティブ状態(例えば、アイドル状態)から、デバイスまたはユニットを使用可能にするまたはオンにすることを指す。さらに、「非アクティブ化」という用語は、アクティブ状態(例えば、「オン」状態)から、デバイスまたはユニットを使用不可にするまたはオフにすることを指す。「再アクティブ化」という用語は、デバイスまたはユニットが非アクティブ化された後に、デバイスまたはユニットを使用可能にするまたはオンにすることを指す。
[0031]図2は、本開示の一実施形態による、ミーティング中の会話がターゲットキーワードを含まないときに、ユーザ220のモバイルデバイス210が音声アクティブ化ユニットを非アクティブ化するように構成される、ミーティングにおけるユーザ220を例示する。例示されるシナリオでは、モバイルデバイス210は、入力サウンドストリームをキャプチャし、ターゲットキーワードが入力サウンドストリームにおいて検出されたときに、音声アクティブ化された機能を実行するように構成される。一実施形態では、モバイルデバイス210は、マイクロフォンのようなサウンドセンサを通じて入力サウンドストリームを受信し、受信されたサウンドがスピーチであるかどうかを決定するように構成される。モバイルデバイス210が、受信されたサウンドがスピーチであることを決定した場合、モバイルデバイス210は、受信された入力サウンドストリームにおけるターゲットキーワードを検出するために、音声アクティブ化ユニットをアクティブ化する。
[0032]図2のミーティングのシナリオでは、モバイルデバイス210は、ミーティングの会話サウンドを受信し、会話がスピーチであることを決定しうる。検出されたスピーチに基づいて、その後、モバイルデバイス210の音声アクティブ化ユニットは、受信されたサウンドが所定のターゲットキーワードを含むかどうかを決定するためにアクティブ化される。受信された会話サウンドが所定の時間期間の間ターゲットキーワードを含まない場合、後続する会話サウンドがターゲットキーワードを含むであろう確率(probability)は、非常に低いことが仮定されうる。したがって、モバイルデバイス210が、受信されたサウンドが所定の時間期間の間ターゲットキーワードを含まないことを決定したとき、それは、同様のコンテキストを有する後続するサウンドを含む会話サウンドの処理を終了するために、音声アクティブ化ユニットを非アクティブ化しうる。
[0033]ミーティングが終わり、会話サウンドが受信されなくなった場合、モバイルデバイス210は、ターゲットキーワードを検出するために音声アクティブ化ユニットを再アクティブ化しうる。例えば、モバイルデバイス210は、受信されている入力サウンドストリームをモニタすることによって、会話が終了したときを検出しうる。一実施形態では、モバイルデバイス210は、後続する会話サウンドが検出され、前に受信された会話サウンドと、後続する会話サウンドとの間に所定の持続時間の無音が存在するときに、音声アクティブ化ユニットを再アクティブ化しうる。ここで使用される場合、「無音(silence)」という用語は、所定のしきい値サウンド強度未満(below)のサウンドが受信される状態を意味する。別の実施形態では、モバイルデバイス210は、後続するサウンドがスピーチであることが検出され、コンテキストの変化が前のサウンドと後続するサウンドとの間で検出されたときに、音声アクティブ化ユニットを再アクティブ化しうる。
[0034]図3は、本開示の一実施形態による、モバイルデバイス310における機能をアクティブ化するための入力サウンドストリームにおけるターゲットキーワードを検出するように構成されたモバイルデバイス310のブロック図を図示する。モバイルデバイス310は、サウンドセンサ312、入力/出力(I/O)ユニット316.記憶ユニット318、通信ユニット320、およびプロセッサ340を含む。モバイルデバイス110および210と同様に、モバイルデバイス310は、セルラ電話、スマートフォン、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートテレビジョン、ゲームデバイス、マルチメディアプレーヤなどのような、サウンドキャプチャおよび処理能力を装備した任意の適切なデバイスでありうる。
[0035]プロセッサ340は、デジタルシグナルプロセッサ(DSP)330および音声支援ユニット328を含み、モバイルデバイス310を管理および動作するための中央処理ユニット(CPU)またはアプリケーションプロセッサでありうる。DSP 330は、スピーチ検出器322、音声アクティブ化ユニット324、および音声アクティブ化制御ユニット326を含む。一実施形態では、DSP 330は、サウンドストリームの処理において電力消費を低減させるための低電力プロセッサである。この構成では、DSP 330における音声アクティブ化ユニット324は、ターゲットキーワードが入力サウンドストリームにおいて検出されたときに、音声支援ユニット328をアクティブ化するように構成される。音声アクティブ化ユニット324は、例示される実施形態において音声支援ユニット328をアクティブ化するように構成されるが、それはまた、ターゲットキーワードに関連付けられうる任意の機能またはアプリケーションをアクティブ化しうる。
[0036]サウンドセンサ312は、入力サウンドストリームを受信し、それをDSP 330におけるスピーチ検出器322に提供するように構成されうる。サウンドセンサ312は、モバイルデバイス310へのサウンド入力ストリームを受信、キャプチャ、感知、および/または検出するために使用されうる1つまたは複数のマイクロフォンまたはその他任意のタイプのサウンドセンサを含みうる。加えて、サウンドセンサ312は、このような機能を実行するための任意の適切なソフトウェアおよび/またはハードウェアを用いうる。
[0037]一実施形態では、サウンドセンサ312は、デューティサイクルに従って周期的に入力サウンドストリームを受信するように構成されうる。サウンドセンサ312は、入力サウンドストリームの受信された部分が所定のしきい値サウンド強度を超えるかどうかを決定するためのサウンド検出器314をさらに含みうる。入力サウンドストリームの受信された部分がしきい値サウンド強度を超えるとき、サウンドセンサ312のサウンド検出器314は、スピーチ検出器322をアクティブ化し、受信された部分をDSP 330におけるスピーチ検出器322に提供する。代替として、受信された部分がしきい値サウンド強度を超えるかどうかを決定することなく、サウンドセンサ312は、周期的に入力サウンドストリームの一部を受信し、受信された部分をスピーチ検出器322に提供するために、スピーチ検出器322をアクティブ化しうる。サウンド検出器314は、サウンドセンサ312の外部に独立して存在しうるか、またはスピーチ検出器322のような他のユニット中に含まれうることが理解されうる。
[0038]ターゲットキーワードの検出に使用するために、記憶ユニット318は、ターゲットキーワードと、ターゲットキーワードの複数の部分に関連付けられる情報とを記憶する。一実施形態では、ターゲットキーワードは、単音(phones)、音素(phonemes)、またはこれらの副単位のような、複数の基本サウンド単位に分割されることができ、ターゲットキーワードを表わす複数の部分は、基本サウンド単位に基づいて生成されることができる。いくつかの実施形態では、ターゲットキーワードの検出は、隠れマルコフモデル(HMM:hidden Markov model)、セミマルコフモデル(SMM:semi-Markov model)、またはこれらの組み合わせのようなマルコフチェインモデルを含む時系列パターン認識方法を使用して実行されうる。このようなケースでは、その後、ターゲットキーワードの各部分は、HMMまたはSMM下の状態(a state under HMM or SMM)に関連付けられうる。状態情報は、ターゲットキーワードに関する複数の状態の中でエントリ状態(entry state)と、これら状態の各々からそれ自体を含む次の状態への遷移情報とを含みうる。記憶ユニット318は、RAM(ランダムアクセスメモリ)、ROM(読取専用メモリ)、EEPROM(登録商標)(電気的消去可能プログラマブル読取専用メモリ)、フラッシュメモリ、ソリッドステートドライブ(SSD)、または同様のもののような、任意の適切な記憶またはメモリデバイスを使用してインプリメントされうる。
[0039]DSP 330におけるスピーチ検出器322は、アクティブ化されると、サウンドセンサ312から入力サウンドストリームの部分を受信する。一実施形態では、スピーチ検出器322は、受信された部分から複数のサウンド特徴を抽出し、ガウス混合モデル(GMM)ベースの分類器(classifier)、HMM、ニューラルネットワーク、グラフィカルモデル、およびサポートベクトルマシン(SVMのような任意の適切なサウンド分類方法を使用することによって、抽出されたサウンド特徴がスピーチのような対象のサウンド(sound of interest)を示すかどうかを決定する。ここで使用される場合、「サウンド特徴」という用語は、指定された持続時間のサウンドを記述するまたは表わす任意の情報またはデータを指し、サウンドから抽出された周波数またはパワー成分、サウンドの分類を表わすサウンドクラス識別子、および/またはサウンドから抽出されたその他任意の情報またはデータを含みうる。
[0040]受信された部分が対象のサウンドであると決定された場合、スピーチ検出器322は、音声アクティブ化ユニット324をアクティブ化し、入力サウンドストリームの受信された部分および残りの部分が、音声アクティブ化ユニット324に提供される。いくつかの他の実施形態では、スピーチ検出器322は、DSP 330において省略されうる。このケースでは、受信された部分がしきい値サウンド強度を超えるとき、サウンドセンサ312は、音声アクティブ化ユニット324をアクティブ化し、入力サウンドストリームの受信された部分および残りの部分を直接音声アクティブ化ユニット324に提供する。
[0041]音声アクティブ化ユニット324は、アクティブ化されると、入力サウンドストリームを連続的に受信し、入力サウンドストリームからターゲットキーワードを検出するように構成される。入力サウンドストリームが受信されるにつれて、音声アクティブ化ユニット324は、入力サウンドストリームから複数のサウンド特徴を順次に抽出しうる。ターゲットキーワードの検出のためにHMMを使用するケースでは、音声アクティブ化ユニット324は、記憶ユニット318からターゲットキーワードに関する遷移情報、エントリ状態、および複数の状態を含む状態情報を取得しうる。サウンド特徴ごとに、観測スコア(observation score)が、GMM、ニューラルネットワーク、およびSVMのような任意の適切な確率モデルを使用することによって、これら状態の各々について決定されうる。遷移情報から、音声アクティブ化ユニット324は、これら状態の各々から、ターゲットキーワードに関して可能性のある複数の状態シーケンスにおける次の状態への遷移スコアを取得しうる。
[0042]観測スコアを決定し、遷移スコアを取得した後、音声アクティブ化ユニット324は、可能な状態シーケンスについてのキーワードスコアを決定する。一実施形態では、決定されたキーワードスコアの中で最大のキーワードスコアが所定のスコアしきい値を超える場合、音声アクティブ化ユニット324は、ターゲットキーワードとして入力サウンドストリームを検出する。ターゲットキーワードを検出すると、音声アクティブ化ユニット324は、音声支援ユニット328をアクティブ化するためにアクティブ化信号を生成および送信し、これは、ターゲットキーワードに関連付けられる。
[0043]音声支援ユニット328は、音声アクティブ化ユニット324からのアクティブ化信号に応答してアクティブ化される。一旦アクティブ化されると、音声支援ユニット328は、I/Oユニット316のスピーカユニットを通じておよび/またはタッチディスプレイユニット上に「ご用件は何でしょうか?(MAY I HELP YOU?)」などのメッセージを出力することによって、音声支援機能を実行しうる。これに応答して、ユーザは、モバイルデバイス310の様々な関連する機能をアクティブ化するために音声コマンドを発話しうる。例えば、インターネット検索のための音声コマンドが受信されたとき、音声支援ユニット328は、検索コマンドとして音声コマンドを認識し、ネットワーク350を通じて通信ユニット320を介してウェブ検索を実行しうる。
[0044]一旦音声アクティブ化ユニット324がアクティブ化されると、DSP 330における音声アクティブ化制御ユニット326は、後続して受信された入力サウンドストリームが非ターゲットキーワードを示すかどうかを決定する。ここで使用される場合、「非ターゲットキーワード」という用語は、ターゲットキーワード以外のすべてのサウンドを指し、無音、ノイズ、およびターゲットキーワードでない任意の単語またはサウンドを含みうる。ターゲットキーワードが入力サウンドストリームに含まれていないことが決定されたとき、音声アクティブ化制御ユニット326は、音声アクティブ化ユニット324を非アクティブ化しうる。これは、音声アクティブ化ユニット324が入力サウンドストリームを連続的に処理することを阻止し、それによって、モバイルデバイス310の電力消費を低減させる。
[0045]図4Aは、本開示の一実施形態による、サウンドセンサ312からの入力サウンドストリームおよびアクティブ化信号を受信し、音声支援ユニット328をアクティブ化するためのアクティブ化信号を生成するように構成されたDSP 330のブロック図を例示する。図3に関して上記に説明されたように、サウンドセンサ312は、入力サウンドストリームを受信し、この入力サウンドストリームが所定のしきい値サウンド強度を超えるサウンドであると決定されたときに、DSP 330におけるスピーチ検出器322にアクティブ化信号(「オン」)を出力する。アクティブ化信号とともに、サウンドセンサ312はまた、受信された入力サウンドストリームをスピーチ検出器322に提供しうる。
[0046]サウンドセンサ312からのアクティブ化信号は、入力サウンドストリームを受信および処理するためにスピーチ検出器322をアクティブ化する。一実施形態では、スピーチ検出器322は、受信された入力サウンドストリームがスピーチであるかどうかを決定する。受信された入力サウンドストリームがスピーチであると決定された場合、スピーチ検出器322は、アクティブ化信号(「オン」)を生成し、これは、入力サウンドストリームとともに音声アクティブ化ユニット324に提供される。
[0047]スピーチ検出器322からのアクティブ化信号に応答して、音声アクティブ化ユニット324は、スピーチ検出器322からの入力サウンドストリームを受信および処理するためにオンにされる。音声アクティブ化ユニット324は、入力サウンドストリームを複数のフレームにセグメント化し、セグメント化されたフレームの各々からサウンド特徴を抽出しうる。特定の実施形態では、音声アクティブ化ユニット324は、抽出されたサウンド特徴の非ターゲットキーワードステータスに対応する第1のメトリック(metric)を決定しうる。例えば、音声アクティブ化ユニット324は、抽出されたサウンド特徴が非ターゲットキーワードに関連付けられる可能性(likelihood)に対応するメトリックを決定しうる。音声アクティブ化ユニット324は、第1のメトリックを入力サウンドストリームに基づく第2のメトリックと比較しうる。例えば、第2のメトリックは、(例えば、抽出されたサウンド特徴がターゲットキーワードに関連付けられる可能性のような)抽出されたサウンド特徴のターゲットキーワードステータスに対応することができ、または、第2のメトリックは、特定の時間期間の間の平均非ターゲットキーワードステータスに対応することができる。音声アクティブ化ユニット324は、比較の結果に基づいて、抽出されたサウンド特徴が非ターゲットキーワードを示すかどうかを決定しうる。例えば、音声アクティブ化ユニット324は、第1のメトリックが第2のメトリックよりも大きい場合、抽出されたサウンド特徴が非ターゲットキーワードを示すことを決定しうる。
[0048]別の特定の実施形態では、抽出されたサウンド特徴に基づいて、音声アクティブ化ユニット324は、受信された入力サウンドストリームがターゲットキーワードを含む確率を示すキーワードスコアと、受信された入力サウンドストリームがターゲットキーワードを含まない確率を示す非キーワードスコアとを決定する。一実施形態では、キーワードスコアが所定のスコアしきい値を超える場合、音声アクティブ化ユニット324は、ターゲットキーワードとして入力サウンドストリームを検出する。ターゲットキーワードを検出すると、音声アクティブ化ユニット324は、音声支援ユニット328をアクティブ化するためにアクティブ化信号を生成および送信する。
[0049]一旦音声アクティブ化ユニット324がアクティブ化されると、それは、後続する入力サウンドストリームを処理することによって、アクティブ状態で動作し続ける。これは、特に、後続する入力サウンドストリームがターゲットキーワードを含まない場合に、不必要にモバイルデバイス310の電力リソースを消耗しうる。このようなケースでは、音声アクティブ化制御ユニット326が、音声アクティブ化ユニット324をオフにするために使用される。
[0050]一実施形態では、キーワードスコアおよび非キーワードスコアを決定した後、音声アクティブ化ユニット324は、音声アクティブ化制御ユニット326にキーワードスコアおよび非キーワードスコアを出力する。キーワードスコアおよび非キーワードスコアに基づいて、音声アクティブ化制御ユニット326は、入力サウンドストリームがターゲットキーワードを含まないかどうかを決定する。例えば、音声アクティブ化制御ユニット326は、キーワードスコアと非キーワードスコアとの間の差を示す信頼性スコアを決定し、信頼性スコアが信頼性スコアしきい値よりも小さい場合、入力サウンドストリームがターゲットキーワードを含まないことを検出しうる。音声アクティブ化制御ユニット326はまた、現在の非キーワードスコアおよび総非キーワード平均スコアを決定し、現在の非キーワードスコアが、総非キーワード平均スコアを平均非キーワードスコアしきい値よりも多く超える場合、入力サウンドストリームがターゲットキーワードを含まないことを検出しうる。音声アクティブ化制御ユニット326が、入力サウンドストリームがターゲットキーワードを含まないことを決定した場合、音声アクティブ化制御ユニット326は、音声アクティブ化ユニット324をオフにするために、非アクティブ化信号(「オフ」)を生成および送信する。上記に説明されたように、音声アクティブ化制御ユニット326は、音声アクティブ化ユニット324によって決定されたスコアに基づいて、音声アクティブ化ユニット324を制御する。したがって、音声アクティブ化制御ユニット326は、スコアを計算するために追加のコンピューティングリソースを使用する必要がなく、音声アクティブ化制御ユニット326は、効率的に音声アクティブ化ユニット324を制御しうる。
[0051]加えて、音声アクティブ化制御ユニット326は、後続する入力サウンドストリームがスピーチを示すとき、音声アクティブ化ユニット324をオンにするようにスピーチ検出器322を制御するための制御信号を送信する。制御信号に応答して、スピーチ検出器322は、音声アクティブ化ユニット324を非アクティブ化した後に受信された後続する入力サウンドストリームがスピーチであるかどうかを決定する。スピーチ検出器322が、後続する入力サウンドストリームがスピーチでないこと(例えば、無音)を決定した場合、スピーチ検出器322は、音声アクティブ化ユニット324をアクティブ化しない。したがって、音声アクティブ化ユニット324は、電力を消費することなく非アクティブ化されたままでありうる。他方では、スピーチ検出器322が、後続する入力サウンドストリームがスピーチであることを決定した場合、スピーチ検出器322は、後続する入力サウンドストリームにおけるターゲットキーワードを検出するために、音声アクティブ化ユニット324をアクティブ化しうる。
[0052]一実施形態では、アクティブ化の後に音声アクティブ化ユニット324によって受信および処理される入力サウンドストリームは、ターゲットキーワードを含まない連続的な会話(例えば、通常のスピーチ、日常会話など)でありうる。このケースでは、音声アクティブ化制御ユニット326は、上記説明されたように、キーワードスコアおよび非キーワードスコアに基づいて、音声アクティブ化ユニット324を非アクティブ化する。一旦音声アクティブ化ユニット324が非アクティブ化されると、サウンドセンサ312は、後続する入力サウンドストリームを受信しうる。後続する入力サウンドストリームがしきい値サウンド強度を超えるサウンドを示すとき、サウンドセンサ312のサウンド検出器314は、スピーチ検出器322にアクティブ化信号を送信し、それは、順に(in turn)、後続する入力サウンドストリームがスピーチを含む場合、音声アクティブ化ユニット324にアクティブ化信号を送信する。
[0053]音声アクティブ化ユニット324が再アクティブ化されたとき、音声アクティブ化ユニット324は、後続する入力サウンドストリームのサウンド特徴ごとにキーワードスコアおよび非キーワードスコアを計算しうる。その後、キーワードスコアおよび非キーワードスコアは、音声アクティブ化制御ユニット326に送信される。キーワードスコアおよび非キーワードスコアに基づいて、音声アクティブ化制御ユニット326は、後続する入力サウンドストリームがターゲットキーワードを含まないことを決定し、音声アクティブ化ユニット324に非アクティブ化信号を送信しうる。このように、音声アクティブ化ユニット324は、繰り返しアクティブ化および非アクティブ化されうる。
[0054]音声アクティブ化制御ユニット326が、入力サウンドストリームがターゲットキーワードを含まないことの決定を連続して行う回数が、所定のカウントを超える場合、現在受信されている入力サウンドストリームがターゲットキーワードを含む確率が低いことが仮定されうる。一実施形態によると、音声アクティブ化制御ユニット326は、生成されかつ音声アクティブ化ユニット324に送信された非アクティブ化信号の数に基づいて、入力サウンドストリームがターゲットキーワードを含まないという決定の数をカウントする。非アクティブ化の数が所定のカウント以上である場合、音声アクティブ化制御ユニット326は、後続する入力サウンドストリームがスピーチを示すときでさえも、音声アクティブ化ユニット324のアクティブ化を阻止するために、スピーチ検出器322に制御信号を送信しうる。したがって、音声アクティブ化制御ユニット326は、受信されている入力サウンドストリームの受信および処理を終了するために、音声アクティブ化ユニット324を非アクティブ化しうる。
[0055]音声アクティブ化ユニット324が、連続した非アクティブ化のカウントに基づいて非アクティブ化された後に、それは、後続するサウンドストリームを受信および処理するために再アクティブ化されうる。一実施形態では、スピーチ検出器322が、入力サウンドストリームにおける前の会話の処理を終了して、新しい会話を受信した場合、それは、新たに受信された会話がターゲットキーワードを含む可能性があるので、音声アクティブ化ユニット324を再アクティブ化しうる。例えば、スピーチ検出器322は、それが、前に受信された会話と後続する会話との間の所定の持続時間の無音を検出したときに、前の会話が終了したことを検出しうる。代替として、サウンドセンサ312におけるサウンド検出器314は、音声アクティブ化ユニット324のアクティブ化に使用するための無音の持続時間を検出するように構成されうる。
[0056]別の実施形態では、スピーチ検出器322は、音声アクティブ化ユニット324を、連続した非アクティブ化のカウントに基づいて非アクティブ化された後に、入力サウンドストリームのサウンドコンテキストにおける変化が検出されたときに、再アクティブ化しうる。コンテキストにおける変化は、1つのサウンド環境から別のものへの変化のような、サウンド環境における変化を指す。例えば、モバイルデバイス310が車から部屋に移動したとき、車および部屋から受信される環境サウンドは、典型的に、各環境に関するコンテキストを識別するために使用されうる異なるサウンド特性を示す。受信されたサウンドのコンテキスト情報は、任意の適切なコンテキスト決定方法を用いることによって決定されうる。例えば、入力サウンドのサウンド特徴は、特定のコンテキストからトレーニング(trained)されたデータベースにおけるサウンド特徴と比較およびマッチングされうる。その後、受信されたサウンドのコンテキスト情報は、データベースにおける最も良くマッチしたサウンド特徴に関連付けられるコンテキスト情報から決定されうる。音声アクティブ化ユニット324を再アクティブ化するために、スピーチ検出器322は、前の入力サウンドと後続する入力サウンドストリームとの間のサウンドコンテキストにおける変化を検出しうる。その他任意のユニット(例えば、音声アクティブ化制御ユニット326)が、スピーチ検出器322の代わりにサウンドコンテキストにおける変化を検出しうることが理解されうる。
[0057]図4Bは、本開示の別の実施形態による、サウンドセンサ312からの入力サウンドストリームおよびアクティブ化信号を受信し、音声支援ユニット328をアクティブ化するためのアクティブ化信号を生成するように構成されたDSP 330のブロック図を例示する。図4Aと同様に、サウンドセンサ312のサウンド検出器314からのアクティブ化信号は、入力サウンドストリームを受信および処理するためにスピーチ検出器322をアクティブ化する。受信された入力サウンドストリームがスピーチであると決定された場合、スピーチ検出器322は、アクティブ化信号(「オン」)を生成し、これは、入力サウンドストリームとともに音声アクティブ化ユニット324に提供される。スピーチ検出器322からのアクティブ化信号に応答して、音声アクティブ化ユニット324は、キーワードスコアおよび非キーワードスコアを生成する。音声アクティブ化ユニット324によって決定されたスコアに基づいて、音声アクティブ化制御ユニット326Bは、音声アクティブ化ユニット324を制御する。さらに、音声アクティブ化制御ユニット326Bは、生成されかつ音声アクティブ化ユニット324に送信された非アクティブ化信号の数に基づいて、入力サウンドストリームがターゲットキーワードを含まないという決定の数をカウントする。
[0058]この実施形態では、非アクティブ化の数が所定のカウント以上である場合、音声アクティブ化制御ユニット326Bは、サウンド検出器314を非アクティブ化するために、サウンドセンサ312のサウンド検出器314に制御信号を送信しうる。例えば、サウンド検出器314は、サウンド検出器314が音声アクティブ化制御ユニット326Bから制御信号を受信したとき、所定の時間期間(例えば、10秒)の間非アクティブ化されうる。代替の実施形態では、音声アクティブ化ユニット324が非アクティブ化された回数が所定のカウント以上である場合、サウンドセンサ312は、所定の時間期間の間、非アクティブ化されうる。
[0059]図5は、本開示の一実施形態による、入力サウンドストリームを受信し、この入力サウンドストリームにおけるターゲットキーワードを検出するように構成された音声アクティブ化ユニット324のより詳細なブロック図を例示する。音声アクティブ化ユニット324は、セグメント化ユニット510、特徴抽出器520、スコア決定ユニット530、およびキーワード検出ユニット540を含む。スコア決定ユニット530は、観測スコア決定ユニット550および最大キーワードスコア決定ユニット560を含む。
[0060]セグメント化ユニット510は、スピーチ検出器322から入力サウンドストリームを受信し、受信された入力サウンドストリームを、等しい時間期間の複数の順次フレームにセグメント化する。特徴抽出器520は、セグメント化ユニット510からセグメント化されたフレームを順次に受信し、これらフレームの各々のからサウンド特徴を抽出する。一実施形態では、特徴抽出器520は、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficient)方法のような任意の適切な特徴抽出方法を使用して、これらフレームからサウンド特徴を抽出しうる。例えば、MFCC方法のケースでは、n次元のベクトルにおけるMFCCが、セグメント化されたフレームの各々から計算され、このベクトルは、サウンド特徴として使用される。
[0061]スコア決定ユニット530において、観測スコア決定ユニット550は、サウンド特徴を順次に受信し、記憶ユニット318からターゲットキーワードに関する状態情報を受信する。一実施形態によると、ターゲットキーワードに関する状態情報は、ターゲットキーワードの複数の部分に関連付けられる複数の状態と、これら状態の各々のために提供されるGMMのような確率モデル(例えば、確率関数(probability function))とを含みうる。上記に説明されたように、ターゲットキーワードは、サウンドの複数の基本単位に分割されることができ、ターゲットキーワードを表わす複数の部分は、サウンドの基本単位に基づいて生成されることができる。いくつかの実施形態では、ターゲットキーワードに関する状態はまた、非キーワード状態(例えば、「フィラー(filler)」状態」を含むことができ、これは、ターゲットキーワードを表わすいずれの複数の部分にも関連付けられていない。例えば、その各々が単音のようなサウンドの基本単位に対応する所定の数の状態を含むターゲットキーワードのケースでは、非キーワード状態は、ターゲットキーワードに含まれるそれら以外のサウンドの基本単位を表わしうる。
[0062]各サウンド特徴が受信されるにつれて、観測スコア決定ユニット550は、サウンド特徴と、記憶ユニット318から受信される状態情報とに基づいて、ターゲットキーワードの状態ごとに観測スコアを決定する。一実施形態では、これら状態の各々についての観測スコアは、関連する状態のための確率モデルに従って確率値を計算することによって、受信されたサウンド特徴について決定される。これら確率値の各々は、関連する状態についての観測スコアとして使用されうる。状態についての高い観測スコアは、サウンド特徴が、この状態についてのサウンドの基本ユニットに対応する高い確率を示す。観測スコア決定ユニット550は、ターゲットキーワードに関して可能である、複数の状態シーケンスについてのキーワードスコアを決定するために、最大キーワードスコア決定ユニット560に、受信されたサウンド特徴の各々についての観測スコアを提供する。
[0063]最大キーワードスコア決定ユニット560は、これらサウンド特徴の各々についての観測スコアを受信し、記憶ユニット318から状態情報を取得する。状態情報は、ターゲットキーワードに関する複数の状態を含むことができ、非キーワード状態、これら状態の中のエントリ状態、およびこれら状態の各々からそれ自体を含む次の状態への遷移情報を含む。エントリ状態は、ターゲットキーワードに関して可能な状態シーケンスの各々において、非キーワード状態が遷移する第1の状態を表わしうる。
[0064]状態情報における遷移情報は、ターゲットキーワードに関する可能な状態シーケンスの各々における、これら状態の各々から次の状態への遷移スコアを含む。遷移スコアは、各可能な状態シーケンスにおける、これら状態の各々が次の状態へ遷移する確率値を表わしうる。遷移スコアはまた、非キーワード状態からエントリ状態への遷移スコアを含む。
[0065]受信された観測スコアおよび遷移スコアに基づいて、最大キーワードスコア決定ユニット560は、可能な状態シーケンスの各々についてのキーワードスコアを計算する。このケースでは、状態シーケンスは、非キーワード状態が、入力サウンドストリームが受信される前に割り当てられるので、非キーワード状態(すなわち、開始状態)から開始しうる。したがって、遷移スコアは、非キーワード状態からエントリ状態への遷移スコアを含み、そしてまた、非キーワード状態から状態シーケンスにおけるそれ自体への遷移スコアを含む。このように、サウンド特徴ごとの観測スコアのセットが観測スコア決定ユニット550から受信されるにつれて、最大キーワードスコア決定ユニット560は、各状態シーケンスに次の状態を追加し、更新された状態シーケンスの各々についてのキーワードスコアを決定する。その後、最大キーワードスコア決定ユニット560は、更新された状態シーケンスについてのキーワードスコアの中で最大のキーワードスコアを選択する。一実施形態では、キーワードスコアは、ビタビアルゴリズムのような任意の適切な方法を使用することによって、最大のキーワードスコアを決定するために計算されうる。最大のキーワードスコアを決定した後、最大キーワードスコア決定ユニット560は、それをキーワード検出ユニット540に提供する。
[0066]最大キーワードスコア決定ユニット560から最大のキーワードスコアを受信すると、キーワード検出ユニット540は、最大のキーワードスコアに基づいて、入力サウンドストリームにおけるターゲットキーワードを検出する。例えば、キーワード検出ユニット540は、記憶ユニット318からターゲットキーワードを検出するためのスコアしきい値を受信し、最大のキーワードスコアが受信されたスコアしきい値よりも大きい場合にターゲットキーワードを検出しうる。このケースでは、スコアしきい値は、所望の信頼性レベル内のターゲットキーワードを検出するための最小のキーワードスコアに設定されうる。
[0067]いくつかの実施形態では、最大キーワードスコア決定ユニット560は、非キーワード状態シーケンスについての非キーワードスコアを決定する。非キーワードスコアは、可能な状態シーケンスについて決定されたキーワードスコアの中から選択されて、キーワード検出ユニット540に提供されうる。一旦ターゲットキーワードが検出されると、キーワード検出ユニット540は、ターゲットキーワードに関連付けられる、音声支援ユニット328をオンにするためのアクティブ化信号を生成および提供する。
[0068]キーワードスコア(例えば、最大のキーワードスコア)または非キーワードスコアに基づいて、音声アクティブ化制御ユニット326は、入力サウンドストリームがターゲットキーワードを含まないかどうかを決定する。一実施形態では、音声アクティブ化制御ユニット326は、特に、入力サウンドストリームがキーワードスコアに影響を及ぼしうるノイズのような周囲のサウンドを含むとき、検出の精度を改善するために、キーワードスコアと非キーワードスコアの両方を使用しうる。この実施形態では、音声アクティブ化制御ユニット326は、キーワードスコアと非キーワードスコアとの間の差を示す信頼性スコアを決定しうる。信頼性スコアは、入力サウンドストリームからターゲットキーワードを検出する確率を示す。信頼性スコアが高い場合、これは、入力サウンドストリームからターゲットキーワードを検出する高い確率を示す。他方では、信頼性スコアが低い場合、これは、入力サウンドストリームからターゲットキーワードを検出する低い確率を示す。したがって、信頼性スコアが信頼性スコアしきい値よりも小さい場合、音声アクティブ化制御ユニット326は、入力サウンドストリームがターゲットキーワードを含まないことを決定する。
[0069]別の実施形態では、音声アクティブ化制御ユニット326は、入力サウンドストリームがターゲットキーワードを含まないことを決定する際に、時間期間にわたって入力サウンドストリームを分析しうる。例えば、ユーザがターゲットキーワード「ヘイ(hey)」を発話した場合、音声アクティブ化制御ユニット326は、単音「ヘ(he)」のみが受信されたときに、受信されたサウンドがターゲットキーワードではないと最初に決定しうる。その後、音声アクティブ化制御ユニット326が単音「イ(y)」を受信したとき、それは、受信されたサウンドがターゲットキーワードであることを決定しうる。したがって、入力サウンドストリームがターゲットキーワードを含まないかどうかを決定する際の精度を改善するために、音声アクティブ化制御ユニット326は、非キーワードスコアの平均値に基づいて、入力サウンドストリームがターゲットキーワードを含まないかどうかを決定する。
[0070]音声アクティブ化制御ユニット326は、現在の非キーワードスコアおよび総非キーワード平均スコアを決定することができ、一実施形態では、現在の非キーワードスコアと総非キーワード平均スコアとの間の差を決定する。現在の非キーワードスコアは、最も最近に(most recently)抽出されたサウンド特徴から計算された非キーワードスコアでありうる。別の実施形態では、現在の非キーワードスコアは、複数の最近に抽出されたサウンド特徴から計算された平均スコアでありうる。総非キーワード平均スコアは、指定された時間期間にわたるすべての抽出されたサウンド特徴から計算された平均スコアを示し、これは、周期的にリセットされうる。現在の非キーワードスコアと総非キーワード平均スコアとの間の差が平均非キーワードスコアしきい値よりも大きい場合には、音声アクティブ化制御ユニット326は、入力サウンドストリームがターゲットキーワードを含まないことを決定する。代替として、音声アクティブ化制御ユニット326は、信頼性スコアが信頼性スコアしきい値よりも小さいおよび現在の非キーワードスコアと総非キーワード平均スコアとの間の差が平均非キーワードスコアしきい値よりも大きい場合、入力サウンドストリームがターゲットキーワードを含まないことを決定しうる。
[0071]図6は、一実施形態による、入力サウンドストリーム600についての複数の信頼性スコア620、複数の現在の非キーワードスコア640、複数の現在のキーワードスコア650、および複数の総平均非キーワードスコア660の例示的なグラフ616および618を例示する。受信された入力サウンドストリーム600は、複数の部分602〜614を含む。示されるように、入力サウンドストリーム600は、2つの非キーワード部分602および606と、3つのキーワード部分604、610、および614と、2つの無音部分608および612とを含む。ここで使用される場合、「非キーワード」という用語は、ターゲットキーワード、無音、およびノイズ以外のすべてのサウンドを指す。
[0072]スコアグラフ616は、入力サウンドストリーム600についての信頼性スコア620とともに、(図6における太い直線によって示されるように)一定である信頼性スコアしきい値630を例示する。例示されるように、キーワード部分604、610、および614に対応する信頼性スコア620の一部は、信頼性スコアしきい値630を超えている。これらのケースでは、音声アクティブ化制御ユニット326は、入力サウンドストリーム600がターゲットキーワードを含まないことを決定しない。他の信頼性スコア620は、非キーワード部分602および606または無音部分608および612に対応し、信頼性スコアしきい値630を超えない。したがって、音声アクティブ化制御ユニット326は、これらのスコアに対応する入力サウンドストリーム600がターゲットキーワードを含まないことを決定しうる。
[0073]スコアグラフ618は、(黒い実線で示される)現在の非キーワードスコア640と、(点線で示される)現在のキーワードスコア650と、(黒い太い実線で示される)総平均非キーワードスコア660を例示する。円で囲まれている部分670で例示されるように、非キーワード部分602および606または無音部分612に対応する現在の非キーワードスコア640の一部は、総平均非キーワードスコア660を平均非キーワードスコアしきい値よりも多く超える。これらのケースでは、音声アクティブ化制御ユニット326は、これらのスコアに対応する入力サウンドストリーム600がターゲットキーワードを含まないことを決定しうる。
[0074]図7は、本開示の一実施形態による、音声アクティブ化ユニット324によって計算されたキーワードスコアおよび非キーワードスコアに基づいて、モバイルデバイス310の音声アクティブ化ユニット324を非アクティブ化するための方法700のフローチャートを例示する。モバイルデバイス310は、710においてサウンドセンサ312によって入力サウンドストリームを受信する。その後、サウンドセンサ312のサウンド検出器314およびスピーチ検出器322は、720において入力サウンドストリームがしきい値サウンド強度を超えるスピーチであるかどうかを決定する。入力サウンドストリームがしきい値サウンド強度を超えるスピーチである場合、スピーチ検出器322は、730において音声アクティブ化ユニット324をアクティブ化する。しかしながら、入力サウンドストリームがしきい値サウンド強度を超えるスピーチでない場合、サウンドセンサ312のサウンド検出器314およびスピーチ検出器322は、再び710において後続する入力サウンドストリームを受信する。
[0075]740において、音声アクティブ化ユニット324は、入力サウンドストリームを複数のサウンドフレームにセグメント化し、各サウンドフレームからサウンド特徴を抽出する。サウンド特徴を抽出した後、音声アクティブ化ユニット324は、サウンド特徴からキーワードスコアおよび非キーワードスコアを計算し、音声アクティブ化制御ユニット326にキーワードスコアおよび非キーワードスコアを送信する。音声アクティブ化ユニット324によって計算されたキーワードスコアおよび非キーワードスコアに基づいて、音声アクティブ化制御ユニット326は、750においてキーワードスコアおよび非キーワードスコアが非ターゲットキーワードを示すかどうかを決定する。音声アクティブ化制御ユニット326が、キーワードスコアおよび非キーワードスコアが非ターゲットキーワードを示すことを決定できない場合、音声アクティブ化ユニット324は、760において後続する入力サウンドストリームを受信する。その後、音声アクティブ化ユニット324が、750においてキーワードスコアおよび非キーワードスコアが非ターゲットキーワードを示すことを検出するまで、音声アクティブ化ユニット324は、740において後続する入力サウンドストリームについてのキーワードスコアおよび非キーワードスコアを計算しうる。音声アクティブ化制御ユニット326が、750においてキーワードスコアおよび非キーワードスコアが非ターゲットキーワードを示す(すなわち、入力サウンドストリームが非ターゲットキーワードを示す)ことを決定した場合、音声アクティブ化制御ユニット326は、770において音声アクティブ化ユニット324を非アクティブ化する。
[0076]図8は、本開示の一実施形態による、受信されている入力サウンドストリームを受信および処理することを終了するために、音声アクティブ化制御ユニット326によって音声アクティブ化ユニット324を非アクティブ化するための方法800のフローチャートを例示する。方法800の810〜840における動作は、方法700の740〜770におけるそれらと同じ方法で実行されることが理解されることができ、したがって、その説明は省略される。840において音声アクティブ化ユニット324を非アクティブ化した後、音声アクティブ化制御ユニット326は、850において非アクティブ化の数を増加させる。例えば、モバイルデバイス310は、カウント値を記憶するための記憶ユニット318を有しうる。カウント値の初期値は、「0」として設定されうる。音声アクティブ化制御ユニット326が音声アクティブ化ユニット324に非アクティブ化信号を送信し、音声アクティブ化ユニット324が非アクティブ化された場合、音声アクティブ化制御ユニット326は、カウント値に「1」を加算しうる。
[0077]860において、音声アクティブ化制御ユニット326は、非アクティブ化の数が所定の値以上であるかどうかを決定する。非アクティブ化の数が所定の値以上である場合、音声アクティブ化制御ユニット326は、870において、後続する入力サウンドストリームがスピーチを示すとき、音声アクティブ化ユニット324をオンにすることを阻止するようにスピーチ検出器322を制御するための制御信号を送信する。したがって、音声アクティブ化制御ユニット326は、受信されている入力サウンドストリームの受信および処理を終了するために、音声アクティブ化ユニット324を非アクティブ化しうる。スピーチ検出器322に制御信号を送信した後、音声アクティブ化制御ユニット326は、890において非アクティブ化の数をリセットする。しかしながら、非アクティブ化の数が所定の値未満である場合、音声アクティブ化制御ユニット326は、880において、後続する入力サウンドストリームがスピーチを示すとき、音声アクティブ化ユニット324をオンにするようにスピーチ検出器322を制御するための制御信号を送信する。したがって、音声アクティブ化ユニット324の非アクティブ化の後、スピーチ検出器322が後続する入力サウンドストリームからスピーチを検出した場合、スピーチ検出器322は、音声アクティブ化ユニット324をオンにしうる。
[0078]図9は、本開示の一実施形態による、受信されている入力サウンドストリームを受信および処理することを終了するために音声アクティブ化ユニット324を非アクティブ化した後に、音声アクティブ化ユニット324を再アクティブ化するための方法900のフローチャートを例示する。方法900の910〜970における動作は、方法700の710〜770におけるそれらと同じ方法で実行されることが理解されることができ、したがって、その説明は省略される。音声アクティブ化ユニット324が970において非アクティブ化された後、音声アクティブ化制御ユニット326は、980において非アクティブ化の数をカウントする。990において、音声アクティブ化制御ユニット326は、非アクティブ化の数が所定の値以上であるかどうかを決定する。非アクティブ化の数が所定の値未満である場合、スピーチ検出器322は、910において後続する入力サウンドストリームを受信する。しかしながら、非アクティブ化の数が所定の値以上である場合、スピーチ検出器322は、995において入力サウンドストリームと後続する入力サウンドストリームとの間のコンテキスト変化が検出されるかどうかを決定する。コンテキスト変化が検出された場合、スピーチ検出器322は、後続する入力サウンドストリームがスピーチを示すかどうかを決定するために、後続する入力サウンドストリームを処理する。
[0079]図10は、本開示の一実施形態による、非アクティブ化の数が所定の値以上であるときに、音声アクティブ化ユニット324を再アクティブ化するために、入力サウンドストリームのコンテキスト変化を検出するための方法1000の詳細なフローチャートを例示する。図9において上記に説明されたように、音声アクティブ化制御ユニット326は、990において非アクティブ化の数が所定の値以上であるかどうかを決定する。非アクティブ化の数が所定の値を超えない場合、スピーチ検出器322は、910において後続する入力サウンドストリームを受信する。しかしながら、非アクティブ化の数が所定の値以上である場合、スピーチ検出器322は、1010において後続する入力サウンドストリームを受信する。1020において、スピーチ検出器322は、前に受信された入力サウンドストリームと後続する入力サウンドストリームとの間の無音の持続時間を決定する。無音の持続時間が所定の時間期間よりも大きくない場合、スピーチ検出器322は、繰り返し後続する入力サウンドストリームを受信する。しかしながら、無音の持続時間が所定の時間期間よりも大きい(すなわち、入力サウンドのコンテキスト変化が検出された)場合、スピーチ検出器322は、920において、後続する入力サウンドストリームについて、受信された後続する入力サウンドがスピーチであるかどうかを決定する。
[0080]図11は、本開示の別の実施形態による、非アクティブ化の数が所定の値以上であるときに、音声アクティブ化ユニット324を再アクティブ化するために、入力サウンドのコンテキスト変化を検出するための方法1100の詳細なフローチャートを例示する。図9において上記に説明されたように、音声アクティブ化制御ユニット326は、990において非アクティブ化の数が所定の値以上であるかどうかを決定する。非アクティブ化の数が所定の値を超えない場合、スピーチ検出器322は、910において後続する入力サウンドストリームを受信する。しかしながら、非アクティブ化の数が所定の値以上である場合、スピーチ検出器322は、1110において後続する入力サウンドストリームを受信する。1120において、スピーチ検出器322は、キャプチャされた後続する入力するサウンドストリームのコンテキストにおける変化を検出する。コンテキストにおける変化が検出されなかった場合、スピーチ検出器322は、繰り返し後続する入力サウンドストリームを受信しうる。しかしながら、コンテキストにおける変化が検出された(すなわち、入力サウンドのコンテキスト変化が検出された)場合、スピーチ検出器322は、920において、後続する入力サウンドストリームについて、受信された後続する入力サウンドがスピーチであるかどうかを決定する。
[0081]図12Aは、本開示の一実施形態による、平均非キーワードスコアしきい値を決定する際に使用するためのシミュレーションからの複数の線1210a、1220a、および1230aを示すグラフ1200aを例示する。この実施形態では、シミュレーションは、ノイズなしの入力サウンドストリームを用いて実行される。グラフ1200aのx軸は、平均非キーワードスコアしきい値を表わし、一方、y軸は、平均非キーワードスコアしきい値の関数として(as a function)、線1210a、1220a、および1230aについての確率を表わす。線1210aは、入力サウンドストリームが実際にはターゲットキーワードを含むときに、音声アクティブ化制御ユニット326が、入力サウンドストリームがターゲットキーワードを含まないことを誤って決定する「フォールスアラーム(false alarm)」の確率を示す。
[0082]フォールスアラームは、ユーザによるターゲットキーワードの繰り返し入力を必要としうるので、望ましくない。したがって、フォールスアラームの確率をゼロ付近(near zero)になるように設定することが望ましくありうる。フォールスアラーム線1210aにおいて、フォールスアラームの確率は、平均非キーワードスコアしきい値が「2」よりも大きいときに、ゼロ付近に近づく。したがって、音声アクティブ化制御ユニット326における平均非キーワードスコアしきい値は、「2」以上の値に設定されうる。
[0083]線1220aは、入力サウンドストリームが実際にはターゲットキーワードを含まないときに、音声アクティブ化制御ユニット326が、入力サウンドストリームがターゲットキーワードを含むことを誤って決定する「ミス(miss)」の確率を示す。他方では、線1230aは、入力サウンドストリームがターゲットキーワードを含まないときに、音声アクティブ化制御ユニット326によって非キーワードを正しく検出する確率を示す。示されるように、「ミス」線1220aは、「ミス」の確率が、最初はゼロ付近でフラットであるが、平均非キーワードスコアしきい値が「2」の後に、著しく増大することを示す。これに対し、線1230aは、非キーワードを正しく検出する確率は、確率値「1」に近いが、平均非キーワードスコアが値「2」に達したとき、大幅に(substantially)低減し始めることを示す。線1210a、1220a、および1230aを考慮すると、平均非キーワードスコアしきい値は、最適なパフォーマンスのために、「2」と「3」の間に設定されうる。
[0084]図12Bは、本開示の別の実施形態による、平均非キーワードスコアしきい値を決定する際に使用するためのシミュレーションからの複数の線1210b、1220b、および1230bを示すグラフ1200bを例示する。この実施形態では、シミュレーションは、ノイズを有する入力サウンドストリームを用いて実行される。図12Aと同様に、線1210bは、入力サウンドストリームが実際にはターゲットキーワードを含むときに、音声アクティブ化制御ユニット326が、入力サウンドストリームがターゲットキーワードを含まないと誤って決定する「フォールスアラーム」の確率を示す。さらに、線1220bは、入力サウンドストリームが実際にはターゲットキーワードを含まないときに、音声アクティブ化制御ユニット326が、入力サウンドストリームがターゲットキーワードを含むことを誤って決定する「ミス」の確率を示す。他方では、線1230bは、入力サウンドストリームがターゲットキーワードを含まないときに、音声アクティブ化制御ユニット326によって非キーワードを正しく検出する確率を示す。示されるように、フォールスアラーム線1210bは、平均非キーワードスコアしきい値が「3」よりも大きいときに、ゼロ付近に近づく。加えて、「ミス」線1220bは、「ミス」の確率が、最初はゼロ付近でフラットであるが、平均非キーワードスコアしきい値が「2」の後に、著しく増大することを示す。これに対し、線1230bは、非キーワードを正しく検出する確率は、確率値「1」に近いが、平均非キーワードスコアが値「2」に達したとき、大幅に低減し始めることを示す。線1210b、1220b、および1230bを考慮すると、平均非キーワードスコアしきい値は、最適なパフォーマンスのために(すなわち、フォールスアラームの確率を低減させるために)、「3」と「4」の間に設定されうる。上記に説明されたように、平均非キーワードスコアしきい値は、モバイルデバイスのコンテキスト情報(例えば、ノイジー(noisy)コンテキスト)に基づいて調整されうる。
[0085]図13は、本開示の一実施形態による、無線通信能力を有する例示的なモバイルデバイス1300のブロック図である。モバイルデバイス1300は、セルラ電話、端末、ハンドセット、携帯情報端末(PDA)、無線モデム、コードレス電話などでありうる。無線通信システムは、符号分割多元接続(CDMA)システム、モバイル通信用グローバルシステム(GSM(登録商標))システム、広帯域CDMA(W−CDMA(登録商標))システム、ロングタームエボリューション(LTE)システム、LTEアドバンストシステムなどでありうる。
[0086]モバイルデバイス1300は、受信パスおよび送信パスを介して双方向通信を提供することが可能でありうる。受信パスでは、基地局によって送信された信号は、アンテナ1312によって受信され、受信機(RCVR)1314に提供される。受信機1314は、受信された信号を調整およびデジタル化し、更なる処理のために、調整およびデジタル化された信号をデジタルセクション1320に提供する。送信パスでは、送信機(TMTR)が、送信されるデータをデジタルセクション1320から受信し、このデータを処理および調整し、変調された信号を生成し、これは、基地局にアンテナ1312を介して送信される。受信機1314および送信機1316は、CDMA、GSM、W−CDMA、LTE、LTEアドバンストなどをサポートするトランシーバの一部である。
[0087]デジタルセクション1320は、例えば、モデムプロセッサ1322、縮小命令セットコンピュータ/デジタルシグナルプロセッサ(RISC/DSP)1324、コントローラ/プロセッサ1326、内部メモリ1328、 汎用オーディオエンコーダ1332、 汎用オーディオデコーダ1334、グラフィックス/ディスプレイプロセッサ1336、および/または外部バスインタフェース(EBI)1338などの様々な処理、インタフェース、およびメモリのユニットを含む。モデムプロセッサ1322は、例えば、エンコーディング、変調、復調、およびデコーディングなどの、データの送信および受信のための処理を実行する。RISC/DSP 1324は、無線デバイス1300のための汎用および専用の処理を実行する。コントローラ/プロセッサ1326は、デジタルセクション1320内の様々な処理およびインタフェースのユニットの動作を制御する。内部メモリ1328は、デジタルセクション1320内の様々なユニットのためのデータおよび/または命令を記憶する。
[0088]汎用オーディオエンコーダ1332は、オーディオソース1342、マイクロフォン1343などからの入力信号のためのエンコーディングを実行する。汎用オーディオデコーダ1334は、コード化されたオーディオデータのためのデコーディングを実行し、出力信号をスピーカ/ヘッドセット1344に提供する。汎用オーディオエンコーダ1332および汎用オーディオデコーダ1334は、オーディオソース、マイクロフォン1343、およびスピーカ/ヘッドセット1344とのインタフェースのために必ずしも必要ではなく、したがって、モバイルデバイス1300においては示されていないことに留意されたい。グラフィックス/ディスプレイプロセッサ1336は、グラフィックス、ビデオ、イメージ、およびテキストのための処理を実行し、これは、ディスプレイユニット1346に提示される。EBI 1338は、デジタルセクション1320とメインメモリ1348の間のデータ転送を容易にする。
[0089]デジタルセクション1320は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどでインプリメントされる。また、デジタルセクション1320は、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上に製造される。
[0090]一般に、ここに説明された任意のデバイスは、無線電話、セルラ電話、ラップトップコンピュータ、無線マルチメディアデバイス、無線通信パーソナルコンピュータ(PC)カード、PDA、外部または内部モデム、無線チャネルを通じて通信するデバイスなどのような、様々なタイプのデバイスを示す。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、モバイル局、クライアントデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなどのような、様々な名称を有しうる。ここで説明された任意のデバイスは、命令およびデータを記憶するためのメモリのみならず、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせを有しうる。
[0091]ここで説明された技法は、様々な手段によってインプリメントされる。例えば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせでインプリメントされる。当業者であれば、ここでの開示に関連して説明された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組み合せとしてインプリメントされうることをさらに理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に例示するために、様々な例示的なコンポーネント、ブロック、モジュール、回路、およびステップが、概してそれらの機能の点から上記に説明されてきた。このような機能が、ハードウェアとしてインプリメントされるか、あるいはソフトウェアとしてインプリメントされるかは、特定のアプリケーションおよびシステム全体に課せられる設計制約に依存する。当業者は、各特定のアプリケーションに関して、多様な方法で、説明された機能をインプリメントしうるが、このようなインプリメンテーションの決定は、本開示の範囲から逸脱を引き起こしていると解釈されるべきでない。
[0092]ハードウェアインプリメンテーションの場合、これら技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタルシグナル処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、ここに説明された機能を実行するために設計されたその他の電子ユニット、コンピュータ、またはこれらの組み合わせ内でインプリメントされる。
[0093]したがって、ここでの開示に関連して説明された様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、DSP、ASIC、FPGAまたはその他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェアコンポーネント、あるいはここに説明された機能を実行するように設計されるこれらの任意の組み合わせで、インプリメントまたは実行される。汎用プロセッサは、マイクロプロセッサでありうるが、代替において、このプロセッサは、任意の従来型のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシン(state machine)でありうる。プロセッサはまた、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携した1つまたは複数のマイクロプロセッサ、あるいはその他任意のこのような構成であるコンピューティングデバイスの組み合わせとしてインプリメントされうる。
[0094]ソフトウェアでインプリメントされる場合、これら機能は、コンピュータ可読媒体上で、1つまたは複数の命令またはコードとして送信または記憶されうる。コンピュータ可読媒体は、1つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされうる任意の利用可能な媒体でありうる。限定ではなく例として、このようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたはその他の光ディスク記憶装置、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは、データ構造または命令の形式で所望のプログラムコードを記憶または搬送するために使用可能であり、かつコンピュータによってアクセスされうるその他任意の媒体を備えうる。さらに、任意の接続は、厳密にはコンピュータ可読媒体と称される。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波のような無線技術を使用して、ウェブサイト、サーバ、またはその他の遠隔ソースから送信される場合には、この同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波のような無線技術は、媒体の定義に含まれる。ここで使用される場合、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多目的ディスク(DVD)、フロッピー(登録商標)ディスクおよびブルーレイ(登録商標)ディスクを含み、ここでディスク(disks)は、通常磁気的にデータを再生し、一方ディスク(discs)は、レーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
[0095]本開示の先の説明は、いかなる当業者であっても、本開示の製造または使用を可能にするように提供される。本開示への様々な修正は、当業者にとって容易に明らかであり、ここに定義された一般的な原理は、本開示の趣旨または範囲から逸脱することなく、他のバリエーションにも適用される。したがって、本開示は、ここに説明された例に限定されるようには意図されず、ここに開示された原理および新規な特徴と一致する最も広い範囲を与えられることとなる。
[0096]典型的なインプリメンテーションは、1つまたは複数の独立型(stand-alone)コンピュータシステムのコンテキストにおいて、本開示の主題事項の態様を利用することを述べているが、主題事項は、それに限定されず、むしろ、ネットワークまたは分散型コンピューティング環境などの、任意のコンピューティング環境に関連してインプリメントされうる。さらに、本開示の主題事項の態様は、複数の処理チップまたはデバイスにおいて、または複数の処理チップまたはデバイスにわたって、インプリメントされることができ、記憶も同様に、複数のデバイスにわたって影響されうる。このようなデバイスは、PC、ネットワークサーバ、およびハンドヘルドデバイスを含みうる。
[0097]主題事項は、構造上の特徴および/または方法論的動作(acts)に特有の表現で説明されてきたが、添付の特許請求の範囲に定義される主題事項は、上記に説明された特定の特徴または動作に必ずしも限定されないことが理解されるべきである。むしろ、上記に説明された特定の特徴または動作は、特許請求の範囲をインプリメントする形態の例として開示されている。
[0097]主題事項は、構造上の特徴および/または方法論的動作(acts)に特有の表現で説明されてきたが、添付の特許請求の範囲に定義される主題事項は、上記に説明された特定の特徴または動作に必ずしも限定されないことが理解されるべきである。むしろ、上記に説明された特定の特徴または動作は、特許請求の範囲をインプリメントする形態の例として開示されている。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] モバイルデバイスにおけるターゲットキーワードによって音声アクティブ化を制御するための方法であって、前記方法は、
入力サウンドストリームを受信することと、
前記入力サウンドストリームがスピーチを示すとき、前記ターゲットキーワードを検出するために音声アクティブ化機能をアクティブ化することと、
前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出することと、
前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化機能を非アクティブ化することと
を備える、方法。
[C2] 前記少なくとも1つのサウンド特徴の非ターゲットキーワードステータスに対応する第1のメトリックを決定することと、
前記第1のメトリックを前記入力サウンドストリームに基づく第2のメトリックと比較することと、ここにおいて、前記少なくとも1つのサウンド特徴は、前記比較の結果に基づいて前記非ターゲットキーワードを示すことを決定される、
をさらに備える、C1に記載の方法。
[C3] 前記第2のメトリックは、前記少なくとも1つのサウンド特徴のターゲットキーワードステータスに対応する、C2に記載の方法。
[C4] 前記第2のメトリックは、第1の時間期間の間の平均非ターゲットキーワードステータスに関連付けられる、C2に記載の方法。
[C5] 前記少なくとも1つのサウンド特徴からキーワードスコアおよび非キーワードスコアを決定することをさらに備える、C1に記載の方法。
[C6] 前記キーワードスコアおよび前記非キーワードスコアは、前記音声アクティブ化機能によって決定される、C5に記載の方法。
[C7] 前記音声アクティブ化機能を非アクティブ化することは、前記非キーワードスコアが、前記キーワードスコアを第1のスコアしきい値よりも多く超えるとき、前記音声アクティブ化機能を非アクティブ化することを含む、C5に記載の方法。
[C8] 前記音声アクティブ化機能を非アクティブ化することは、第1の時間期間の間の前記非キーワードスコアの第1の平均および第2の時間期間の間の前記非キーワードスコアの第2の平均に基づいて、前記音声アクティブ化機能を非アクティブ化することを含む、C5に記載の方法。
[C9] 前記音声アクティブ化機能を非アクティブ化することは、前記第1の平均が、前記第2の平均より第2のスコアしきい値よりも多く大きいとき、前記音声アクティブ化機能を非アクティブ化することを含む、C8に記載の方法。
[C10] 前記モバイルデバイスのコンテキスト情報に基づいて前記第2のスコアしきい値を調整することをさらに備える、C9に記載の方法。
[C11] 前記第1の時間期間は、前記第2の時間期間よりも短い、C8に記載の方法。
[C12] 前記音声アクティブ化機能を非アクティブ化した後に受信された後続する入力サウンドストリームがスピーチを示すとき、前記音声アクティブ化機能を再アクティブ化することと、
前記後続する入力サウンドストリームから抽出された少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化機能を非アクティブ化することと
をさらに備える、C1に記載の方法。
[C13] 前記音声アクティブ化機能が非アクティブ化された回数をカウントすることさらに備え、
ここにおいて、前記音声アクティブ化機能を再アクティブ化することは、前記音声アクティブ化機能が非アクティブ化された前記回数が特定の数よりも少ないとき、前記音声アクティブ化機能を再アクティブ化することを含む、
C12に記載の方法。
[C14] 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、前記受信された入力サウンドストリームにおける無音の持続時間を決定することと、
前記無音の持続時間が特定の時間期間を超える場合、前記音声アクティブ化機能を再アクティブ化することと
をさらに備える、C13に記載の方法。
[C15] 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、前記受信された入力サウンドストリームのコンテキストにおける変化を検出することと、
前記受信された入力サウンドストリームの前記コンテキストにおける前記変化が検出された場合、前記音声アクティブ化機能を再アクティブ化することと
をさらに備える、C13に記載の方法。
[C16] 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、特定の時間期間の間、前記入力サウンドストリームを受信することを非アクティブ化することをさらに備える、C13に記載の方法。
[C17] 前記入力サウンドストリームを受信することは、前記入力サウンドストリームがスピーチを示すかどうかを決定することを含む、C13に記載の方法。
[C18] 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、特定の時間期間の間、前記入力サウンドストリームがスピーチを示すかどうかを決定することを非アクティブ化することをさらに備える、C17に記載の方法。
[C19] 前記音声アクティブ化機能が非アクティブ化された前記回数をリセットすることをさらに備える、C13に記載の方法。
[C20] 前記音声アクティブ化機能が非アクティブ化された前記回数をリセットすることは、前記音声アクティブ化機能が非アクティブ化された前記回数が、特定の時間の間、不変であるとき、前記音声アクティブ化機能が非アクティブ化された前記回数をリセットすること含む、C19に記載の方法。
[C21] 前記音声アクティブ化機能は、前記モバイルデバイスにおける少なくとも1つのアプリケーションをアクティブ化するように構成された音声アクティブ化ユニットによって実行される、C1に記載の方法。
[C22] ターゲットキーワードによって音声アクティブ化を制御するためのモバイルデバイスであって、前記モバイルデバイスは、
入力サウンドストリームを受信するように構成された受信機と、
前記入力サウンドストリームがスピーチを示すかどうかを決定するように構成されたスピーチ検出器と、
前記入力サウンドストリームがスピーチを示すとき、前記スピーチ検出器が、前記ターゲットキーワードを検出するために音声アクティブ化ユニットをアクティブ化した後に、前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出するように構成された前記音声アクティブ化ユニットと、
前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化ユニットを非アクティブ化するように構成された音声アクティブ化制御ユニットと
を備える、モバイルデバイス。
[C23] 前記音声アクティブ化ユニットは、前記少なくとも1つのサウンド特徴からキーワードスコアおよび非キーワードスコアを決定するようにさらに構成される、C22に記載のモバイルデバイス。
[C24] 前記音声アクティブ化制御ユニットは、前記非キーワードスコアが、前記キーワードスコアを第1のスコアしきい値よりも多く超えるとき、前記音声アクティブ化ユニットを非アクティブ化するように構成される、C23に記載のモバイルデバイス。
[C25] 前記音声アクティブ化制御ユニットは、第1の時間期間の間の前記非キーワードスコアの第1の平均および第2の時間期間の間の前記非キーワードスコアの第2の平均に基づいて、前記音声アクティブ化ユニットを非アクティブ化するように構成される、C23に記載のモバイルデバイス。
[C26] モバイルデバイスにおけるターゲットキーワードによって音声アクティブ化を制御するための命令を記憶した非一時的なコンピュータ可読記憶媒体であって、前記命令は、プロセッサに動作を実行させ、前記動作は、
入力サウンドストリームを受信することと、
前記入力サウンドストリームがスピーチを示すとき、前記ターゲットキーワードを検出するために音声アクティブ化機能をアクティブ化することと、
前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出することと、
前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化機能を非アクティブ化することと
を備える、非一時的なコンピュータ可読記憶媒体。
[C27] 前記動作は、
前記少なくとも1つのサウンド特徴の非ターゲットキーワードステータスに対応する第1のメトリックを決定することと、
前記第1のメトリックを前記入力サウンドストリームに基づく第2のメトリックと比較することと、ここにおいて、前記少なくとも1つのサウンド特徴は、前記比較の結果に基づいて前記非ターゲットキーワードを示すことを決定される、
をさらに備える、C26に記載の非一時的なコンピュータ可読記憶媒体。
[C28] 前記第2のメトリックは、前記少なくとも1つのサウンド特徴のターゲットキーワードステータスに対応する、C27に記載の非一時的なコンピュータ可読記憶媒体。
[C29] ターゲットキーワードによって音声アクティブ化を制御するためのモバイルデバイスであって、前記モバイルデバイスは、
入力サウンドストリームを受信するための手段と、
前記入力サウンドストリームがスピーチを示すかどうかを決定するための手段と、
前記入力サウンドストリームがスピーチを示すとき、前記決定するための手段が、前記ターゲットキーワードを検出するために抽出するための手段をアクティブ化した後に、前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出するための手段と、
前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記抽出するための手段を非アクティブ化するための手段と
備える、モバイルデバイス。
[C30] 前記少なくとも1つのサウンド特徴からキーワードスコアおよび非キーワードスコアを決定するための手段をさらに備える、C29に記載のモバイルデバイス。



  1. モバイルデバイスにおけるターゲットキーワードによって音声アクティブ化を制御するための方法であって、前記方法は、
    入力サウンドストリームを受信することと、
    前記入力サウンドストリームがスピーチを示すとき、前記ターゲットキーワードを検出するために音声アクティブ化機能をアクティブ化することと、
    前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出することと、
    前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化機能を非アクティブ化することと
    を備える、方法。

  2. 前記少なくとも1つのサウンド特徴の非ターゲットキーワードステータスに対応する第1のメトリックを決定することと、
    前記第1のメトリックを前記入力サウンドストリームに基づく第2のメトリックと比較することと、ここにおいて、前記少なくとも1つのサウンド特徴は、前記比較の結果に基づいて前記非ターゲットキーワードを示すことを決定される、
    をさらに備える、請求項1に記載の方法。

  3. 前記第2のメトリックは、前記少なくとも1つのサウンド特徴のターゲットキーワードステータスに対応する、請求項2に記載の方法。

  4. 前記第2のメトリックは、第1の時間期間の間の平均非ターゲットキーワードステータスに関連付けられる、請求項2に記載の方法。

  5. 前記少なくとも1つのサウンド特徴からキーワードスコアおよび非キーワードスコアを決定することをさらに備える、請求項1に記載の方法。

  6. 前記キーワードスコアおよび前記非キーワードスコアは、前記音声アクティブ化機能によって決定される、請求項5に記載の方法。

  7. 前記音声アクティブ化機能を非アクティブ化することは、前記非キーワードスコアが、前記キーワードスコアを第1のスコアしきい値よりも多く超えるとき、前記音声アクティブ化機能を非アクティブ化することを含む、請求項5に記載の方法。

  8. 前記音声アクティブ化機能を非アクティブ化することは、第1の時間期間の間の前記非キーワードスコアの第1の平均および第2の時間期間の間の前記非キーワードスコアの第2の平均に基づいて、前記音声アクティブ化機能を非アクティブ化することを含む、請求項5に記載の方法。

  9. 前記音声アクティブ化機能を非アクティブ化することは、前記第1の平均が、前記第2の平均より第2のスコアしきい値よりも多く大きいとき、前記音声アクティブ化機能を非アクティブ化することを含む、請求項8に記載の方法。

  10. 前記モバイルデバイスのコンテキスト情報に基づいて前記第2のスコアしきい値を調整することをさらに備える、請求項9に記載の方法。

  11. 前記第1の時間期間は、前記第2の時間期間よりも短い、請求項8に記載の方法。

  12. 前記音声アクティブ化機能を非アクティブ化した後に受信された後続する入力サウンドストリームがスピーチを示すとき、前記音声アクティブ化機能を再アクティブ化することと、
    前記後続する入力サウンドストリームから抽出された少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化機能を非アクティブ化することと
    をさらに備える、請求項1に記載の方法。

  13. 前記音声アクティブ化機能が非アクティブ化された回数をカウントすることさらに備え、
    ここにおいて、前記音声アクティブ化機能を再アクティブ化することは、前記音声アクティブ化機能が非アクティブ化された前記回数が特定の数よりも少ないとき、前記音声アクティブ化機能を再アクティブ化することを含む、
    請求項12に記載の方法。

  14. 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、前記受信された入力サウンドストリームにおける無音の持続時間を決定することと、
    前記無音の持続時間が特定の時間期間を超える場合、前記音声アクティブ化機能を再アクティブ化することと
    をさらに備える、請求項13に記載の方法。

  15. 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、前記受信された入力サウンドストリームのコンテキストにおける変化を検出することと、
    前記受信された入力サウンドストリームの前記コンテキストにおける前記変化が検出された場合、前記音声アクティブ化機能を再アクティブ化することと
    をさらに備える、請求項13に記載の方法。

  16. 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、特定の時間期間の間、前記入力サウンドストリームを受信することを非アクティブ化することをさらに備える、請求項13に記載の方法。

  17. 前記入力サウンドストリームを受信することは、前記入力サウンドストリームがスピーチを示すかどうかを決定することを含む、請求項13に記載の方法。

  18. 前記音声アクティブ化機能が非アクティブ化された前記回数が、前記特定の数以上である場合、特定の時間期間の間、前記入力サウンドストリームがスピーチを示すかどうかを決定することを非アクティブ化することをさらに備える、請求項17に記載の方法。

  19. 前記音声アクティブ化機能が非アクティブ化された前記回数をリセットすることをさらに備える、請求項13に記載の方法。

  20. 前記音声アクティブ化機能が非アクティブ化された前記回数をリセットすることは、前記音声アクティブ化機能が非アクティブ化された前記回数が、特定の時間の間、不変であるとき、前記音声アクティブ化機能が非アクティブ化された前記回数をリセットすること含む、請求項19に記載の方法。

  21. 前記音声アクティブ化機能は、前記モバイルデバイスにおける少なくとも1つのアプリケーションをアクティブ化するように構成された音声アクティブ化ユニットによって実行される、請求項1に記載の方法。

  22. ターゲットキーワードによって音声アクティブ化を制御するためのモバイルデバイスであって、前記モバイルデバイスは、
    入力サウンドストリームを受信するように構成された受信機と、
    前記入力サウンドストリームがスピーチを示すかどうかを決定するように構成されたスピーチ検出器と、
    前記入力サウンドストリームがスピーチを示すとき、前記スピーチ検出器が、前記ターゲットキーワードを検出するために音声アクティブ化ユニットをアクティブ化した後に、前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出するように構成された前記音声アクティブ化ユニットと、
    前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化ユニットを非アクティブ化するように構成された音声アクティブ化制御ユニットと
    を備える、モバイルデバイス。

  23. 前記音声アクティブ化ユニットは、前記少なくとも1つのサウンド特徴からキーワードスコアおよび非キーワードスコアを決定するようにさらに構成される、請求項22に記載のモバイルデバイス。

  24. 前記音声アクティブ化制御ユニットは、前記非キーワードスコアが、前記キーワードスコアを第1のスコアしきい値よりも多く超えるとき、前記音声アクティブ化ユニットを非アクティブ化するように構成される、請求項23に記載のモバイルデバイス。

  25. 前記音声アクティブ化制御ユニットは、第1の時間期間の間の前記非キーワードスコアの第1の平均および第2の時間期間の間の前記非キーワードスコアの第2の平均に基づいて、前記音声アクティブ化ユニットを非アクティブ化するように構成される、請求項23に記載のモバイルデバイス。

  26. モバイルデバイスにおけるターゲットキーワードによって音声アクティブ化を制御するための命令を記憶した非一時的なコンピュータ可読記憶媒体であって、前記命令は、プロセッサに動作を実行させ、前記動作は、
    入力サウンドストリームを受信することと、
    前記入力サウンドストリームがスピーチを示すとき、前記ターゲットキーワードを検出するために音声アクティブ化機能をアクティブ化することと、
    前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出することと、
    前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記音声アクティブ化機能を非アクティブ化することと
    を備える、非一時的なコンピュータ可読記憶媒体。

  27. 前記動作は、
    前記少なくとも1つのサウンド特徴の非ターゲットキーワードステータスに対応する第1のメトリックを決定することと、
    前記第1のメトリックを前記入力サウンドストリームに基づく第2のメトリックと比較することと、ここにおいて、前記少なくとも1つのサウンド特徴は、前記比較の結果に基づいて前記非ターゲットキーワードを示すことを決定される、
    をさらに備える、請求項26に記載の非一時的なコンピュータ可読記憶媒体。

  28. 前記第2のメトリックは、前記少なくとも1つのサウンド特徴のターゲットキーワードステータスに対応する、請求項27に記載の非一時的なコンピュータ可読記憶媒体。

  29. ターゲットキーワードによって音声アクティブ化を制御するためのモバイルデバイスであって、前記モバイルデバイスは、
    入力サウンドストリームを受信するための手段と、
    前記入力サウンドストリームがスピーチを示すかどうかを決定するための手段と、
    前記入力サウンドストリームがスピーチを示すとき、前記決定するための手段が、前記ターゲットキーワードを検出するために抽出するための手段をアクティブ化した後に、前記入力サウンドストリームから少なくとも1つのサウンド特徴を抽出するための手段と、
    前記少なくとも1つのサウンド特徴が非ターゲットキーワードを示すとき、前記抽出するための手段を非アクティブ化するための手段と
    備える、モバイルデバイス。

  30. 前記少なくとも1つのサウンド特徴からキーワードスコアおよび非キーワードスコアを決定するための手段をさらに備える、請求項29に記載のモバイルデバイス。

 

 

Patent trol of patentswamp
類似の特許
ページングのための方法および装置が、UEに宛てられたデータを受信することを備える。本方法および装置は、より長いグローバルユーザ機器識別情報に対してUEのための短い識別情報を決定することと、短い識別情報に基づいてMIB送信を識別することとをさらに備える。その上、本方法および装置は、ユーザ機器がデータを受信するためにページについてリッスンすることを示すためにMIB送信のスロット内のビットをアクティブにすることと、MIBをブロードキャストすることとを備える。他の態様では、ページを受信するための方法および装置が、セルにキャンプオンされている間にアイドル状態に入ることを備える。本方法および装置は、ページング指示についてMIBのスロットを監視するためにアイドル状態からウェイクアップすることをさらに備える。その上、本方法および装置は、MIBの監視スロットにおいてページング指示を認識することと、SIB中の相関情報に基づいてページングウィンドウを決定することと、ページングウィンドウ中にページについてリッスンするためにウェイクアップすることとを備える。
本開示の態様は、動的なユーザ機器機能報告のための装置および方法を提供する。ユーザ機器は、第1の通信プロトコルと第2の通信プロトコルとを含む複数の通信プロトコルを利用してネットワークと通信するように構成される。ueは、第2の通信プロトコルの達成可能な最大スループットよりも低い達成可能な最大スループットを有する第1の通信プロトコルを利用してネットワークと通信し、ueは、第1の通信プロトコルまたは第2の通信プロトコルを利用してある量のデータを転送する電力効率を考慮して、第2の通信プロトコルを利用してデータを転送するueの機能を動的に報告する。
本発明は、スモールセルが前記スモールセルの現在の状態に基づいて、対応する送信モードで発見(DS)信号を送信することを含む信号送信方法を開示する。また、本発明は、信号送信装置を開示する。本発明は、前記スモールセルの現在の状態に基づいて、スモールセルのアクセス状態をリアルタイムに調整することで、隣セルに対するスモールセルの干渉を大幅に低減させ、システムの性能を向上させ、そしてスモールセルのエネルギー消費量を低減させることができる。
【選択図】図2
ワイヤレスデバイスの送信過負荷制御および/または監視のための方法、システム、および/またはデバイスが説明および提供される。基地局に接続された多数のワイヤレスデバイスに関連する問題を解決するためのツールおよび技法が提供され得る。たとえば、アップリンクチャネルのための送信サイクルは、その送信サイクルが不連続である場合に識別され得る。不連続送信サイクルに基づいてワイヤレスデバイスからスケジューリング要求およびまたはランダムアクセスチャネルメッセージが送信され得る。また、多数のワイヤレスデバイスの監視を伴い得るツールおよび技法が提供される。監視は、たとえば、タイマーに従って送信されるキープアライブメッセージを伴い得る。監視は、接続されたワイヤレスデバイスの1つまたは複数のリストの決定と、およびそのリストに関係する送信とに基づき得る。場合によっては、ワイヤレスデバイスは遅延耐性であり得る。ワイヤレスデバイスは、長いスリープサイクルを有し得るUEおよび/またはマシンタイプ通信(MTC)デバイスを含み得る。
本発明の実施例は拡張ページング周期下でのページング時点の計算方法及び装置を提供する。方法はueがsfn mod t=*を用いてページングメッセージが出現するフレーム番号sfnを計算し;ueがi_s=f1oor mod nsを用いてページングメッセージが出現するサブフレーム番号i_sを計算し;及び、ueがページングメッセージの出現するフレーム番号及びサブフレーム番号を用いて前記ueの拡張ページング周期下でのページング時点を確定することを含み、tはueのページング周期であり且つueの特定の不連続受信(drx)値に等しく;ue_idextended=imsi mod であり、ue_idextendedはueのid索引であり、imsiはueの国際移動体加入者識別番号であり、nは拡張sfnのビット数であり;n=minであり;ns=maxであり;nb∈{4t,2t,t,t/2,t/4,t/8,t/16,t/32}である。本発明の実施例の方法及び装置により、拡張ページング周期下でのページング時点の計算に良い解決案を提供できる。
通信装置に無線インターフェイスを提供するように構成されたインフラ機器を含む通信システムが提供される。通信装置は、コントローラおよび無線インターフェイスを介してデータを表す信号をインフラ機器におよび/またはから送信および/または受信するように構成される送受信機を備える。コントローラの制御下の送受信機は、インフラ機器にサービスメッセージに対する要求を送信し、インフラ機器から送信されるサービスメッセージに対する要求に対する応答メッセージを受信するように構成される。サービスメッセージに対する要求は遅延期間を含み、サービスメッセージに対する要求を受信することに応答して、インフラ機器は応答メッセージを形成するために要求を処理し、通信装置への送信のために応答メッセージを格納する。応答メッセージは、遅延期間の終了または応答メッセージの送信まで格納され、コントローラは、サービスに対する要求を送信した後に、送受信機による消費電力の量が低減される省電力状態に送受信機が入り、応答メッセージを受信すると省電力状態を終了するように構成するように構成される。
【選択図】図5
モバイルデバイス上で四重sim機能性を管理する方法、システム、およびデバイスを提供する。この方法は、モバイルデバイス上の第1のrfチェーン上で第1のサブスクリプションおよび第2のサブスクリプションをスロッテッドアイドル状態でアクティブに維持するステップと、モバイルデバイス上の第2のrfチェーン上で第3のサブスクリプションおよび第4のサブスクリプションをスロッテッドアイドル状態でアクティブに維持するステップを含む。スロッテッドアイドル状態では、第1、第2、第3、および第4のサブスクリプションは、それぞれのページングチャネルスロット内でページを監視することができ、さらにこの方法は、第4のサブスクリプションが専用トラフィック状態に入ることに応答して、第3のサブスクリプションを第1のrfチェーンに切り替えるステップを含む。
ワイヤレス電気通信ネットワーク内のネットワーク・ノードを、デュアル・コネクティビティ通信用のセカンダリ・セルを使用するようにコンフィギュレーションする方法、その方法を実施するよう動作可能な、コンピュータ・プログラム製品およびネットワーク制御ノードが提供される。方法は、デュアル・コネクティビティ対応のユーザ機器で使用するためにセカンダリ・セルによって予約される、少なくとも1つのRACHプリアンブルを決定すること、セカンダリ・セルとのデュアル・コネクティビティ通信の実施基準を満たしているユーザ機器を特定すること、およびデュアル・コネクティビティ対応のユーザ機器で使用するためにセカンダリ・セルによって予約された少なくとも1つのRACHプリアンブルの、特定されたユーザ機器への割振りを通信することを含む。諸態様は、RACH上でユーザ機器が受ける競合を回避または緩和することができ、したがって、セルへの高速な非競合アクセスを可能にすることができる。いくつかの態様および実施形態によれば、デュアル・コネクティビティ技法の実施に適した候補と特定されたユーザ機器用に、専用プリアンブルをコンフィギュレーションすることができる。専用プリアンブルの使用は、いくつかの実施形態によれば、起こり得る競合を回避することもでき、いくつかの実施形態では、例えばRRC接続状態のユーザ機器の場合、新規にアクセスされるセルがユーザ機器を特定するための手段として使用することもできる。
ワイヤレスネットワークとの通信のためのモデムを備える移動端末。前記移動端末はロジックを備える。前記ロジックは、複数の電力モードから電力モードを選択するように構成される。前記ロジックは、前記選択された電力モードについてのインジケータを含む電力モード変更要求(41)を送信するように前記モデムを制御するように構成される。前記ロジックは、電力モード変更応答(42)の受信に応じて、前記移動端末を前記選択された電力モードに切り替えるように制御するように構成される。
【選択図】図3
To top