JP4195267B2

JP4195267B2 - 音声認識装置、その音声認識方法及びプログラム

Info

Publication number: JP4195267B2
Application number: JP2002272318A
Authority: JP
Inventors: 治市川; 雅史西村; 哲也滝口
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-03-14
Filing date: 2002-09-18
Publication date: 2008-12-10
Anticipated expiration: 2022-09-18
Also published as: US7478041B2; JP2003337594A; US20030177006A1; US7720679B2; US20090076815A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識システムに関し、特にマイクロフォン・アレイを用いて雑音除去を行う方法に関する。
【０００２】
【従来の技術】
今日、音声認識プログラムの性能の向上に伴い、多くの場面で音声認識が利用されるようになってきた。しかし、話者にヘッドセットマイクなどの装着を義務づけることなく、すなわちマイクと話者の間に距離がある環境で、高精度の音声認識を実現しようとする場合、背景雑音の除去は重要な課題となる。マイクロフォン・アレイを用いて雑音除去を行う方法は、最も有効な手段の一つと考えられている。
図１８は、マイクロフォン・アレイを使用した従来の音声認識システムの構成を概略的に示した図である。
図１８を参照すると、マイクロフォン・アレイを使用した音声認識システムは、音声入力部１８１と、音源位置探索部１８２と、雑音抑圧処理部１８３と、音声認識部１８４とを備える。
【０００３】
音声入力部１８１は、複数のマイクロフォンで構成されたマイクロフォン・アレイである。
音源位置探索部１８２は、音声入力部１８１による入力に基づいて音源の方向（位置）を推定する。音源方向を推定する方式として最も良く行われるのは、遅延和法マイクロフォン・アレイの出力パワーを縦軸に、指向性を向ける方向を横軸にとった角度別パワー分布の最大ピークを音源の到来方向と推定する方式である。より鋭いピークを得るためには、縦軸にMusic Powerという仮想的なパワーを設定することもある。また、マイクロフォン本数が３本以上の場合、音源の方向だけでなく距離も推定することができる。
【０００４】
雑音抑圧処理部１８３は、音源位置探索部１８２にて推定された音源の方向（位置）に基づいて、入力した音に対して雑音抑圧を行い、音声を強調する。雑音を抑圧する手法としては、通常、以下の手法のいずれかが使用されることが多い。
【０００５】
〔遅延和法〕
マイクロフォン・アレイにおける個々のマイクロフォンからの入力を、それぞれの遅延量で遅延させてから和を取ることにより、目的方向から到来する音声のみを同相化して強化する手法である。この遅延量で、指向性を向ける方向が決まる。目的方向以外から到来する音声は、位相がずれるために相対的に弱められる。
〔Griffiths Jim法〕
遅延和法による出力から、「雑音成分が主成分となる信号」を差し引く手法である。マイクロフォンが２本の場合、この信号は、次のようにして生成される。まず、目的音源に対して同相化した信号の組の片側の位相を反転して足し合わせ、目的音声成分をキャンセルする。そして、これを雑音区間において、雑音が最小になるように適応フィルタを学習させる。
〔遅延和法と２チャンネルのスペクトラムサブトラクションとを併用する方法〕目的音源からの音声を主に出力する主ビームフォーマの出力から、主に雑音成分を出力する副ビーム・フォーマの出力を減算処理（Spectrum Subtraction）する手法である（例えば、非特許文献１、２参照。）。
〔最小分散法〕
方向性のある雑音源に対して、指向性の死角を形成するように、フィルタ設計を行う手法である（例えば、非特許文献３参照。）。
【０００６】
音声認識部１８４は、雑音抑圧処理部１８３にて雑音成分が極力除去された信号から音声特徴量を作成し、かかる音声特徴量の時間履歴を、辞書と時間伸張とを考慮してパターン照合することにより、音声認識を行う。
【０００７】
【非特許文献１】
布田・永田・安倍、「２チャンネル音声検出を用いた非定常雑音下の音声認識」、電子情報通信学会技術研究報告SP2001-25
【非特許文献２】
水町・赤木、「マイクロフォン対を用いたスペクトラムサブトラクションによる雑音除去法」、電子情報通信学会論文誌 A Vol. J82-A No. 4 pp503-512, 1999
【非特許文献３】
浅野・速水・山田・中村、「サブスペース法を用いた音声強調法の音声認識への応用」、電子情報通信学会技術研究報告 EA97-17
【非特許文献４】
永田・安倍、「話者追尾２チャネルマイクロホンアレーに関する検討」、電子情報通信学会論文誌 A Vol. J82-A No. 4 pp503-512, 1999
【０００８】
【発明が解決しようとする課題】
上述したように、音声認識技術において、マイクと話者の間に距離がある環境で、高精度の音声認識を実現しようとする場合、背景雑音の除去は重要な課題となる。そして、マイクロフォン・アレイを用いて音源方向を推定し、雑音除去を行う方法は、最も有効な手段の一つと考えられている。
しかし、マイクロフォン・アレイで雑音抑圧性能を高めるためには、一般的には多数のマイクを必要とし、多チャンネル同時入力が可能な特殊ハードウェアを必要とする。一方、少ないマイク数（例えば２チャンネル・ステレオ入力）でマイクロフォン・アレイを構成すると、マイクロフォン・アレイが持つ指向性のビームは緩やかに広がったものとなり、目的音源方向に十分に絞ったものとはならないため、周囲から雑音が混入する割合が高い。
【０００９】
そのため、音声認識の性能を高めるためには、混入する雑音成分を推定し減算するような何らかの処理が必要となる。しかし、上記従来の雑音抑圧処理の手法（遅延和法、最小分散法など）には、混入する雑音成分を推定し、積極的に減算する機能はなかった。
また、遅延和法に２チャンネルのスペクトラムサブトラクションとを併用する方法は、雑音成分を推定してパワースペクトル減算を行うため、ある程度背景雑音を抑圧できるが、雑音自体は「点」で推定されるので、背景雑音の推定精度は必ずしも高くなかった。
【００１０】
一方、マイクロフォン・アレイでマイク数を少なくした場合に生じる（特に２チャンネル・ステレオ入力で顕著となる）問題として、雑音源の方向に対応した特定の周波数で、雑音成分の推定精度が悪化するエイリアシングの問題がある。このエイリアシングの影響を抑制する方策としては、マイクロフォン間隔を狭くする方法や、マイクロフォンを傾けて配置する方法が考えられる（例えば、非特許文献４参照。）。
【００１１】
しかし、マイクロフォン間隔を狭くすると、低周波数域を中心とした指向特性を劣化させ、また、話者方向識別の精度を低下させてしまう。このため、２チャンネル・スペクトラムサブトラクションなどのビームフォーマにおいては、マイクロフォン間隔をある程度以上に狭くすることができず、エイリアシングの影響を抑制する能力にも限界がある。
マイクロフォンを傾けて配置する方法は、２本のマイクロフォンにおいて、斜め方向から到来する音波に感度の差を設けることによって、正面から来る音波とはゲインバランスの異なる音波となるようにすることができる。しかし、通常のマイクロフォンでは感度の差はわずかであるため、この方法でも、エイリアシングの影響を抑制する能力には限界がある。
【００１２】
そこで本発明は、高精度の音声認識を実現するため、目的方向音源以外の背景雑音を効率良く除去する方法及びこれを用いたシステムを提供することを目的とする。
また、本発明は、ビームフォーマにおけるエイリアシングの影響のような避けがたい雑音を効果的に抑制する方法及びこれを用いたシステムを提供することを目的とする。
【００１３】
【課題を解決するための手段】
上記の目的を達成する本発明は、次のように構成された音声認識装置として実現される。すなわち、この音声認識装置は、音声を収録するマイクロフォン・アレイと、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納したデータベースと、マイクロフォン・アレイにて収録された音声の音源方向を推定する音源位置探索部と、この音源位置探索部にて推定された音源方向とデータベースに格納された基準音の特性及び背景音の特性とを用いて、収録された音声における推定された音源方向の成分の音声データを抽出する雑音抑圧処理部と、音源方向の成分の音声データの認識処理を行う音声認識部とを備えることを特徴とする。
ここで、この雑音抑圧処理部は、より詳しくは、収録された音声の特性と基準音の特性及び背景音の特性とを比較し、比較結果に基づいて収録された音声の特性を音源方向の音の成分と無指向性の背景音の成分とに分解し、音源方向の音の成分の音声データを抽出する。
なお、この音源位置探索部は、音源方向を推定するとしたが、マイクロフォン・アレイが３個以上のマイクロフォンからなる場合は、音源までの距離を推定することも可能である。以下、音源方向あるいは音源位置という場合は、主として音源方向を意味するものとして説明するが、必要に応じて音源までの距離についても考慮し得ることは言うまでもない。
【００１４】
また、本発明による他の音声認識装置は、上記と同様のマイクロフォン・アレイと、データベースとを備えると共に、マイクロフォン・アレイにて収録された音声の特性とデータベースに格納された基準音の特性及び背景音の特性とを比較することにより、収録された音声の音源方向を推定する音源位置探索部と、この音源位置探索部にて推定された音源方向の成分の音声データの認識処理を行う音声認識部とを備えることを特徴とする。
ここで、この音源位置認識部は、さらに詳しくは、所定の音声入力方向ごとに、前記基準音の特性及び前記背景音の特性と合成して得られた特性と前記収録された音声の特性とを比較し、比較結果に基づいて所定の基準音の音源位置を当該収録された音声の音源方向として推定する。
【００１５】
本発明によるさらに他の音声認識装置は、音声を収録するマイクロフォン・アレイと、このマイクロフォン・アレイにて収録された収録音声の音源方向を推定する音源位置探索部と、収録音声から音源位置探索部にて推定された音源方向以外の成分を除去する雑音抑圧処理部と、この雑音抑圧処理部にて処理された収録音声と、この収録音声に対し所定のモデル化を行って得られる音声モデルとを用いて最尤推定を行う最尤推定部と、この最尤推定部にて推定された最尤推定値を用いて音声の認識処理を行う音声認識部とを含むことを特徴とする。
ここで、この最尤推定部は、収録音声の音声モデルとして、この収録音声の所定の音声フレームに対して周波数方向のサブバンドごとに隣接サブバンド数点にわたって信号パワーを平均化したスムージング解を用いることができる。
また、雑音抑圧部にて処理された収録音声の雑音区間に関して観測誤差の分散を計測し、収録音声の音声区間に関してモデル化におけるモデル化誤差の分散を計測する分散計測部をさらに備え、最尤推定部は、この分散計測部にて計測された観測誤差の分散またはモデル化誤差の分散を用いて最尤推定値を計算する。
【００１６】
また、上記の目的を達成する他の本発明は、コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識する、次のような音声認識方法として実現される。すなわち、この音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された推定結果に基づいて、収録された音声の特性を、推定された音源位置から発せられた音の成分と、無指向性の背景音の成分とに分解処理し、処理結果に基づいて収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された音源方向の成分の音声データに基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
ここで、この雑音抑圧ステップは、さらに詳しくは、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納した記憶装置から、音源方向の推定結果に合致する音源方向から発せられた基準音の特性及び背景音の特性を読み出すステップと、読み出された特性を適当な重み付けを施して合成し、収録された音声の特性に近似させるステップと、近似によって得られた基準音及び背景音の特性に関する情報に基づいて、メモリに格納された音声データのうち、推定された音源方向から発せられた成分を推定し抽出するステップとを含む。
【００１７】
また、本発明の他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された推定結果と予め測定された所定の音声の特性に関する情報とに基づいて、収録された音声の特性を、推定された音源方向から発せられた音の成分と、無指向性の背景音の成分とに分解し、収録された音声からこの背景音の成分を除去した音声データをメモリに格納する雑音抑圧ステップと、メモリに格納された背景音の成分を除去した音声データに基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
ここで、この雑音抑圧ステップは、より好ましくは、特定の方向から雑音が発せられることが想定される場合に、この特定の方向における音の成分を、収録された音声の特性からさらに分解し除去するステップを含む。
【００１８】
本発明によるさらに他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、予め測定された特定の音源方向から発せられた基準音の特性と無指向性の背景音の特性とを合成して得られる特性を種々の音声入力方向に対して求め、メモリに格納された音声データから得られる収録された音声の特性と比較することにより、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された音源方向の推定結果と音声データとに基づいて、収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された背景音の成分を除去した音声データに基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
ここで、この音源位置探索ステップは、さらに詳しくは、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納した記憶装置から、音声入力方向ごとに基準音の特性及び背景音の特性を読み出すステップと、音声入力方向ごとに、読み出された特性を適当な重み付けを施して合成し、収録された音声の特性に近似させるステップと、合成により得られた特性と収録された音声の特性とを比較し、誤差の小さい合成により得られた特性に対応する基準音の音源方向を、収録された音声の音源方向として推定するステップとを含む。
【００１９】
本発明によるさらに他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された音源方向の推定結果と音声データとに基づいて、収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された音源方向の成分の音声データと、この音声データに対し所定のモデル化を行って得られる音声モデルとを用いて最尤推定値を算出しメモリに格納する最尤推定ステップと、メモリに格納された最尤推定値に基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
【００２０】
また、本発明によるさらに他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された音源方向の推定結果と音声データとに基づいて、収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された音源方向の成分の音声データに関して、所定の音声フレームに対して周波数方向のサブバンドごとに隣接サブバンド数点にわたって信号パワーを平均化してスムージング解を求め、メモリに格納するステップと、メモリに格納されたスムージング解に基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
【００２１】
さらにまた、本発明は、コンピュータを制御して、上述した音声認識装置の各機能を実現させるプログラム、あるいは上述した音声認識方法の各ステップに対応する処理を実行させるためのプログラムとして実現される。これらのプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【００２２】
【発明の実施の形態】
以下、添付図面に示す第１、第２の実施の形態に基づいて、この発明を詳細に説明する。
以下に説明する第１の実施の形態は、種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を予め取得し保持しておく。そして、マイクロフォン・アレイにて音声を収録した際に、収録された音声の音源方向と保持されている基準音の特性及び背景音の特性とを用いて、収録された音声における推定された音源方向の成分の音声データを抽出する。また、収録された音声の特性と保持されている準音の特性及び背景音の特性とを比較することにより、収録された音声の音源方向を推定する。これらの手法により、目的方向音源以外の背景雑音が効率良く除去される。
第２の実施の形態は、収録音声に関してエイリアシングの影響のような大きな観測誤差が含まれることが避けられない場合を対象として、音声データをモデル化した上で最尤推定を行う。そして、このモデル化による音声モデルとして、音声フレームに対して周波数方向のサブバンドごとに隣接サブバンド数点にわたって信号パワーを平均化したスムージング解を用いる。最尤推定を行う対象となる音声データは、前段階で収録音声から雑音成分が抑圧されたものを用いるが、この雑音成分の抑圧は、第１の実施の形態に示す手法による他、２チャンネル・スペクトラムサブトラクションの手法によっても良い。
【００２３】
〔第１の実施の形態〕
第１の実施の形態では、所定の基準音及び背景音の特性（Profile）を予め用意し、収録された音声における音源方向の成分の抽出や音源方向の推定の処理に用いる。この手法をプロファイル・フィッティングと呼ぶ。
図１は、第１の実施の形態による音声認識システム（装置）を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図１に示すコンピュータ装置は、演算手段であるＣＰＵ（Central Processing Unit：中央処理装置）１０１と、Ｍ／Ｂ（マザーボード）チップセット１０２及びＣＰＵバスを介してＣＰＵ１０１に接続されたメインメモリ１０３と、同じくＭ／Ｂチップセット１０２及びＡＧＰ（Accelerated Graphics Port）を介してＣＰＵ１０１に接続されたビデオカード１０４と、ＰＣＩ（Peripheral Component Interconnect）バスを介してＭ／Ｂチップセット１０２に接続されたハードディスク１０５及びネットワークインターフェイス１０６と、さらにこのＰＣＩバスからブリッジ回路１０７及びＩＳＡ（Industry Standard Architecture）バスなどの低速なバスを介してＭ／Ｂチップセット１０２に接続されたフロッピーディスクドライブ１０８及びキーボード／マウス１０９とを備える。また、処理対象である音声を入力し、音声データに変換してＣＰＵ１０１へ供給するためのサウンドカード（サウンドチップ）１１０及びマイクロフォン・アレイ１１１を備える。
なお、図１は本実施の形態を実現するコンピュータ装置のハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード１０４を設ける代わりに、ビデオメモリのみを搭載し、ＣＰＵ１０１にてイメージデータを処理する構成としても良いし、ＡＴＡ（AT Attachment）などのインターフェイスを介してＣＤ−ＲＯＭ（Compact Disc Read Only Memory）やＤＶＤ−ＲＯＭ（Digital Versatile Disc Read Only Memory）のドライブを設けても良い。
【００２４】
図２は、図１に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
図２に示すように、本実施の形態による音声認識システムは、音声入力部１０と、音源位置探索部２０と、雑音抑圧処理部３０と、音声認識部４０と、空間特性データベース５０とを備えている。
上記の構成において、音源位置探索部２０、雑音抑圧処理部３０及び音声認識部４０は、図１に示したメインメモリ１０３に展開されたプログラムにてＣＰＵ１０１を制御することにより実現される仮想的なソフトウェアブロックである。また、空間特性データベース５０は、メインメモリ１０３やハードディスク１０５にて実現される。ＣＰＵ１０１を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。本実施の形態では、図１に示したネットワークインターフェイス１０６やフロッピーディスクドライブ１０８、図示しないＣＤ−ＲＯＭドライブなどを介して当該プログラムを入力し、ハードディスク１０５に格納する。そして、ハードディスク１０５に格納されたプログラムをメインメモリ１０３に読み込んで展開し、ＣＰＵ１０１にて実行することにより、図２に示した各構成要素の機能を実現する。なお、プログラム制御されたＣＰＵ１０１にて実現される各構成要素の間でのデータの受け渡しは、当該ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３を介して行われる。
【００２５】
音声入力部１０は、Ｎ個のマイクロフォンにより構成されたマイクロフォン・アレイ１１１及びサウンドカード１１０にて実現され、音声を収録する。収録された音声は、電気的な音声データに変換されて音源位置探索部２０へ渡される。音源位置探索部２０は、音声入力部１０にて同時収録されたＮ個の音声データから、目的音声の音源位置（音源方向）を推定する。音源位置探索部２０で推定された音源位置情報と音声入力部１０から取得したＮ個の音声データとは、雑音抑圧処理部３０へ渡される。
雑音抑圧処理部３０は、音源位置探索部２０から受け取った音源位置情報とＮ個の音声データとを用いて、目的音声以外の音源位置から到来する音声を極力排除（雑音抑圧）した１個の音声データを出力する。雑音抑圧された１個の音声データは、音声認識部４０へ渡される。
音声認識部４０は、雑音抑圧された１個の音声データを用いて、音声を文字に変換し、その文字を出力する。なお、音声認識部４０での音声処理は、周波数領域（Frequency Domain）で行われるのが一般的である。一方で、音声入力部１０の出力は時間領域（Time Domain）であるのが一般的である。そのため、音源位置探索部２０または雑音抑圧処理部３０のいずれかにおいて、音声データの周波数領域から時間領域への変換が行われる。
空間特性データベース５０は、本実施の形態における雑音抑圧処理部３０または音源位置探索部２０の処理において使用される空間特性を格納している。空間特性については後述する。
【００２６】
本実施の形態では、目的方向音源に対するマイクロフォン・アレイ１１１の空間特性と、無指向性背景音に対するマイクロフォン・アレイ１１１の空間特性という２種類のマイクロフォン特性を利用して、目的方向音源以外の背景雑音を効率良く除去する。
具体的には、音声認識システムにおける目的方向音源に対するマイクロフォン・アレイ１１１の空間特性と無指向性背景音に対するマイクロフォン・アレイ１１１の空間特性とを、予めホワイトノイズなどを用いて全周波数帯域に対して推定しておく。そして、実際に雑音のある環境下で観測された発話データから推定されるマイクロフォン・アレイ１１１の空間特性と、上記２つのマイクロフォン特性の和との差分が最小となるように、上記２つのマイクロフォン特性の混合重みを推定する。この操作を、周波数別に行うことにより、観測データに含まれる目的方向の発話成分（周波数別の強度）を推定し、音声を再構成することができる。図２に示した音声認識システムにおいては、雑音抑圧処理部３０の機能として上記の手法を実現することができる。
また、観測データに含まれる目的方向の発話成分を推定する操作を、音声入力部１０であるマイクロフォン・アレイ１１１の周囲の様々な方向に関して行い、結果を比較することにより、観測データの音源方向を特定することができる。図２に示した音声認識システムにおいては、音源位置探索部２０の機能として上記の手法を実現することができる。
これらの機能は独立しており、いずれか一方を使用することもできるし、両方を併用することもできる。以下、まず雑音抑圧処理部３０の機能について説明し、次いで音源位置探索部２０の機能について説明する。
【００２７】
図３は、本実施の形態の音声認識システムにおける雑音抑圧処理部３０の構成を示す図である。
図３を参照すると、雑音抑圧処理部３０は、遅延和処理部３１と、フーリエ変換部３２と、プロファイル・フィッティング部３３と、スペクトル再構成部３４とを備える。また、プロファイル・フィッティング部３３は、後述する成分分解処理に用いられる音源位置情報及び空間特性を格納した空間特性データベース５０に接続されている。空間特性データベース５０には、後述するように、様々な音源位置からホワイトノイズ等を鳴らして観測された空間特性が音源位置ごとに格納されている。また、音源位置探索部２０にて推定された音源位置の情報も格納されている。
【００２８】
遅延和処理部３１は、音声入力部１０にて入力された音声データを、予め設定された所定の遅延時間で遅延させ、足し合わせる。図３には、設定された遅延時間（最小遅延時間、・・・、−Δθ、０、＋Δθ、・・・、最大遅延時間）ごとに遅延和処理部３１が複数記載されている。例えば、マイクロフォン・アレイ１１１におけるマイクロフォンどうしの間隔が一定であり、遅延時間を＋Δθとした場合、ｎ番目のマイクロフォンにて収録された音声データは、(n-1)×Δθだけ遅延させる。そして、Ｎ個の音声データを同様に遅延させた上で、足し合わせる。この処理を、最小遅延時間から最大遅延時間までの予め設定された各遅延時間について行う。なお、この遅延時間は、マイクロフォン・アレイ１１１の指向性を向ける方向に相当する。したがって、遅延和処理部３１の出力は、マイクロフォン・アレイ１１１の指向性を最小角度から最大角度まで段階的に変化させたときの、各段階における音声データとなる。遅延和処理部３１から出力された音声データは、フーリエ変換部３２へ渡される。
【００２９】
フーリエ変換部３２は、短時間音声フレームごとの時間領域の音声データをフーリエ変換し、周波数領域の音声データに変換する。そしてさらに、周波数領域の音声データを、周波数帯域ごとの音声パワー分布（パワースペクトル）に変換する。図３には、遅延和処理部３１に対応してフーリエ変換部３２が複数記載されている。
フーリエ変換部３２は、マイクロフォン・アレイ１１１の指向性を向ける角度ごとに、言い換えれば図３に記載された個々の遅延和処理部３１の出力ごとに、周波数帯域ごとの音声パワー分布を出力する。フーリエ変換部３２から出力された音声パワー分布のデータは、周波数帯域ごとに整理されてプロファイル・フィッティング部３３へ渡される。
図４は、プロファイル・フィッティング部３３へ渡される音声パワー分布の例を示す図である。
【００３０】
プロファイル・フィッティング部３３は、フーリエ変換部３２から周波数帯域ごとに受け取った音声パワー分布のデータ（以下、この角度別音声パワー分布を空間特性（Profile）と呼ぶ）を、既知の空間特性に近似的に成分分解する。図３には、周波数帯域ごとに複数記載されている。プロファイル・フィッティング部３３にて使用される既知の空間特性は、音源位置探索部２０で推定された音源位置情報と一致するものを、空間特性データベース５０から選択して取得する。
【００３１】
ここで、プロファイル・フィッティング部３３による成分分解について、さらに詳細に説明する。
まず、予めホワイトノイズなどの基準音を用いて、音声認識に用いられる範囲の様々な周波数（理想的にはあらゆる周波数）ωに対し、方向性音源方向をθ₀とした際のマイクロフォン・アレイ１１１の空間特性（Ｐ_ω(θ₀,θ)：以下、この空間特性を方向性音源空間特性と呼ぶ）を、想定される種々の音源方向（理想的にはあらゆる音源方向）θ₀に対して求めておく。一方、無指向性の背景音に対する空間特性（Ｑ_ω(θ)）も同様に求めておく。これらの特性は、マイクロフォン・アレイ１１１自身の持つ特性を示すものであって、雑音や音声の音響的な特徴を示しているものではない。
次に、実際に観測される音声が、方向性の無い背景雑音と方向性のある目的音声との和から構成されると仮定すると、観測された音声に対して得られる空間特性Ｘ_ω(θ)は、ある方向θ₀からの音源に対する方向性音源空間特性Ｐ_ω(θ₀,θ)と、無指向性背景音に対する空間特性Ｑ_ω(θ)をそれぞれある係数倍したものの和で近似することができる。
【００３２】
図５は、この関係を模式的に表した図である。この関係は次の数１式で表される。
【数１】

ここで、α_ωは目的方向の方向性音源空間特性の重み係数、β_ωは無指向性背景音空間特性の重み係数である。これらの係数は、次の数２式に示す評価関数Φ_ωを最小化するように定められる。
【数２】

この最小値を与えるα_ωとβ_ωとは、次の数３式により求められる。
【数３】

ただし、α_ω≧０、β_ω≧０でなければならない。
【００３３】
係数が求まれば、雑音成分が含まれない目的音源のみのパワーを求めることができる。その周波数ωにおけるパワーは、α_ω・Ｐ_ω(θ₀,θ₀)と与えられる。また、音声を収録する環境において、雑音源が背景雑音だけでなく、特定の方向から所定の雑音（方向性雑音）が発せられることが想定され、その到来方向を推定することができる場合には、その方向性雑音に対する方向性音源空間特性を空間特性データベース５０から取得し、上記数１式の右辺の分解要素として付け加えることもできる。
なお、実音声に対して観測される空間特性は、音声フレーム（通常は１０ｍｓ〜２０ｍｓ）ごとに時系列的に得られるが、安定な空間特性を得るために、成分分解を行う前段階の処理として、複数の音声フレームのパワー分布をまとめて平均化する処理（時間方向の平滑化処理）を行っても良い。
以上の結果、プロファイル・フィッティング部３３は、雑音成分が含まれない目的音源のみの周波数ωごとの音声パワーを、α_ω・Ｐ_ω(θ₀,θ₀)と推定する。推定された周波数ωごとの音声パワーは、スペクトル再構成部３４へ渡される。
【００３４】
スペクトル再構成部３４は、プロファイル・フィッティング部３３にて推定された全周波数帯域分の音声パワーを集めて、雑音成分が抑圧された周波数領域の音声データを構成する。なお、プロファイル・フィッティング部３３において平滑化処理を行った場合は、スペクトル再構成部３４で、平滑化の逆フィルタとして構成される逆平滑化を行い、時間変動を先鋭化しても良い。また、Ｚωを逆平滑化の出力（パワースペクトル）とすると、逆平滑化の際の過剰な変動を抑えるために、０≦Ｚ_ω及びＺ_ω≦Ｘ_ω(θ₀)に変動を制限するリミッタを入れても良い。このリミッタには、逆フィルタの各段階で制限をかける逐次処理と、逆フィルタをかけおわった後で制限をかける後処理との２種類の処理が考えられるが、０≦Ｚ_ωを逐次処理、Ｚ_ω≦Ｘ_ω(θ₀) を後処理とするのが好適であることが、経験的にわかっている。
【００３５】
図６は、上記のように構成された雑音抑圧処理部３０による処理の流れを説明するフローチャートである。
図６を参照すると、まず音声入力部１０にて入力された音声データが雑音抑圧処理部３０に入力され（ステップ６０１）、遅延和処理部３１による遅延和処理が行われる（ステップ６０２）。ここでは、Ｎ本のマイクロフォンにて構成されたマイクロフォン・アレイ１１１（音声入力部１０）のｎ番目のマイクロフォンにおけるｔ番目のサンプリングのＰＣＭ（Pulse Coded Modulation）音声データを、変数ｓ(n,t)に格納するものとする。
【００３６】
遅延和処理部３１は、遅延量をサンプル点数で表現する。この遅延量にサンプリング周波数を掛けたものが実際の遅延時間となる。変化させる遅延量の刻み幅をΔθサンプルとし、正の方向および負の方向それぞれにＭ段階に変化させるとすると、最大遅延量はＭ×Δθサンプル、最小遅延量は−Ｍ×Δθサンプルとなる。この場合、ｍ段階目の遅延和出力は、次の数４式で表される値となる。
【数４】

（ｍ＝−Ｍ〜＋Ｍの整数）
ただし、上記数４式では、音声の収録環境としてマイクロフォン間隔一定、遠距離音場を想定している。これ以外の場合は、公知の遅延和マイクロフォン・アレイ１１１の理論により、指向性方向を片側Ｍ段階に変化させたときのｍ番目の遅延和出力をｘ(ｍ,ｔ)に構成するようにする。
【００３７】
次に、フーリエ変換部３２によるフーリエ変換処理が行われる（ステップ６０３）。
フーリエ変換部３２は、時間領域の音声データｘ(ｍ,ｔ)を、短時間の音声フレーム間隔ごとに切り出し、フーリエ変換により周波数領域の音声データに変換する。そしてさらに、周波数領域の音声データを周波数帯域ごとのパワー分布Ｘω_,i(ｍ)に変換する。ここで、添え字ωは各周波数帯域の代表周波数を表している。また、添え字ｉは音声フレームの番号を表す。サンプリング点数で表した音声フレーム間隔をframe_sizeとすると、ｔ＝ｉ×frame_sizeの関係がある。
【００３８】
観測された空間特性Ｘω_,i(ｍ)は、プロファイル・フィッティング部３３に渡されるが、プロファイル・フィッティング部３３での前処理として時間方向の平滑化を行う場合には、平滑化前の空間特性をＸ^* _ω _,i(ｍ)、フィルタ幅をＷ、フィルタ係数をC_jとして、次の数５式で表される値となる。
【数５】

次に、プロファイル・フィッティング部３３による成分分解処理が行われる（ステップ６０４）。
かかる処理のために、プロファイル・フィッティング部３３には、フーリエ変換部３２から取得した、観測された空間特性Ｘ_ω _,i(ｍ)、音源位置探索部２０で推定された音源位置情報ｍ₀、方向ｍ₀で表される方向からの音源に対する既知の方向性音源空間特性Ｐ_ω(ｍ₀,ｍ)、及び無指向性背景音に対する既知の空間特性Ｑ_ω(ｍ)が入力される。ここでは、既知の空間特性も観測された空間特性と同様に方向のパラメータｍを片側Ｍ段階のサンプリング点数単位で採っている。
【００３９】
目的方向の方向性音源空間特性の重み係数α_ω、無指向性背景音空間特性の重み係数β_ωを、次の数６式にて求める。ただし、式中で、添え字ω、ｉは省略されている。処理は、周波数帯域ωごと、及び音声フレームｉごとに実行する。
【数６】

ただし、αとβは負の数であってはならないので、
α＜０ならば、α＝０、β＝ａ₄／ａ₀
β＜０ならば、β＝０、α＝ａ₃／ａ₁
とする。
【００４０】
次に、スペクトル再構成部３４によるスペクトル再構成処理が行われる（ステップ６０５）。
スペクトル再構成部３４は、プロファイル・フィッティング部３３による成分分解の結果に基づいて、雑音が抑圧された周波数領域の音声出力データＺ_ω _,iを次のように求める。
まず、プロファイル・フィッティング部３３において平滑化処理を行わなかった場合は、そのまま、Ｚ_ω _,i＝Ｙ_ω _,iとなる。
Ｙ_ω _,i＝α_ω _,i・Ｐ_ω _,i(ｍ₀,ｍ₀)
一方、プロファイル・フィッティング部３３において平滑化処理を行った場合は、次の数７式で表される変動制限付きの逆平滑化を行ってＺ_ω _,iを求める。
【数７】

この音声出力データＺ_ω _,iは、処理結果として音声認識部４０へ出力される（ステップ６０６）。
【００４１】
さて、上述した雑音抑圧処理部３０では、時間領域の音声データを入力として処理を行っていたが、周波数領域の音声データを入力として処理を行うことも可能である。
図７は、周波数領域の音声データを入力とする場合の雑音抑圧処理部３０の構成を示す図である。
図７に示すように、この場合、雑音抑圧処理部３０には、図２に示した時間領域の処理を行う遅延和処理部３１に代えて、周波数領域の処理を行う遅延和処理部３６が設けられる。遅延和処理部３６にて周波数領域の処理が行われるので、フーリエ変換部３２は不要となる。
遅延和処理部３６は、周波数領域の音声データを受け取り、予め設定された所定の位相遅延量で遅延させ、足し会わせる。図７には、設定された位相遅延量（最小位相遅延量、・・・、−Δθ、０、＋Δθ、・・・、最大位相遅延量）ごとに遅延和処理部３６が複数記載されている。例えば、マイクロフォン・アレイ１１１におけるマイクロフォンどうしの間隔が一定であり、位相遅延量を＋Δθとした場合、ｎ番目のマイクロフォンにて収録された音声データは、(n-1)×Δθ だけ位相を遅延させる。そして、Ｎ個の音声データを同様に遅延させた上で、足し合わせる。この処理を、最小位相遅延量から最大位相遅延量までの予め設定された各位相遅延量について行う。なお、この位相遅延量は、マイクロフォン・アレイ１１１の指向性を向ける方向に相当する。したがって、遅延和処理部３６の出力は、図３に示した構成の場合と同様に、マイクロフォン・アレイ１１１の指向性を最小角度から最大角度まで段階的に変化させたときの、各段階における音声データとなる。
【００４２】
また、遅延和処理部３６は、指向性を向ける角度ごとに、周波数帯域ごとの音声パワー分布を出力する。この出力は、周波数帯域ごとに整理してプロファイル・フィッティング部３３に渡される。以下、プロファイル・フィッティング部３３及びスペクトル再構成部３４の処理は、図３に示した雑音抑圧処理部３０の場合と同様である。
【００４３】
次に、本実施の形態における音源位置探索部２０について説明する。
図８は、本実施の形態の音声認識システムにおける音源位置探索部２０の構成を示す図である。
図８を参照すると、音源位置探索部２０は、遅延和処理部２１と、フーリエ変換部２２と、プロファイル・フィッティング部２３と、残差評価部２４とを備える。また、プロファイル・フィッティング部２３は、空間特性データベース５０に接続されている。これらの構成のうち、遅延和処理部２１及びフーリエ変換部２２の機能は,図３に示した雑音抑圧処理部３０における遅延和処理部３１及びフーリエ変換部３２と同様である。また、空間特性データベース５０には、様々な音源位置からホワイトノイズ等を鳴らして観測された空間特性が、音源位置ごとに格納されている。
【００４４】
プロファイル・フィッティング部２３は、フーリエ変換部２２から渡された音声パワー分布を短時間平均し、周波数ごとに空間特性の観測値を作成する。そして、得られた観測値を、既知の空間特性に近似的に成分分解する。この際、方向性音源空間特性Ｐ_ω(θ₀,θ)として、空間特性データベース５０に格納されている全ての方向性音源空間特性を順番に選択して適用し、数２式を中心とする上述の手法により、係数α_ωとβ_ωとを求める。係数α_ωとβ_ωとが求まれば、数２式に代入することにより、評価関数Φ_ωの残差を求めることができる。得られた周波数帯域ωごとの評価関数Φ_ωの残差は、残差評価部２４へ渡される。
【００４５】
残差評価部２４は、プロファイル・フィッティング部２３から受け取った周波数帯域ωごとの評価関数Φ_ωの残差を合計する。その際、音源位置探索の精度を高めるために高周波帯域に重みをかけて合計しても良い。この合計残差が最小になる時に選択された既知の方向性音源空間特性が、推定された音源位置を表している。すなわち、この既知の方向性音源空間特性を測定した時の音源位置が、ここで推定すべき音源位置である。
【００４６】
図９は、上記のように構成された音源位置探索部２０による処理の流れを説明するフローチャートである。
図９を参照すると、まず音声入力部１０にて入力された音声データが音源位置探索部２０に入力され（ステップ９０１）、遅延和処理部２１による遅延和処理、フーリエ変換部２２によるフーリエ変換処理が行われる（ステップ９０２、９０３）。これらの処理は、図６を参照して説明した音声データの入力（ステップ６０１）、遅延和処理（ステップ６０２）及びフーリエ変換処理（ステップ６０３）と同様であるので、ここでは説明を省略する。
【００４７】
次に、プロファイル・フィッティング部２３による処理が行われる。
プロファイル・フィッティング部２３は、まず、成分分解で使用する既知の方向性音源空間特性として、空間特性データベース５０に格納されている既知の方向性音源空間特性の中から順に異なるものを選択する（ステップ９０４）。具体的には、方向ｍ₀からの音源に対する既知の方向性音源空間特性Ｐ_ω(ｍ₀,ｍ)のｍ₀を変えることに相当する。そして、選択された既知の方向性音源空間特性について成分分解処理が行われる（ステップ９０５、９０６）。
【００４８】
プロファイル・フィッティング部２３による成分分解処理では、図６を参照して説明した成分分解処理（ステップ６０４）と同様の処理により、目的方向の方向性音源空間特性の重み係数α_ω、無指向性背景音空間特性の重み係数β_ωが求められる。そして、求まった目的方向の方向性音源空間特性の重み係数α_ω、無指向性背景音空間特性の重み係数β_ωを用い、次の数８式により評価関数の残差が求められる（ステップ９０７）。
【数８】

この残差は、現在選択されている既知の方向性音源空間特性と関係付けられて、空間特性データベース５０に保管される。
【００４９】
ステップ９０４乃至ステップ９０７の処理を繰り返し、空間特性データベース５０に格納されている全ての既知の方向性音源空間特性を試したならば、次に、残差評価部２４による残差評価処理が行われる（ステップ９０５、９０８）。
具体的には、次の数９式により、空間特性データベース５０に保管されている残差を周波数帯域ごとに重みをつけて合計する。
【数９】

ここで、Ｃ(ω)は重み係数である。簡単には全て１で良い。
そして、このΦ_ALLを最小にする既知の方向性音源空間特性が選択され、位置情報として出力される（ステップ９０９）。
【００５０】
上述したように、雑音抑圧処理部３０の機能と、音源位置探索部２０の機能とは独立しているので、音声認識システムを構成するに当たり、両方を上述した本実施の形態による構成としても良いし、どちらか一方のみを上述した本実施の形態による構成要素とし、他方は従来の技術を用いても良い。
いずれか一方を本実施の形態による構成要素とする場合、例えば上述した雑音抑圧処理部３０を用いる場合は、収録音声を音源からの音の成分と背景雑音による音の成分とに分解して音源からの音の成分を抽出し、音声認識部４０による認識が行われることにより、音声認識の精度の向上を図ることができる。
また、本実施の形態の音源位置探索部２０を用いる場合は、背景雑音を考慮して特定の音源位置からの音における空間特性と収録音声の空間特性とを比較することにより、正確な音源位置の推定を行うことができる。
さらに、本実施の形態の音源位置探索部２０及び雑音抑圧処理部３０を両方用いる場合は、正確な音源位置の推定と音声認識の精度向上とを期待できるのみならず、空間特性データベース５０と、遅延和処理部２１、３１やフーリエ変換部２２、３２を共用できることとなり効率的である。
【００５１】
本実施の形態による音声認識システムは、話者とマイクロフォンとの間に距離がある環境でも雑音を効率的に除去して高精度な音声認識を実現するのに寄与するため、コンピュータやＰＤＡ、携帯電話などの電子情報機器に対する音声入力や、ロボットその他の機械装置との音声による対話など、多くの音声入力環境で使用することができるものである。
【００５２】
〔第２の実施の形態〕
第２の実施の形態では、収録音声に関してエイリアシングの影響のような大きな観測誤差が含まれることが避けられない場合を対象として、音声データをモデル化した上で最尤推定を行うことにより、雑音の減少を図る。
本実施の形態の構成及び動作の説明に先立って、エイリアシングの問題について具体的に説明する。
図１７は、２チャンネル・マイクロフォン・アレイでエイリアスの発生する状況を説明する図である。
図１７に示すように、２本のマイクロフォン１７１１、１７１２を約３０ｃｍの間隔で配置し、正面０°に信号音源１７２０を配置し、右約４０°に雑音源１７３０を１個配置したケースを考える。この場合、使用するビームフォーマとして２チャンネル・スペクトラムサブトラクション法を想定すると、理想的には、主ビームフォーマでは、信号音源１７２０の音波は同相化されて強化されるのに対し、左右のマイクロフォン１７１１、１７１２に同時に到達しない雑音源１７３０の音波は、同相化されずに弱化される。また、副ビームフォーマでは、信号音源１７２０の音波は、逆位相で足し合わされるためにキャンセルされ、ほとんど残らないのに対し、雑音源１７３０の音波は、元々同相化されていないものを逆位相で足し合わせるので、キャンセルされずに出力に残る。
【００５３】
しかし、特定の周波数では、異なる状況となる場合がある。図１７のような構成では、雑音源１７３０の音波は左のマイクロフォン１７１２に約０.５ミリ秒遅れて到達する。したがって、約２０００（＝１÷０．０００５）Ｈｚの音波は、ちょうど一周期遅れて、同相化されることとなる。すなわち、主ビームフォーマで、その雑音成分は弱化されず、また、副ビームフォーマの出力で残るべき雑音成分が残らなくなってしまうこの現象は、その特定周波数（この場合は２０００Ｈｚ）の倍音（＝Ｎ×２０００Ｈｚ）でも発生する。これにより、抽出される音声データにエイリアス（ノイズ）が含まれてしまう。本実施の形態では、このエイリアスが発生する特定の周波数で、より精度の高い、雑音成分の推定を実現する。
第２の実施の形態による音声認識システム（装置）は、第１の実施の形態と同様に、図１に示すようなコンピュータ装置にて実現される。
【００５４】
図１０は、本実施の形態による音声認識システムの構成を示す図である。
図１０に示すように、本実施の形態による音声認識システムは、音声入力部２１０と、音源位置探索部２２０と、雑音抑圧処理部２３０と、分散計測部２４０と、最尤推定部２５０と、音声認識部２６０とを備えている。
上記の構成において、音源位置探索部２２０、雑音抑圧処理部２３０、分散計測部２４０、最尤推定部２５０及び音声認識部２６０は、図１に示したメインメモリ１０３に展開されたプログラムにてＣＰＵ１０１を制御することにより実現される仮想的なソフトウェアブロックである。ＣＰＵ１０１を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。本実施の形態では、図１に示したネットワークインターフェイス１０６やフロッピーディスクドライブ１０８、図示しないＣＤ−ＲＯＭドライブなどを介して当該プログラムを入力し、ハードディスク１０５に格納する。そして、ハードディスク１０５に格納されたプログラムをメインメモリ１０３に読み込んで展開し、ＣＰＵ１０１にて実行することにより、図１０に示した各構成要素の機能を実現する。なお、プログラム制御されたＣＰＵ１０１にて実現される各構成要素の間でのデータの受け渡しは、当該ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３を介して行われる。
【００５５】
音声入力部２１０は、Ｎ個のマイクロフォンにより構成されたマイクロフォン・アレイ１１１及びサウンドカード１１０にて実現され、音声を収録する。収録された音声は、電気的な音声データに変換されて音源位置探索部２２０へ渡される。なお、エイリアシングの問題が、マイクロフォンの数が２個の場合に顕著に現れることから、以下では音声入力部２１０が２個のマイクロフォンを備える（すなわち、２個の音声データが収録される）ものとして説明する。
音源位置探索部２２０は、音声入力部１０にて同時収録された２個の音声データから、目的音声の音源位置（音源方向）を推定する。音源位置探索部２２０で推定された音源位置情報と音声入力部２１０から取得した２個の音声データとは、雑音抑圧処理部２３０へ渡される。
雑音抑圧処理部２３０は、収録音声の中から所定の雑音成分を推定して減算する種類のビームフォーマである。すなわち、音源位置探索部２２０から受け取った音源位置情報と２個の音声データとを用いて、目的音声以外の音源位置から到来する音声を極力排除（雑音抑圧）した１個の音声データを出力する。ビームフォーマの種類としては、第１の実施の形態に示したプロファイル・フィッティングにより雑音成分を除去するものでも良いし、従来から用いられている２チャンネル・スペクトラムサブトラクションにより雑音成分を除去するものでも良い。雑音抑圧された１個の音声データは、分散計測部２４０及び最尤推定部２５０へ渡される。
【００５６】
分散計測部２４０は、雑音抑圧処理部２３０にて処理された音声データを入力し、雑音抑圧された当該入力音声が雑音区間（音声フレーム中で目的音声のない区間）である場合は観測誤差分散を計測する。また、当該入力音声が音声区間（音声フレーム中で目的音声のある区間）である場合はモデル化誤差分散を計測する。観測誤差分散、モデル化誤差分散及びこれらの計測方法の詳細については後述する。
最尤推定部２５０は、分散計測部２４０から観測誤差分散及びモデル化誤差分散を入力し、雑音抑圧処理部２３０にて処理された音声データを入力して、最尤推定値を算出する。最尤推定値及びその計算方法の詳細については後述する。算出された最尤推定値は、音声認識部２６０へ渡される。
音声認識部２６０は、最尤推定部２５０にて算出された最尤推定値を用いて、音声を文字に変換し、その文字を出力する。
なお、本実施の形態では、各構成要素間の音声データの受け渡しに周波数領域のパワー値（パワースペクトラム）を想定している。
【００５７】
次に、本実施の形態における、収録音声に対するエイリアシングの影響を減少させる手法について説明する。
第１の実施の形態に示したプロファイル・フィッティング法や、従来から用いられている２チャンネル・スペクトラムサブトラクション法をはじめとする、雑音成分を推定してスペクトル減算を行うタイプのビームフォーマの出力では、エイリアシングの問題が起こる特定の周波数のパワーを中心に、時間方向に平均がゼロで大きな分散の誤差を含んでいる。そこで、所定の音声フレームについて、周波数方向のサブバンドごとに、隣接サブバンド数点に渡って信号パワーを平均化した解を考える。この解をスムージング解と呼ぶ。音声のスペクトラム包絡は連続的に変化すると考えられるので、この周波数方向の平均化により、混入する誤差は平均化されて小さくなると期待できる。
しかし、このスムージング解は、上記の定義から、スペクトラム分布が鈍るという性質を持つため、スペクトラムの構造を正確に表現しているとは言いがたい。すなわち、スムージング解そのものを音声認識に用いたとしても、良い音声認識結果は得られない。
【００５８】
そこで、本実施の形態は、収録音声の観測値そのものと、上述したスムージング解との線形補間を考える。そして、観測誤差が小さい周波数では観測値寄りの値を使用し、観測誤差が大きい周波数ではスムージング解寄りの値を使用する。このときに使用する値として推定される値が最尤推定値である。したがって、最尤推定値としては、信号に雑音がほとんど含まれていないＳ／Ｎ（信号・ノイズ比）の高いケースでは、ほぼ全周波数領域で、観測値に極めて近い値が使用されることになる。また、雑音が多く含まれるＳ／Ｎの低いケースでは、エイリアシングが起こる特定の周波数を中心に、スムージング解に近い値が使用されることになる。
【００５９】
以下、この最尤推定値を算出する処理の詳細な内容を定式化する。
所定の対象を観測する際に大きな観測誤差が避けられない場合に備え、観測対象を何らかの形でモデル化した上で、最尤推定を行う。本実施の形態では、観測対象の音声モデルとして「スペクトラム包絡は連続的に変化する」という性質を利用し、スペクトラムの周波数方向のスムージング解を定義する。
状態方程式を次の数１０式のように定める。
【数１０】

ここで、Ｓ￣は、主ビームフォーマに含まれる目的音声のパワーＳを隣接サブバンド数点にわたって平均化したスムージング解である。Ｙは、スムージング解からの誤差であり、モデル化誤差と呼ぶ。また、ωは周波数、Ｔは音声フレームの時系列番号である。
【００６０】
観測値であるビームフォーマの出力（パワースペクトル）をＺとすると、観測方程式は、次の数１１式のように定義される。
【数１１】

ここで、Ｖは観測誤差である。この観測誤差は、エイリアスが発生する周波数で大きい。観測値Ｚが得られたとき、目的音声のパワーＳにおける条件付確率分布Ｐ(Ｓ｜Ｚ)は、ベイズの公式により、次の数１２式で与えられる。
【数１２】

この時、観測誤差Ｖが大きい場合は、モデルによる推定値Ｓ￣を使い、観測誤差Ｖが小さい場合は、観測値Ｚそのものを使うのが合理的な推定となる。
【００６１】
そのようなＳの最尤推定値は、次の数１３式乃至数１６式にて与えられる。
【数１３】

【数１４】

【数１５】

【数１６】

ここで、ｑはモデル化誤差Ｙの分散、ｒは観測誤差Ｖの分散である。なお、数１５、１６式において、Ｙ、Ｖの平均値はゼロと仮定した。ここで、Ｅ［］ω_,Tは、分散計測の範囲を例示する図１１に示すように、ω、Ｔの周りのｍ×ｎ点の期待値を取る操作を表す。ω_i、Ｔ_jは、ｍ×ｎ中の各点を表している。
【００６２】
数１３式では、スムージング解Ｓ￣は直接求まらないが、観測誤差Ｖのスムージング解Ｖ￣は、平均化によりゼロに近い値になると仮定し、次の数１７式のように、観測値Ｚのスムージング解Ｚ￣で代用する。
【数１７】

観測誤差分散ｒについては、まず定常であることを仮定し、ｒ(ω)とする。雑音区間では目的音声のパワーＳがゼロであるので、観測値Ｚを観測することにより、数１１、１６式から求めることができる。この場合、分散を計測する操作の範囲は、図１１の範囲（ａ）のようになる。
モデル化誤差分散ｑについては、モデル化誤差Ｙが直接観測できないので、次の数１８式で与えられるｆを観測することにより推定する。
【数１８】

ここでは、モデル化誤差Ｙ、観測誤差Ｖが無相関であると仮定した。既に観測誤差分散ｒが求まっているので、音声区間でｆを観測することにより、数１８式からモデル化誤差分散ｑを求めることができる。この場合、分散を計測する操作の範囲は、図１１の範囲（ｂ）のようになる。
【００６３】
本実施の形態では、以上の処理を、分散計測部２４０及び最尤推定部２５０により行う。
図１２は、分散計測部２４０の動作を説明するフローチャートである。
図１２に示すように、分散計測部２４０は、雑音抑圧処理部２３０から音声フレームＴの雑音抑圧処理後のパワースペクトルＺ(ω,Ｔ)を取得すると（ステップ１２０１）、当該音声フレームＴが音声区間に属するのか雑音区間に属するのか判断する（ステップ１２０２）。音声フレームＴに対する判断は、従来から公知の方法を用いて行うことができる。
入力した音声フレームＴが雑音区間であった場合、分散計測部２４０は、上述した数１１、１６式により、観測誤差分散ｒ(ω)を過去の履歴と合わせて再計算（更新）する（ステップ１２０３）。
一方、入力した音声フレームＴが音声区間であった場合、分散計測部２４０は、まず数１７式により観測値であるパワースペクトルＺ(ω,Ｔ)からスムージング解Ｓ￣(ω,Ｔ)を作成する（ステップ１２０４）。そして、数１８式により、モデル化誤差分散ｑ(ω,Ｔ)を再計算（更新）する。更新された観測誤差分散ｒ(ω)、または更新されたモデル化誤差分散ｑ(ω,Ｔ)及び作成されたスムージング解Ｓ￣(ω,Ｔ)は、最尤推定部２５０へ渡される（ステップ１２０６）。
【００６４】
図１３は、最尤推定部２５０の動作を説明するフローチャートである。
図１３に示すように、最尤推定部２５０は、雑音抑圧処理部２３０から音声フレームＴの雑音抑圧処理後のパワースペクトルＺ(ω,Ｔ)を取得し（ステップ１３０１）、さらに分散計測部２４０から当該音声フレームＴにおける観測誤差分散ｒ(ω)、モデル化誤差分散ｑ(ω,Ｔ)及びスムージング解Ｓ￣(ω,Ｔ)を取得する（ステップ１３０２）。
そして、最尤推定部２５０は、取得した各データを用いて、数１３式により、最尤推定値Ｓ^(ω,Ｔ)を算出する（ステップ１３０３）。算出された最尤推定値Ｓ^(ω,Ｔ)は、音声認識部２６０へ渡される（ステップ１３０４）。
【００６５】
図１４は、音声認識システムとして、２チャンネル・スペクトラムサブトラクション・ビームフォーマを用い、これに本実施の形態を適用した構成を示す図である。
図１４に示す２チャンネル・スペクトラムサブトラクション・ビームフォーマは、重みを適応的にかける方法である２チャンネル・アダプティブ・スペクトラムサブトラクション（2 Channel Adaptive Spectrum Subtraction）法を使用するビームフォーマである。
図１４において、２つのマイクロフォン（図ではマイクと表記）１４０１、１４０２が図１０に示した音声入力部２１０に対応し、主ビームフォーマ１４０３、副ビームフォーマ１４０４が音源位置探索部２２０及び雑音抑圧処理部２３０としての機能を実現する。すなわち、この２チャンネル・スペクトラムサブトラクション・ビームフォーマは、２つのマイクロフォン１４０１、１４０２によって収録された音声に関し、目的音源方向に指向性を向けた主ビームフォーマ１４０３の出力から目的音源方向に死角を構成した副ビームフォーマ１４０４の出力をスペクトルサブトラクション（減算）する。副ビームフォーマ１４０４は、目的音源の音声信号が含まれていない雑音成分のみの信号を出力するとみなされる。主ビームフォーマ１４０３の出力と副ビームフォーマ１４０４の出力とは、それぞれ高速フーリエ変換（FFT：Fast Fourier Transform）され、所定の重み（Weight(ω)：Ｗ(ω)）を着けて減算が行われた後、分散計測部２４０、最尤推定部２５０による処理を経て、逆高速フーリエ変換（I-FFT：Inverse Fast Fourier Transform）されて音声認識部２６０へ出力される。当然ながら、音声認識部２６０が周波数領域のデータを入力として受け付ける場合には、この逆高速フーリエ変換は省略することができる。
【００６６】
主ビームフォーマ１４０３の出力パワースペクトルをＭ_１（ω,Ｔ）、副ビームフォーマ１４０４の出力パワースペクトルをＭ_２（ω,Ｔ）とする。主ビームフォーマ１４０３に含まれる信号パワーをＳ、雑音パワーをＮ_１、副ビームフォーマに含まれる雑音パワーをＮ_２とすると、次のような関係がある。
Ｍ₁(ω,Ｔ)＝Ｓ(ω,Ｔ)＋Ｎ₁(ω,Ｔ)
Ｍ₂(ω,Ｔ)＝Ｎ₂(ω,Ｔ)
ここでは、信号と雑音は無相関であると仮定している。
【００６７】
主ビームフォーマ１４０３の出力から副ビームフォーマ１４０４の出力を、重み係数Ｗ(ω)を掛けて減算すると、その出力Ｚは、
Ｚ(ω,Ｔ)＝Ｍ₁(ω,Ｔ)−Ｗ(ω)・Ｍ₂(ω,Ｔ)
＝Ｓ(ω,Ｔ)＋｛Ｎ₁(ω,Ｔ)−Ｗ(ω)・Ｎ₂(ω,Ｔ)｝
と表される。重みＷ(ω)は、Ｅ［］を期待値操作として、
Ｅ［[Ｎ₁(ω,Ｔ)−Ｗ(ω)・Ｎ₂(ω,Ｔ)]²］
を最小とするように学習される。
図１５は、例として、雑音源を右４０°に１個配置した時の学習済みの重み係数Ｗ(ω)を示す図である。
図１５を参照すると、特定の周波数で、特に大きな値を持つことがわかる。このような周波数では、上式で期待される雑音成分のキャンセルの精度が著しく低下する。すなわち、観測される主ビームフォーマ１４０３の出力パワーＳ(ω,Ｔ)の値に大きな誤差を伴うこととなる。
【００６８】
そこで、上述した数１０、１１式のように状態方程式及び観測方程式を定める。この時、観測誤差Ｖ(ω,Ｔ)は、次のように定義される。
Ｖ(ω,Ｔ)＝Ｎ₁(ω,Ｔ)・Ｗ(ω)・Ｎ₂(ω,Ｔ)
そして、分散計測部２４０及び最尤推定部２５０が、上述した数１３乃至数１６式により最尤推定値を算出する。
これにより、主ビームフォーマ１４０３の出力パワーＳ(ω,Ｔ)の値に大きな誤差を伴わない場合、すなわち、収録音声に信号にエイリアシングによる雑音がほとんど含まれていない場合には、観測値に近い最尤推定値が逆高速フーリエ変換されて音声認識部２６０へ出力される。一方、主ビームフォーマ１４０３の出力パワーＳ(ω,Ｔ)の値に大きな誤差を伴う場合、すなわち、収録音声に信号にエイリアシングによる雑音が多く含まれている場合には、当該エイリアシングが起こる特定の周波数を中心としてスムージング解に近い最尤推定値が逆高速フーリエ変換されて音声認識部２６０へ出力される。
【００６９】
図１６は、音声認識システムとして、図１４に示した２チャンネル・スペクトラムサブトラクション・ビームフォーマを備えたコンピュータ装置の外観を例示する図である。
図１６に示すコンピュータ装置は、ディスプレイ（ＬＣＤ）１６１０の上部にステレオマイクロフォン１６２１、１６２２が設けられている。このステレオマイクロフォン１６２１、１６２２は、図１４に示したマイクロフォン１４０１、１４０２に相当し、これを図１０に示した音声入力部２１０として用いる。そして、プログラム制御されたＣＰＵにより、音源位置探索部２２０及び雑音抑圧処理部２３０として機能する主ビームフォーマ１４０３、副ビームフォーマ１４０４と、分散計測部２４０及び最尤推定部２５０の機能とを実現する。これにより、エイリアシングの影響を極力減少させた音声認識が可能となる。
【００７０】
なお、上記において本実施の形態は、特に２チャンネルのビームフォーマにおいて顕著に発生するエイリアシングによる雑音を減少させる場合を例として説明したが、本実施の形態によるスムージング解及び最尤推定を用いた雑音除去の技術は、その他、２チャンネル・スペクトラムサブトラクションや第１の実施の形態によるプロファイル・フィッティング等の手法でも除去できない種々の雑音を減少させるためにも用いることができるのは言うまでもない。
【００７１】
【発明の効果】
以上説明したように、本発明によれば、収録音声から目的方向音源以外の背景雑音を効率良く除去し、高精度の音声認識を実現することができる。
また、本発明によれば、ビームフォーマにおけるエイリアシングの影響のような避けがたい雑音を効果的に抑制する方法及びこれを用いたシステムを提供することができる。
【図面の簡単な説明】
【図１】第１の実施の形態による音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図２】図１に示したコンピュータ装置にて実現される第１の実施の形態による音声認識システムの構成を示す図である。
【図３】第１の実施の形態の音声認識システムにおける雑音抑圧処理部の構成を示す図である。
【図４】第１の実施の形態で用いられる音声パワー分布の例を示す図である。
【図５】予め測定された方向性音源空間特性及び無指向性背景音に対する空間特性と収録音声の空間特性との関係を模式的に表す図である。
【図６】第１の実施の形態における雑音抑圧処理部による処理の流れを説明するフローチャートである。
【図７】周波数領域の音声データを入力とする場合の雑音抑圧処理部の構成を示す図である。
【図８】第１の実施の形態の音声認識システムにおける音源位置探索部の構成を示す図である。
【図９】第１の実施の形態における音源位置探索部による処理の流れを説明するフローチャートである。
【図１０】第２の実施の形態による音声認識システムの構成を示す図である。
【図１１】第２の実施の形態による分散計測の範囲を例示する図である。
【図１２】第２の実施の形態における分散計測部の動作を説明するフローチャートである。
【図１３】第２の実施の形態における最尤推定部２５０の動作を説明するフローチャートである。
【図１４】第２の実施の形態による音声認識システムを２チャンネル・スペクトラムサブトラクション・ビームフォーマに適用した構成を示す図である。
【図１５】第２の実施の形態において、雑音源を右４０°に１個配置した時の学習済みの重み係数Ｗ(ω)を示す図である。
【図１６】図１４に示した２チャンネル・スペクトラムサブトラクション・ビームフォーマを備えたコンピュータ装置の外観を例示する図である。
【図１７】２チャンネル・マイクロフォン・アレイでエイリアスの発生する状況を説明する図である。
【図１８】マイクロフォン・アレイを使用した従来の音声認識システムの構成を概略的に示した図である。
【符号の説明】
１０、２１０…音声入力部、２０、２２０…音源位置探索部、２１、３１、３６…遅延和処理部、２２、３２…フーリエ変換部、２３、３３…プロファイル・フィッティング部、２４…残差評価部、３０、２３０…雑音抑圧処理部、３４…スペクトル再構成部、４０、２６０…音声認識部、５０…空間特性データベース、１０１…ＣＰＵ、１０２…Ｍ／Ｂチップセット、１０３…メインメモリ、１０５…ハードディスク、１１０…サウンドカード、１１１…マイクロフォン・アレイ、２４０…分散計測部、２５０…最尤推定部

Claims

音声を収録するマイクロフォン・アレイと、
想定される種々の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性及び無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性を格納したデータベースと、
前記マイクロフォン・アレイにて収録された音声の音源方向を推定する音源位置探索部と、
前記音源位置探索部にて推定された前記音源方向と前記データベースに格納された前記基準音及び前記背景音の前記空間特性とを用いて、前記収録された音声における前記推定された音源方向の成分の音声データを抽出する雑音抑圧処理部と、
前記音源方向の成分の音声データの認識処理を行う音声認識部と
を備えることを特徴とする音声認識装置。
前記雑音抑圧処理部は、前記収録された音声の特性と前記基準音及び前記背景音の前記空間特性とを比較し、比較結果に基づいて前記収録された音声の特性を前記音源方向の音の成分と無指向性の背景音の成分とに分解し、前記音源方向の音の成分の音声データを抽出することを特徴とする請求項１に記載の音声認識装置。
音声を収録するマイクロフォン・アレイと、
想定される種々の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性及び無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性を格納したデータベースと、
前記マイクロフォン・アレイにて収録された音声の特性と前記データベースに格納された前記基準音及び前記背景音の前記空間特性とを比較することにより、前記収録された音声の音源方向を推定する音源位置探索部と、
前記音源位置探索部にて推定された音源方向の成分の音声データの認識処理を行う音声認識部と
を備えることを特徴とする音声認識装置。
前記音源位置探索部は、所定の音声入力方向ごとに、前記基準音及び前記背景音の前記空間特性を合成して得られた空間特性と前記収録された音声の特性とを比較し、比較結果に基づいて所定の基準音の音源位置を当該収録された音声の音源方向として推定することを特徴とする請求項３に記載の音声認識装置。
コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識する音声認識方法において、
前記マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、
前記メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、
前記メモリに格納された推定結果と予め測定された所定の音声に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性とに基づいて、前記収録された音声の特性を、推定された音源位置から発せられた音の成分と、無指向性の背景音の成分とに分解処理し、処理結果に基づいて前記収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、
前記メモリに格納された前記音源方向の成分の音声データに基づいて、前記収録された音声を認識する音声認識ステップとを含み、
前記雑音抑圧ステップは、
想定される種々の音源方向から発せられた基準音の前記空間特性及び無指向性の背景音の前記空間特性を格納した記憶装置から、前記音源方向の推定結果に合致する音源方向から発せられた前記基準音及び前記背景音の空間特性を読み出すステップと、
読み出された前記空間特性を適当な重み付けを施して合成し、前記収録された音声の特性に近似させるステップと、
近似によって得られた前記基準音及び前記背景音の空間特性に関する情報に基づいて、前記メモリに格納された音声データのうち、前記推定された音源方向から発せられた成分を推定し抽出するステップとを含むことを特徴とする音声認識方法。
コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識する音声認識方法において、
前記マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、
予め測定された特定の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性と無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性とを合成して得られる空間特性を種々の音声入力方向に対して求め、前記メモリに格納された音声データから得られる収録された音声の特性と比較することにより、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、
前記メモリに格納された音源方向の推定結果と前記音声データとに基づいて、前記収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、
前記メモリに格納された前記背景音の成分を除去した音声データに基づいて、前記収録された音声を認識する音声認識ステップと
を含むことを特徴とする音声認識方法。
前記音源位置探索ステップは、
想定される種々の音源方向から発せられた基準音の前記空間特性及び無指向性の背景音の前記空間特性を格納した記憶装置から、前記音声入力方向ごとに前記基準音及び前記背景音の空間特性を読み出すステップと、
前記音声入力方向ごとに、読み出された前記空間特性を適当な重み付けを施して合成し、前記収録された音声の特性に近似させるステップと、
前記合成により得られた空間特性と前記収録された音声の特性とを比較し、誤差の小さい当該合成により得られた空間特性に対応する基準音の音源方向を、当該収録された音声の音源方向として推定するステップと
を含むことを特徴とする請求項６に記載の音声認識方法。
コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識するプログラムにおいて、
前記マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力処理と、
予め測定された特定の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性と無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性とを合成して得られる空間特性を種々の音声入力方向に対して求め、前記メモリに格納された音声データから得られる収録された音声の特性と比較することにより、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索処理と、
前記メモリに格納された音源方向の推定結果と前記音声データとに基づいて、前記収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧処理と、
前記メモリに格納された前記背景音の成分を除去した音声データに基づいて、前記収録された音声を認識する音声認識処理と
を前記コンピュータに実行させることを特徴とするプログラム。
前記音源位置探索処理は、
想定される種々の音源方向から発せられた基準音の前記空間特性及び無指向性の背景音の前記空間特性を格納した記憶装置から、前記音声入力方向ごとに前記基準音及び前記背景音の空間特性を読み出す処理と、
前記音声入力方向ごとに、読み出された前記空間特性を適当な重み付けを施して合成し、前記収録された音声の特性に近似させる処理と、
前記合成により得られた空間特性と前記収録された音声の特性とを比較し、誤差の小さい当該合成により得られた空間特性に対応する基準音の音源方向を、当該収録された音声の音源方向として推定する処理と
を含むことを特徴とする請求項８に記載のプログラム。