JP4195267B2 - 音声認識装置、その音声認識方法及びプログラム - Google Patents
音声認識装置、その音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP4195267B2 JP4195267B2 JP2002272318A JP2002272318A JP4195267B2 JP 4195267 B2 JP4195267 B2 JP 4195267B2 JP 2002272318 A JP2002272318 A JP 2002272318A JP 2002272318 A JP2002272318 A JP 2002272318A JP 4195267 B2 JP4195267 B2 JP 4195267B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- recorded
- voice
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000012545 processing Methods 0.000 claims description 109
- 230000001629 suppression Effects 0.000 claims description 63
- 230000008569 process Effects 0.000 claims description 19
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 42
- 238000001228 spectrum Methods 0.000 description 41
- 238000009499 grossing Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 24
- 238000005259 measurement Methods 0.000 description 18
- 238000000354 decomposition reaction Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 239000006185 dispersion Substances 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000011410 subtraction method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000010893 Bischofia javanica Nutrition 0.000 description 1
- 240000005220 Bischofia javanica Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識システムに関し、特にマイクロフォン・アレイを用いて雑音除去を行う方法に関する。
【0002】
【従来の技術】
今日、音声認識プログラムの性能の向上に伴い、多くの場面で音声認識が利用されるようになってきた。しかし、話者にヘッドセットマイクなどの装着を義務づけることなく、すなわちマイクと話者の間に距離がある環境で、高精度の音声認識を実現しようとする場合、背景雑音の除去は重要な課題となる。マイクロフォン・アレイを用いて雑音除去を行う方法は、最も有効な手段の一つと考えられている。
図18は、マイクロフォン・アレイを使用した従来の音声認識システムの構成を概略的に示した図である。
図18を参照すると、マイクロフォン・アレイを使用した音声認識システムは、音声入力部181と、音源位置探索部182と、雑音抑圧処理部183と、音声認識部184とを備える。
【0003】
音声入力部181は、複数のマイクロフォンで構成されたマイクロフォン・アレイである。
音源位置探索部182は、音声入力部181による入力に基づいて音源の方向(位置)を推定する。音源方向を推定する方式として最も良く行われるのは、遅延和法マイクロフォン・アレイの出力パワーを縦軸に、指向性を向ける方向を横軸にとった角度別パワー分布の最大ピークを音源の到来方向と推定する方式である。より鋭いピークを得るためには、縦軸にMusic Powerという仮想的なパワーを設定することもある。また、マイクロフォン本数が3本以上の場合、音源の方向だけでなく距離も推定することができる。
【0004】
雑音抑圧処理部183は、音源位置探索部182にて推定された音源の方向(位置)に基づいて、入力した音に対して雑音抑圧を行い、音声を強調する。雑音を抑圧する手法としては、通常、以下の手法のいずれかが使用されることが多い。
【0005】
〔遅延和法〕
マイクロフォン・アレイにおける個々のマイクロフォンからの入力を、それぞれの遅延量で遅延させてから和を取ることにより、目的方向から到来する音声のみを同相化して強化する手法である。この遅延量で、指向性を向ける方向が決まる。目的方向以外から到来する音声は、位相がずれるために相対的に弱められる。
〔Griffiths Jim法〕
遅延和法による出力から、「雑音成分が主成分となる信号」を差し引く手法である。マイクロフォンが2本の場合、この信号は、次のようにして生成される。まず、目的音源に対して同相化した信号の組の片側の位相を反転して足し合わせ、目的音声成分をキャンセルする。そして、これを雑音区間において、雑音が最小になるように適応フィルタを学習させる。
〔遅延和法と2チャンネルのスペクトラムサブトラクションとを併用する方法〕目的音源からの音声を主に出力する主ビームフォーマの出力から、主に雑音成分を出力する副ビーム・フォーマの出力を減算処理(Spectrum Subtraction)する手法である(例えば、非特許文献1、2参照。)。
〔最小分散法〕
方向性のある雑音源に対して、指向性の死角を形成するように、フィルタ設計を行う手法である(例えば、非特許文献3参照。)。
【0006】
音声認識部184は、雑音抑圧処理部183にて雑音成分が極力除去された信号から音声特徴量を作成し、かかる音声特徴量の時間履歴を、辞書と時間伸張とを考慮してパターン照合することにより、音声認識を行う。
【0007】
【非特許文献1】
布田・永田・安倍、「2チャンネル音声検出を用いた非定常雑音下の音声認識」、電子情報通信学会技術研究報告SP2001-25
【非特許文献2】
水町・赤木、「マイクロフォン対を用いたスペクトラムサブトラクションによる雑音除去法」、電子情報通信学会論文誌 A Vol. J82-A No. 4 pp503-512, 1999
【非特許文献3】
浅野・速水・山田・中村、「サブスペース法を用いた音声強調法の音声認識への応用」、電子情報通信学会技術研究報告 EA97-17
【非特許文献4】
永田・安倍、「話者追尾2チャネルマイクロホンアレーに関する検討」、電子情報通信学会論文誌 A Vol. J82-A No. 4 pp503-512, 1999
【0008】
【発明が解決しようとする課題】
上述したように、音声認識技術において、マイクと話者の間に距離がある環境で、高精度の音声認識を実現しようとする場合、背景雑音の除去は重要な課題となる。そして、マイクロフォン・アレイを用いて音源方向を推定し、雑音除去を行う方法は、最も有効な手段の一つと考えられている。
しかし、マイクロフォン・アレイで雑音抑圧性能を高めるためには、一般的には多数のマイクを必要とし、多チャンネル同時入力が可能な特殊ハードウェアを必要とする。一方、少ないマイク数(例えば2チャンネル・ステレオ入力)でマイクロフォン・アレイを構成すると、マイクロフォン・アレイが持つ指向性のビームは緩やかに広がったものとなり、目的音源方向に十分に絞ったものとはならないため、周囲から雑音が混入する割合が高い。
【0009】
そのため、音声認識の性能を高めるためには、混入する雑音成分を推定し減算するような何らかの処理が必要となる。しかし、上記従来の雑音抑圧処理の手法(遅延和法、最小分散法など)には、混入する雑音成分を推定し、積極的に減算する機能はなかった。
また、遅延和法に2チャンネルのスペクトラムサブトラクションとを併用する方法は、雑音成分を推定してパワースペクトル減算を行うため、ある程度背景雑音を抑圧できるが、雑音自体は「点」で推定されるので、背景雑音の推定精度は必ずしも高くなかった。
【0010】
一方、マイクロフォン・アレイでマイク数を少なくした場合に生じる(特に2チャンネル・ステレオ入力で顕著となる)問題として、雑音源の方向に対応した特定の周波数で、雑音成分の推定精度が悪化するエイリアシングの問題がある。このエイリアシングの影響を抑制する方策としては、マイクロフォン間隔を狭くする方法や、マイクロフォンを傾けて配置する方法が考えられる(例えば、非特許文献4参照。)。
【0011】
しかし、マイクロフォン間隔を狭くすると、低周波数域を中心とした指向特性を劣化させ、また、話者方向識別の精度を低下させてしまう。このため、2チャンネル・スペクトラムサブトラクションなどのビームフォーマにおいては、マイクロフォン間隔をある程度以上に狭くすることができず、エイリアシングの影響を抑制する能力にも限界がある。
マイクロフォンを傾けて配置する方法は、2本のマイクロフォンにおいて、斜め方向から到来する音波に感度の差を設けることによって、正面から来る音波とはゲインバランスの異なる音波となるようにすることができる。しかし、通常のマイクロフォンでは感度の差はわずかであるため、この方法でも、エイリアシングの影響を抑制する能力には限界がある。
【0012】
そこで本発明は、高精度の音声認識を実現するため、目的方向音源以外の背景雑音を効率良く除去する方法及びこれを用いたシステムを提供することを目的とする。
また、本発明は、ビームフォーマにおけるエイリアシングの影響のような避けがたい雑音を効果的に抑制する方法及びこれを用いたシステムを提供することを目的とする。
【0013】
【課題を解決するための手段】
上記の目的を達成する本発明は、次のように構成された音声認識装置として実現される。すなわち、この音声認識装置は、音声を収録するマイクロフォン・アレイと、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納したデータベースと、マイクロフォン・アレイにて収録された音声の音源方向を推定する音源位置探索部と、この音源位置探索部にて推定された音源方向とデータベースに格納された基準音の特性及び背景音の特性とを用いて、収録された音声における推定された音源方向の成分の音声データを抽出する雑音抑圧処理部と、音源方向の成分の音声データの認識処理を行う音声認識部とを備えることを特徴とする。
ここで、この雑音抑圧処理部は、より詳しくは、収録された音声の特性と基準音の特性及び背景音の特性とを比較し、比較結果に基づいて収録された音声の特性を音源方向の音の成分と無指向性の背景音の成分とに分解し、音源方向の音の成分の音声データを抽出する。
なお、この音源位置探索部は、音源方向を推定するとしたが、マイクロフォン・アレイが3個以上のマイクロフォンからなる場合は、音源までの距離を推定することも可能である。以下、音源方向あるいは音源位置という場合は、主として音源方向を意味するものとして説明するが、必要に応じて音源までの距離についても考慮し得ることは言うまでもない。
【0014】
また、本発明による他の音声認識装置は、上記と同様のマイクロフォン・アレイと、データベースとを備えると共に、マイクロフォン・アレイにて収録された音声の特性とデータベースに格納された基準音の特性及び背景音の特性とを比較することにより、収録された音声の音源方向を推定する音源位置探索部と、この音源位置探索部にて推定された音源方向の成分の音声データの認識処理を行う音声認識部とを備えることを特徴とする。
ここで、この音源位置認識部は、さらに詳しくは、所定の音声入力方向ごとに、前記基準音の特性及び前記背景音の特性と合成して得られた特性と前記収録された音声の特性とを比較し、比較結果に基づいて所定の基準音の音源位置を当該収録された音声の音源方向として推定する。
【0015】
本発明によるさらに他の音声認識装置は、音声を収録するマイクロフォン・アレイと、このマイクロフォン・アレイにて収録された収録音声の音源方向を推定する音源位置探索部と、収録音声から音源位置探索部にて推定された音源方向以外の成分を除去する雑音抑圧処理部と、この雑音抑圧処理部にて処理された収録音声と、この収録音声に対し所定のモデル化を行って得られる音声モデルとを用いて最尤推定を行う最尤推定部と、この最尤推定部にて推定された最尤推定値を用いて音声の認識処理を行う音声認識部とを含むことを特徴とする。
ここで、この最尤推定部は、収録音声の音声モデルとして、この収録音声の所定の音声フレームに対して周波数方向のサブバンドごとに隣接サブバンド数点にわたって信号パワーを平均化したスムージング解を用いることができる。
また、雑音抑圧部にて処理された収録音声の雑音区間に関して観測誤差の分散を計測し、収録音声の音声区間に関してモデル化におけるモデル化誤差の分散を計測する分散計測部をさらに備え、最尤推定部は、この分散計測部にて計測された観測誤差の分散またはモデル化誤差の分散を用いて最尤推定値を計算する。
【0016】
また、上記の目的を達成する他の本発明は、コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識する、次のような音声認識方法として実現される。すなわち、この音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された推定結果に基づいて、収録された音声の特性を、推定された音源位置から発せられた音の成分と、無指向性の背景音の成分とに分解処理し、処理結果に基づいて収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された音源方向の成分の音声データに基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
ここで、この雑音抑圧ステップは、さらに詳しくは、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納した記憶装置から、音源方向の推定結果に合致する音源方向から発せられた基準音の特性及び背景音の特性を読み出すステップと、読み出された特性を適当な重み付けを施して合成し、収録された音声の特性に近似させるステップと、近似によって得られた基準音及び背景音の特性に関する情報に基づいて、メモリに格納された音声データのうち、推定された音源方向から発せられた成分を推定し抽出するステップとを含む。
【0017】
また、本発明の他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された推定結果と予め測定された所定の音声の特性に関する情報とに基づいて、収録された音声の特性を、推定された音源方向から発せられた音の成分と、無指向性の背景音の成分とに分解し、収録された音声からこの背景音の成分を除去した音声データをメモリに格納する雑音抑圧ステップと、メモリに格納された背景音の成分を除去した音声データに基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
ここで、この雑音抑圧ステップは、より好ましくは、特定の方向から雑音が発せられることが想定される場合に、この特定の方向における音の成分を、収録された音声の特性からさらに分解し除去するステップを含む。
【0018】
本発明によるさらに他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、予め測定された特定の音源方向から発せられた基準音の特性と無指向性の背景音の特性とを合成して得られる特性を種々の音声入力方向に対して求め、メモリに格納された音声データから得られる収録された音声の特性と比較することにより、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された音源方向の推定結果と音声データとに基づいて、収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された背景音の成分を除去した音声データに基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
ここで、この音源位置探索ステップは、さらに詳しくは、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納した記憶装置から、音声入力方向ごとに基準音の特性及び背景音の特性を読み出すステップと、音声入力方向ごとに、読み出された特性を適当な重み付けを施して合成し、収録された音声の特性に近似させるステップと、合成により得られた特性と収録された音声の特性とを比較し、誤差の小さい合成により得られた特性に対応する基準音の音源方向を、収録された音声の音源方向として推定するステップとを含む。
【0019】
本発明によるさらに他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された音源方向の推定結果と音声データとに基づいて、収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された音源方向の成分の音声データと、この音声データに対し所定のモデル化を行って得られる音声モデルとを用いて最尤推定値を算出しメモリに格納する最尤推定ステップと、メモリに格納された最尤推定値に基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
【0020】
また、本発明によるさらに他の音声認識方法は、マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、メモリに格納された音源方向の推定結果と音声データとに基づいて、収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、メモリに格納された音源方向の成分の音声データに関して、所定の音声フレームに対して周波数方向のサブバンドごとに隣接サブバンド数点にわたって信号パワーを平均化してスムージング解を求め、メモリに格納するステップと、メモリに格納されたスムージング解に基づいて、収録された音声を認識する音声認識ステップとを含むことを特徴とする。
【0021】
さらにまた、本発明は、コンピュータを制御して、上述した音声認識装置の各機能を実現させるプログラム、あるいは上述した音声認識方法の各ステップに対応する処理を実行させるためのプログラムとして実現される。これらのプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【0022】
【発明の実施の形態】
以下、添付図面に示す第1、第2の実施の形態に基づいて、この発明を詳細に説明する。
以下に説明する第1の実施の形態は、種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を予め取得し保持しておく。そして、マイクロフォン・アレイにて音声を収録した際に、収録された音声の音源方向と保持されている基準音の特性及び背景音の特性とを用いて、収録された音声における推定された音源方向の成分の音声データを抽出する。また、収録された音声の特性と保持されている準音の特性及び背景音の特性とを比較することにより、収録された音声の音源方向を推定する。これらの手法により、目的方向音源以外の背景雑音が効率良く除去される。
第2の実施の形態は、収録音声に関してエイリアシングの影響のような大きな観測誤差が含まれることが避けられない場合を対象として、音声データをモデル化した上で最尤推定を行う。そして、このモデル化による音声モデルとして、音声フレームに対して周波数方向のサブバンドごとに隣接サブバンド数点にわたって信号パワーを平均化したスムージング解を用いる。最尤推定を行う対象となる音声データは、前段階で収録音声から雑音成分が抑圧されたものを用いるが、この雑音成分の抑圧は、第1の実施の形態に示す手法による他、2チャンネル・スペクトラムサブトラクションの手法によっても良い。
【0023】
〔第1の実施の形態〕
第1の実施の形態では、所定の基準音及び背景音の特性(Profile)を予め用意し、収録された音声における音源方向の成分の抽出や音源方向の推定の処理に用いる。この手法をプロファイル・フィッティングと呼ぶ。
図1は、第1の実施の形態による音声認識システム(装置)を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図1に示すコンピュータ装置は、演算手段であるCPU(Central Processing Unit:中央処理装置)101と、M/B(マザーボード)チップセット102及びCPUバスを介してCPU101に接続されたメインメモリ103と、同じくM/Bチップセット102及びAGP(Accelerated Graphics Port)を介してCPU101に接続されたビデオカード104と、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット102に接続されたハードディスク105及びネットワークインターフェイス106と、さらにこのPCIバスからブリッジ回路107及びISA(Industry Standard Architecture)バスなどの低速なバスを介してM/Bチップセット102に接続されたフロッピーディスクドライブ108及びキーボード/マウス109とを備える。また、処理対象である音声を入力し、音声データに変換してCPU101へ供給するためのサウンドカード(サウンドチップ)110及びマイクロフォン・アレイ111を備える。
なお、図1は本実施の形態を実現するコンピュータ装置のハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード104を設ける代わりに、ビデオメモリのみを搭載し、CPU101にてイメージデータを処理する構成としても良いし、ATA(AT Attachment)などのインターフェイスを介してCD−ROM(Compact Disc Read Only Memory)やDVD−ROM(Digital Versatile Disc Read Only Memory)のドライブを設けても良い。
【0024】
図2は、図1に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
図2に示すように、本実施の形態による音声認識システムは、音声入力部10と、音源位置探索部20と、雑音抑圧処理部30と、音声認識部40と、空間特性データベース50とを備えている。
上記の構成において、音源位置探索部20、雑音抑圧処理部30及び音声認識部40は、図1に示したメインメモリ103に展開されたプログラムにてCPU101を制御することにより実現される仮想的なソフトウェアブロックである。また、空間特性データベース50は、メインメモリ103やハードディスク105にて実現される。CPU101を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。本実施の形態では、図1に示したネットワークインターフェイス106やフロッピーディスクドライブ108、図示しないCD−ROMドライブなどを介して当該プログラムを入力し、ハードディスク105に格納する。そして、ハードディスク105に格納されたプログラムをメインメモリ103に読み込んで展開し、CPU101にて実行することにより、図2に示した各構成要素の機能を実現する。なお、プログラム制御されたCPU101にて実現される各構成要素の間でのデータの受け渡しは、当該CPU101のキャッシュメモリやメインメモリ103を介して行われる。
【0025】
音声入力部10は、N個のマイクロフォンにより構成されたマイクロフォン・アレイ111及びサウンドカード110にて実現され、音声を収録する。収録された音声は、電気的な音声データに変換されて音源位置探索部20へ渡される。音源位置探索部20は、音声入力部10にて同時収録されたN個の音声データから、目的音声の音源位置(音源方向)を推定する。音源位置探索部20で推定された音源位置情報と音声入力部10から取得したN個の音声データとは、雑音抑圧処理部30へ渡される。
雑音抑圧処理部30は、音源位置探索部20から受け取った音源位置情報とN個の音声データとを用いて、目的音声以外の音源位置から到来する音声を極力排除(雑音抑圧)した1個の音声データを出力する。雑音抑圧された1個の音声データは、音声認識部40へ渡される。
音声認識部40は、雑音抑圧された1個の音声データを用いて、音声を文字に変換し、その文字を出力する。なお、音声認識部40での音声処理は、周波数領域(Frequency Domain)で行われるのが一般的である。一方で、音声入力部10の出力は時間領域(Time Domain)であるのが一般的である。そのため、音源位置探索部20または雑音抑圧処理部30のいずれかにおいて、音声データの周波数領域から時間領域への変換が行われる。
空間特性データベース50は、本実施の形態における雑音抑圧処理部30または音源位置探索部20の処理において使用される空間特性を格納している。空間特性については後述する。
【0026】
本実施の形態では、目的方向音源に対するマイクロフォン・アレイ111の空間特性と、無指向性背景音に対するマイクロフォン・アレイ111の空間特性という2種類のマイクロフォン特性を利用して、目的方向音源以外の背景雑音を効率良く除去する。
具体的には、音声認識システムにおける目的方向音源に対するマイクロフォン・アレイ111の空間特性と無指向性背景音に対するマイクロフォン・アレイ111の空間特性とを、予めホワイトノイズなどを用いて全周波数帯域に対して推定しておく。そして、実際に雑音のある環境下で観測された発話データから推定されるマイクロフォン・アレイ111の空間特性と、上記2つのマイクロフォン特性の和との差分が最小となるように、上記2つのマイクロフォン特性の混合重みを推定する。この操作を、周波数別に行うことにより、観測データに含まれる目的方向の発話成分(周波数別の強度)を推定し、音声を再構成することができる。図2に示した音声認識システムにおいては、雑音抑圧処理部30の機能として上記の手法を実現することができる。
また、観測データに含まれる目的方向の発話成分を推定する操作を、音声入力部10であるマイクロフォン・アレイ111の周囲の様々な方向に関して行い、結果を比較することにより、観測データの音源方向を特定することができる。図2に示した音声認識システムにおいては、音源位置探索部20の機能として上記の手法を実現することができる。
これらの機能は独立しており、いずれか一方を使用することもできるし、両方を併用することもできる。以下、まず雑音抑圧処理部30の機能について説明し、次いで音源位置探索部20の機能について説明する。
【0027】
図3は、本実施の形態の音声認識システムにおける雑音抑圧処理部30の構成を示す図である。
図3を参照すると、雑音抑圧処理部30は、遅延和処理部31と、フーリエ変換部32と、プロファイル・フィッティング部33と、スペクトル再構成部34とを備える。また、プロファイル・フィッティング部33は、後述する成分分解処理に用いられる音源位置情報及び空間特性を格納した空間特性データベース50に接続されている。空間特性データベース50には、後述するように、様々な音源位置からホワイトノイズ等を鳴らして観測された空間特性が音源位置ごとに格納されている。また、音源位置探索部20にて推定された音源位置の情報も格納されている。
【0028】
遅延和処理部31は、音声入力部10にて入力された音声データを、予め設定された所定の遅延時間で遅延させ、足し合わせる。図3には、設定された遅延時間(最小遅延時間、・・・、−Δθ、0、+Δθ、・・・、最大遅延時間)ごとに遅延和処理部31が複数記載されている。例えば、マイクロフォン・アレイ111におけるマイクロフォンどうしの間隔が一定であり、遅延時間を+Δθとした場合、n番目のマイクロフォンにて収録された音声データは、(n-1)×Δθだけ遅延させる。そして、N個の音声データを同様に遅延させた上で、足し合わせる。この処理を、最小遅延時間から最大遅延時間までの予め設定された各遅延時間について行う。なお、この遅延時間は、マイクロフォン・アレイ111の指向性を向ける方向に相当する。したがって、遅延和処理部31の出力は、マイクロフォン・アレイ111の指向性を最小角度から最大角度まで段階的に変化させたときの、各段階における音声データとなる。遅延和処理部31から出力された音声データは、フーリエ変換部32へ渡される。
【0029】
フーリエ変換部32は、短時間音声フレームごとの時間領域の音声データをフーリエ変換し、周波数領域の音声データに変換する。そしてさらに、周波数領域の音声データを、周波数帯域ごとの音声パワー分布(パワースペクトル)に変換する。図3には、遅延和処理部31に対応してフーリエ変換部32が複数記載されている。
フーリエ変換部32は、マイクロフォン・アレイ111の指向性を向ける角度ごとに、言い換えれば図3に記載された個々の遅延和処理部31の出力ごとに、周波数帯域ごとの音声パワー分布を出力する。フーリエ変換部32から出力された音声パワー分布のデータは、周波数帯域ごとに整理されてプロファイル・フィッティング部33へ渡される。
図4は、プロファイル・フィッティング部33へ渡される音声パワー分布の例を示す図である。
【0030】
プロファイル・フィッティング部33は、フーリエ変換部32から周波数帯域ごとに受け取った音声パワー分布のデータ(以下、この角度別音声パワー分布を空間特性(Profile)と呼ぶ)を、既知の空間特性に近似的に成分分解する。図3には、周波数帯域ごとに複数記載されている。プロファイル・フィッティング部33にて使用される既知の空間特性は、音源位置探索部20で推定された音源位置情報と一致するものを、空間特性データベース50から選択して取得する。
【0031】
ここで、プロファイル・フィッティング部33による成分分解について、さらに詳細に説明する。
まず、予めホワイトノイズなどの基準音を用いて、音声認識に用いられる範囲の様々な周波数(理想的にはあらゆる周波数)ωに対し、方向性音源方向をθ0とした際のマイクロフォン・アレイ111の空間特性(Pω(θ0,θ):以下、この空間特性を方向性音源空間特性と呼ぶ)を、想定される種々の音源方向(理想的にはあらゆる音源方向)θ0に対して求めておく。一方、無指向性の背景音に対する空間特性(Qω(θ))も同様に求めておく。これらの特性は、マイクロフォン・アレイ111自身の持つ特性を示すものであって、雑音や音声の音響的な特徴を示しているものではない。
次に、実際に観測される音声が、方向性の無い背景雑音と方向性のある目的音声との和から構成されると仮定すると、観測された音声に対して得られる空間特性Xω(θ)は、ある方向θ0からの音源に対する方向性音源空間特性Pω(θ0,θ)と、無指向性背景音に対する空間特性Qω(θ)をそれぞれある係数倍したものの和で近似することができる。
【0032】
図5は、この関係を模式的に表した図である。この関係は次の数1式で表される。
【数1】
ここで、αωは目的方向の方向性音源空間特性の重み係数、βωは無指向性背景音空間特性の重み係数である。これらの係数は、次の数2式に示す評価関数Φωを最小化するように定められる。
【数2】
この最小値を与えるαωとβωとは、次の数3式により求められる。
【数3】
ただし、αω≧0、βω≧0でなければならない。
【0033】
係数が求まれば、雑音成分が含まれない目的音源のみのパワーを求めることができる。その周波数ωにおけるパワーは、αω・Pω(θ0,θ0)と与えられる。また、音声を収録する環境において、雑音源が背景雑音だけでなく、特定の方向から所定の雑音(方向性雑音)が発せられることが想定され、その到来方向を推定することができる場合には、その方向性雑音に対する方向性音源空間特性を空間特性データベース50から取得し、上記数1式の右辺の分解要素として付け加えることもできる。
なお、実音声に対して観測される空間特性は、音声フレーム(通常は10ms〜20ms)ごとに時系列的に得られるが、安定な空間特性を得るために、成分分解を行う前段階の処理として、複数の音声フレームのパワー分布をまとめて平均化する処理(時間方向の平滑化処理)を行っても良い。
以上の結果、プロファイル・フィッティング部33は、雑音成分が含まれない目的音源のみの周波数ωごとの音声パワーを、αω・Pω(θ0,θ0)と推定する。推定された周波数ωごとの音声パワーは、スペクトル再構成部34へ渡される。
【0034】
スペクトル再構成部34は、プロファイル・フィッティング部33にて推定された全周波数帯域分の音声パワーを集めて、雑音成分が抑圧された周波数領域の音声データを構成する。なお、プロファイル・フィッティング部33において平滑化処理を行った場合は、スペクトル再構成部34で、平滑化の逆フィルタとして構成される逆平滑化を行い、時間変動を先鋭化しても良い。また、Zωを逆平滑化の出力(パワースペクトル)とすると、逆平滑化の際の過剰な変動を抑えるために、0≦Zω及びZω≦Xω(θ0)に変動を制限するリミッタを入れても良い。このリミッタには、逆フィルタの各段階で制限をかける逐次処理と、逆フィルタをかけおわった後で制限をかける後処理との2種類の処理が考えられるが、0≦Zωを逐次処理、Zω≦Xω(θ0) を後処理とするのが好適であることが、経験的にわかっている。
【0035】
図6は、上記のように構成された雑音抑圧処理部30による処理の流れを説明するフローチャートである。
図6を参照すると、まず音声入力部10にて入力された音声データが雑音抑圧処理部30に入力され(ステップ601)、遅延和処理部31による遅延和処理が行われる(ステップ602)。ここでは、N本のマイクロフォンにて構成されたマイクロフォン・アレイ111(音声入力部10)のn番目のマイクロフォンにおけるt番目のサンプリングのPCM(Pulse Coded Modulation)音声データを、変数s(n,t)に格納するものとする。
【0036】
遅延和処理部31は、遅延量をサンプル点数で表現する。この遅延量にサンプリング周波数を掛けたものが実際の遅延時間となる。変化させる遅延量の刻み幅をΔθサンプルとし、正の方向および負の方向それぞれにM段階に変化させるとすると、最大遅延量はM×Δθサンプル、最小遅延量は−M×Δθサンプルとなる。この場合、m段階目の遅延和出力は、次の数4式で表される値となる。
【数4】
(m=−M〜+Mの整数)
ただし、上記数4式では、音声の収録環境としてマイクロフォン間隔一定、遠距離音場を想定している。これ以外の場合は、公知の遅延和マイクロフォン・アレイ111の理論により、指向性方向を片側M段階に変化させたときのm番目の遅延和出力をx(m,t)に構成するようにする。
【0037】
次に、フーリエ変換部32によるフーリエ変換処理が行われる(ステップ603)。
フーリエ変換部32は、時間領域の音声データx(m,t)を、短時間の音声フレーム間隔ごとに切り出し、フーリエ変換により周波数領域の音声データに変換する。そしてさらに、周波数領域の音声データを周波数帯域ごとのパワー分布Xω,i(m)に変換する。ここで、添え字ωは各周波数帯域の代表周波数を表している。また、添え字iは音声フレームの番号を表す。サンプリング点数で表した音声フレーム間隔をframe_sizeとすると、t=i×frame_sizeの関係がある。
【0038】
観測された空間特性Xω,i(m)は、プロファイル・フィッティング部33に渡されるが、プロファイル・フィッティング部33での前処理として時間方向の平滑化を行う場合には、平滑化前の空間特性をX* ω ,i(m)、フィルタ幅をW、フィルタ係数をCjとして、次の数5式で表される値となる。
【数5】
次に、プロファイル・フィッティング部33による成分分解処理が行われる(ステップ604)。
かかる処理のために、プロファイル・フィッティング部33には、フーリエ変換部32から取得した、観測された空間特性Xω ,i(m)、音源位置探索部20で推定された音源位置情報m0、方向m0で表される方向からの音源に対する既知の方向性音源空間特性Pω(m0,m)、及び無指向性背景音に対する既知の空間特性Qω(m)が入力される。ここでは、既知の空間特性も観測された空間特性と同様に方向のパラメータmを片側M段階のサンプリング点数単位で採っている。
【0039】
目的方向の方向性音源空間特性の重み係数αω、無指向性背景音空間特性の重み係数βωを、次の数6式にて求める。ただし、式中で、添え字ω、iは省略されている。処理は、周波数帯域ωごと、及び音声フレームiごとに実行する。
【数6】
ただし、αとβは負の数であってはならないので、
α<0ならば、α=0、β=a4/a0
β<0ならば、β=0、α=a3/a1
とする。
【0040】
次に、スペクトル再構成部34によるスペクトル再構成処理が行われる(ステップ605)。
スペクトル再構成部34は、プロファイル・フィッティング部33による成分分解の結果に基づいて、雑音が抑圧された周波数領域の音声出力データZω ,iを次のように求める。
まず、プロファイル・フィッティング部33において平滑化処理を行わなかった場合は、そのまま、Zω ,i=Yω ,iとなる。
Yω ,i=αω ,i・Pω ,i(m0,m0)
一方、プロファイル・フィッティング部33において平滑化処理を行った場合は、次の数7式で表される変動制限付きの逆平滑化を行ってZω ,iを求める。
【数7】
この音声出力データZω ,iは、処理結果として音声認識部40へ出力される(ステップ606)。
【0041】
さて、上述した雑音抑圧処理部30では、時間領域の音声データを入力として処理を行っていたが、周波数領域の音声データを入力として処理を行うことも可能である。
図7は、周波数領域の音声データを入力とする場合の雑音抑圧処理部30の構成を示す図である。
図7に示すように、この場合、雑音抑圧処理部30には、図2に示した時間領域の処理を行う遅延和処理部31に代えて、周波数領域の処理を行う遅延和処理部36が設けられる。遅延和処理部36にて周波数領域の処理が行われるので、フーリエ変換部32は不要となる。
遅延和処理部36は、周波数領域の音声データを受け取り、予め設定された所定の位相遅延量で遅延させ、足し会わせる。図7には、設定された位相遅延量(最小位相遅延量、・・・、−Δθ、0、+Δθ、・・・、最大位相遅延量)ごとに遅延和処理部36が複数記載されている。例えば、マイクロフォン・アレイ111におけるマイクロフォンどうしの間隔が一定であり、位相遅延量を+Δθとした場合、n番目のマイクロフォンにて収録された音声データは、(n-1)×Δθ だけ位相を遅延させる。そして、N個の音声データを同様に遅延させた上で、足し合わせる。この処理を、最小位相遅延量から最大位相遅延量までの予め設定された各位相遅延量について行う。なお、この位相遅延量は、マイクロフォン・アレイ111の指向性を向ける方向に相当する。したがって、遅延和処理部36の出力は、図3に示した構成の場合と同様に、マイクロフォン・アレイ111の指向性を最小角度から最大角度まで段階的に変化させたときの、各段階における音声データとなる。
【0042】
また、遅延和処理部36は、指向性を向ける角度ごとに、周波数帯域ごとの音声パワー分布を出力する。この出力は、周波数帯域ごとに整理してプロファイル・フィッティング部33に渡される。以下、プロファイル・フィッティング部33及びスペクトル再構成部34の処理は、図3に示した雑音抑圧処理部30の場合と同様である。
【0043】
次に、本実施の形態における音源位置探索部20について説明する。
図8は、本実施の形態の音声認識システムにおける音源位置探索部20の構成を示す図である。
図8を参照すると、音源位置探索部20は、遅延和処理部21と、フーリエ変換部22と、プロファイル・フィッティング部23と、残差評価部24とを備える。また、プロファイル・フィッティング部23は、空間特性データベース50に接続されている。これらの構成のうち、遅延和処理部21及びフーリエ変換部22の機能は,図3に示した雑音抑圧処理部30における遅延和処理部31及びフーリエ変換部32と同様である。また、空間特性データベース50には、様々な音源位置からホワイトノイズ等を鳴らして観測された空間特性が、音源位置ごとに格納されている。
【0044】
プロファイル・フィッティング部23は、フーリエ変換部22から渡された音声パワー分布を短時間平均し、周波数ごとに空間特性の観測値を作成する。そして、得られた観測値を、既知の空間特性に近似的に成分分解する。この際、方向性音源空間特性Pω(θ0,θ)として、空間特性データベース50に格納されている全ての方向性音源空間特性を順番に選択して適用し、数2式を中心とする上述の手法により、係数αωとβωとを求める。係数αωとβωとが求まれば、数2式に代入することにより、評価関数Φωの残差を求めることができる。得られた周波数帯域ωごとの評価関数Φωの残差は、残差評価部24へ渡される。
【0045】
残差評価部24は、プロファイル・フィッティング部23から受け取った周波数帯域ωごとの評価関数Φωの残差を合計する。その際、音源位置探索の精度を高めるために高周波帯域に重みをかけて合計しても良い。この合計残差が最小になる時に選択された既知の方向性音源空間特性が、推定された音源位置を表している。すなわち、この既知の方向性音源空間特性を測定した時の音源位置が、ここで推定すべき音源位置である。
【0046】
図9は、上記のように構成された音源位置探索部20による処理の流れを説明するフローチャートである。
図9を参照すると、まず音声入力部10にて入力された音声データが音源位置探索部20に入力され(ステップ901)、遅延和処理部21による遅延和処理、フーリエ変換部22によるフーリエ変換処理が行われる(ステップ902、903)。これらの処理は、図6を参照して説明した音声データの入力(ステップ601)、遅延和処理(ステップ602)及びフーリエ変換処理(ステップ603)と同様であるので、ここでは説明を省略する。
【0047】
次に、プロファイル・フィッティング部23による処理が行われる。
プロファイル・フィッティング部23は、まず、成分分解で使用する既知の方向性音源空間特性として、空間特性データベース50に格納されている既知の方向性音源空間特性の中から順に異なるものを選択する(ステップ904)。具体的には、方向m0からの音源に対する既知の方向性音源空間特性Pω(m0,m)のm0を変えることに相当する。そして、選択された既知の方向性音源空間特性について成分分解処理が行われる(ステップ905、906)。
【0048】
プロファイル・フィッティング部23による成分分解処理では、図6を参照して説明した成分分解処理(ステップ604)と同様の処理により、目的方向の方向性音源空間特性の重み係数αω、無指向性背景音空間特性の重み係数βωが求められる。そして、求まった目的方向の方向性音源空間特性の重み係数αω、無指向性背景音空間特性の重み係数βωを用い、次の数8式により評価関数の残差が求められる(ステップ907)。
【数8】
この残差は、現在選択されている既知の方向性音源空間特性と関係付けられて、空間特性データベース50に保管される。
【0049】
ステップ904乃至ステップ907の処理を繰り返し、空間特性データベース50に格納されている全ての既知の方向性音源空間特性を試したならば、次に、残差評価部24による残差評価処理が行われる(ステップ905、908)。
具体的には、次の数9式により、空間特性データベース50に保管されている残差を周波数帯域ごとに重みをつけて合計する。
【数9】
ここで、C(ω)は重み係数である。簡単には全て1で良い。
そして、このΦALLを最小にする既知の方向性音源空間特性が選択され、位置情報として出力される(ステップ909)。
【0050】
上述したように、雑音抑圧処理部30の機能と、音源位置探索部20の機能とは独立しているので、音声認識システムを構成するに当たり、両方を上述した本実施の形態による構成としても良いし、どちらか一方のみを上述した本実施の形態による構成要素とし、他方は従来の技術を用いても良い。
いずれか一方を本実施の形態による構成要素とする場合、例えば上述した雑音抑圧処理部30を用いる場合は、収録音声を音源からの音の成分と背景雑音による音の成分とに分解して音源からの音の成分を抽出し、音声認識部40による認識が行われることにより、音声認識の精度の向上を図ることができる。
また、本実施の形態の音源位置探索部20を用いる場合は、背景雑音を考慮して特定の音源位置からの音における空間特性と収録音声の空間特性とを比較することにより、正確な音源位置の推定を行うことができる。
さらに、本実施の形態の音源位置探索部20及び雑音抑圧処理部30を両方用いる場合は、正確な音源位置の推定と音声認識の精度向上とを期待できるのみならず、空間特性データベース50と、遅延和処理部21、31やフーリエ変換部22、32を共用できることとなり効率的である。
【0051】
本実施の形態による音声認識システムは、話者とマイクロフォンとの間に距離がある環境でも雑音を効率的に除去して高精度な音声認識を実現するのに寄与するため、コンピュータやPDA、携帯電話などの電子情報機器に対する音声入力や、ロボットその他の機械装置との音声による対話など、多くの音声入力環境で使用することができるものである。
【0052】
〔第2の実施の形態〕
第2の実施の形態では、収録音声に関してエイリアシングの影響のような大きな観測誤差が含まれることが避けられない場合を対象として、音声データをモデル化した上で最尤推定を行うことにより、雑音の減少を図る。
本実施の形態の構成及び動作の説明に先立って、エイリアシングの問題について具体的に説明する。
図17は、2チャンネル・マイクロフォン・アレイでエイリアスの発生する状況を説明する図である。
図17に示すように、2本のマイクロフォン1711、1712を約30cmの間隔で配置し、正面0°に信号音源1720を配置し、右約40°に雑音源1730を1個配置したケースを考える。この場合、使用するビームフォーマとして2チャンネル・スペクトラムサブトラクション法を想定すると、理想的には、主ビームフォーマでは、信号音源1720の音波は同相化されて強化されるのに対し、左右のマイクロフォン1711、1712に同時に到達しない雑音源1730の音波は、同相化されずに弱化される。また、副ビームフォーマでは、信号音源1720の音波は、逆位相で足し合わされるためにキャンセルされ、ほとんど残らないのに対し、雑音源1730の音波は、元々同相化されていないものを逆位相で足し合わせるので、キャンセルされずに出力に残る。
【0053】
しかし、特定の周波数では、異なる状況となる場合がある。図17のような構成では、雑音源1730の音波は左のマイクロフォン1712に約0.5ミリ秒遅れて到達する。したがって、約2000(=1÷0.0005)Hzの音波は、ちょうど一周期遅れて、同相化されることとなる。すなわち、主ビームフォーマで、その雑音成分は弱化されず、また、副ビームフォーマの出力で残るべき雑音成分が残らなくなってしまうこの現象は、その特定周波数(この場合は2000Hz)の倍音(=N×2000Hz)でも発生する。これにより、抽出される音声データにエイリアス(ノイズ)が含まれてしまう。本実施の形態では、このエイリアスが発生する特定の周波数で、より精度の高い、雑音成分の推定を実現する。
第2の実施の形態による音声認識システム(装置)は、第1の実施の形態と同様に、図1に示すようなコンピュータ装置にて実現される。
【0054】
図10は、本実施の形態による音声認識システムの構成を示す図である。
図10に示すように、本実施の形態による音声認識システムは、音声入力部210と、音源位置探索部220と、雑音抑圧処理部230と、分散計測部240と、最尤推定部250と、音声認識部260とを備えている。
上記の構成において、音源位置探索部220、雑音抑圧処理部230、分散計測部240、最尤推定部250及び音声認識部260は、図1に示したメインメモリ103に展開されたプログラムにてCPU101を制御することにより実現される仮想的なソフトウェアブロックである。CPU101を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。本実施の形態では、図1に示したネットワークインターフェイス106やフロッピーディスクドライブ108、図示しないCD−ROMドライブなどを介して当該プログラムを入力し、ハードディスク105に格納する。そして、ハードディスク105に格納されたプログラムをメインメモリ103に読み込んで展開し、CPU101にて実行することにより、図10に示した各構成要素の機能を実現する。なお、プログラム制御されたCPU101にて実現される各構成要素の間でのデータの受け渡しは、当該CPU101のキャッシュメモリやメインメモリ103を介して行われる。
【0055】
音声入力部210は、N個のマイクロフォンにより構成されたマイクロフォン・アレイ111及びサウンドカード110にて実現され、音声を収録する。収録された音声は、電気的な音声データに変換されて音源位置探索部220へ渡される。なお、エイリアシングの問題が、マイクロフォンの数が2個の場合に顕著に現れることから、以下では音声入力部210が2個のマイクロフォンを備える(すなわち、2個の音声データが収録される)ものとして説明する。
音源位置探索部220は、音声入力部10にて同時収録された2個の音声データから、目的音声の音源位置(音源方向)を推定する。音源位置探索部220で推定された音源位置情報と音声入力部210から取得した2個の音声データとは、雑音抑圧処理部230へ渡される。
雑音抑圧処理部230は、収録音声の中から所定の雑音成分を推定して減算する種類のビームフォーマである。すなわち、音源位置探索部220から受け取った音源位置情報と2個の音声データとを用いて、目的音声以外の音源位置から到来する音声を極力排除(雑音抑圧)した1個の音声データを出力する。ビームフォーマの種類としては、第1の実施の形態に示したプロファイル・フィッティングにより雑音成分を除去するものでも良いし、従来から用いられている2チャンネル・スペクトラムサブトラクションにより雑音成分を除去するものでも良い。雑音抑圧された1個の音声データは、分散計測部240及び最尤推定部250へ渡される。
【0056】
分散計測部240は、雑音抑圧処理部230にて処理された音声データを入力し、雑音抑圧された当該入力音声が雑音区間(音声フレーム中で目的音声のない区間)である場合は観測誤差分散を計測する。また、当該入力音声が音声区間(音声フレーム中で目的音声のある区間)である場合はモデル化誤差分散を計測する。観測誤差分散、モデル化誤差分散及びこれらの計測方法の詳細については後述する。
最尤推定部250は、分散計測部240から観測誤差分散及びモデル化誤差分散を入力し、雑音抑圧処理部230にて処理された音声データを入力して、最尤推定値を算出する。最尤推定値及びその計算方法の詳細については後述する。算出された最尤推定値は、音声認識部260へ渡される。
音声認識部260は、最尤推定部250にて算出された最尤推定値を用いて、音声を文字に変換し、その文字を出力する。
なお、本実施の形態では、各構成要素間の音声データの受け渡しに周波数領域のパワー値(パワースペクトラム)を想定している。
【0057】
次に、本実施の形態における、収録音声に対するエイリアシングの影響を減少させる手法について説明する。
第1の実施の形態に示したプロファイル・フィッティング法や、従来から用いられている2チャンネル・スペクトラムサブトラクション法をはじめとする、雑音成分を推定してスペクトル減算を行うタイプのビームフォーマの出力では、エイリアシングの問題が起こる特定の周波数のパワーを中心に、時間方向に平均がゼロで大きな分散の誤差を含んでいる。そこで、所定の音声フレームについて、周波数方向のサブバンドごとに、隣接サブバンド数点に渡って信号パワーを平均化した解を考える。この解をスムージング解と呼ぶ。音声のスペクトラム包絡は連続的に変化すると考えられるので、この周波数方向の平均化により、混入する誤差は平均化されて小さくなると期待できる。
しかし、このスムージング解は、上記の定義から、スペクトラム分布が鈍るという性質を持つため、スペクトラムの構造を正確に表現しているとは言いがたい。すなわち、スムージング解そのものを音声認識に用いたとしても、良い音声認識結果は得られない。
【0058】
そこで、本実施の形態は、収録音声の観測値そのものと、上述したスムージング解との線形補間を考える。そして、観測誤差が小さい周波数では観測値寄りの値を使用し、観測誤差が大きい周波数ではスムージング解寄りの値を使用する。このときに使用する値として推定される値が最尤推定値である。したがって、最尤推定値としては、信号に雑音がほとんど含まれていないS/N(信号・ノイズ比)の高いケースでは、ほぼ全周波数領域で、観測値に極めて近い値が使用されることになる。また、雑音が多く含まれるS/Nの低いケースでは、エイリアシングが起こる特定の周波数を中心に、スムージング解に近い値が使用されることになる。
【0059】
以下、この最尤推定値を算出する処理の詳細な内容を定式化する。
所定の対象を観測する際に大きな観測誤差が避けられない場合に備え、観測対象を何らかの形でモデル化した上で、最尤推定を行う。本実施の形態では、観測対象の音声モデルとして「スペクトラム包絡は連続的に変化する」という性質を利用し、スペクトラムの周波数方向のスムージング解を定義する。
状態方程式を次の数10式のように定める。
【数10】
ここで、S ̄は、主ビームフォーマに含まれる目的音声のパワーSを隣接サブバンド数点にわたって平均化したスムージング解である。Yは、スムージング解からの誤差であり、モデル化誤差と呼ぶ。また、ωは周波数、Tは音声フレームの時系列番号である。
【0060】
観測値であるビームフォーマの出力(パワースペクトル)をZとすると、観測方程式は、次の数11式のように定義される。
【数11】
ここで、Vは観測誤差である。この観測誤差は、エイリアスが発生する周波数で大きい。観測値Zが得られたとき、目的音声のパワーSにおける条件付確率分布P(S|Z)は、ベイズの公式により、次の数12式で与えられる。
【数12】
この時、観測誤差Vが大きい場合は、モデルによる推定値S ̄を使い、観測誤差Vが小さい場合は、観測値Zそのものを使うのが合理的な推定となる。
【0061】
そのようなSの最尤推定値は、次の数13式乃至数16式にて与えられる。
【数13】
【数14】
【数15】
【数16】
ここで、qはモデル化誤差Yの分散、rは観測誤差Vの分散である。なお、数15、16式において、Y、Vの平均値はゼロと仮定した。ここで、E[]ω,Tは、分散計測の範囲を例示する図11に示すように、ω、Tの周りのm×n点の期待値を取る操作を表す。ωi、Tjは、m×n中の各点を表している。
【0062】
数13式では、スムージング解S ̄は直接求まらないが、観測誤差Vのスムージング解V ̄は、平均化によりゼロに近い値になると仮定し、次の数17式のように、観測値Zのスムージング解Z ̄で代用する。
【数17】
観測誤差分散rについては、まず定常であることを仮定し、r(ω)とする。雑音区間では目的音声のパワーSがゼロであるので、観測値Zを観測することにより、数11、16式から求めることができる。この場合、分散を計測する操作の範囲は、図11の範囲(a)のようになる。
モデル化誤差分散qについては、モデル化誤差Yが直接観測できないので、次の数18式で与えられるfを観測することにより推定する。
【数18】
ここでは、モデル化誤差Y、観測誤差Vが無相関であると仮定した。既に観測誤差分散rが求まっているので、音声区間でfを観測することにより、数18式からモデル化誤差分散qを求めることができる。この場合、分散を計測する操作の範囲は、図11の範囲(b)のようになる。
【0063】
本実施の形態では、以上の処理を、分散計測部240及び最尤推定部250により行う。
図12は、分散計測部240の動作を説明するフローチャートである。
図12に示すように、分散計測部240は、雑音抑圧処理部230から音声フレームTの雑音抑圧処理後のパワースペクトルZ(ω,T)を取得すると(ステップ1201)、当該音声フレームTが音声区間に属するのか雑音区間に属するのか判断する(ステップ1202)。音声フレームTに対する判断は、従来から公知の方法を用いて行うことができる。
入力した音声フレームTが雑音区間であった場合、分散計測部240は、上述した数11、16式により、観測誤差分散r(ω)を過去の履歴と合わせて再計算(更新)する(ステップ1203)。
一方、入力した音声フレームTが音声区間であった場合、分散計測部240は、まず数17式により観測値であるパワースペクトルZ(ω,T)からスムージング解S ̄(ω,T)を作成する(ステップ1204)。そして、数18式により、モデル化誤差分散q(ω,T)を再計算(更新)する。更新された観測誤差分散r(ω)、または更新されたモデル化誤差分散q(ω,T)及び作成されたスムージング解S ̄(ω,T)は、最尤推定部250へ渡される(ステップ1206)。
【0064】
図13は、最尤推定部250の動作を説明するフローチャートである。
図13に示すように、最尤推定部250は、雑音抑圧処理部230から音声フレームTの雑音抑圧処理後のパワースペクトルZ(ω,T)を取得し(ステップ1301)、さらに分散計測部240から当該音声フレームTにおける観測誤差分散r(ω)、モデル化誤差分散q(ω,T)及びスムージング解S ̄(ω,T)を取得する(ステップ1302)。
そして、最尤推定部250は、取得した各データを用いて、数13式により、最尤推定値S^(ω,T)を算出する(ステップ1303)。算出された最尤推定値S^(ω,T)は、音声認識部260へ渡される(ステップ1304)。
【0065】
図14は、音声認識システムとして、2チャンネル・スペクトラムサブトラクション・ビームフォーマを用い、これに本実施の形態を適用した構成を示す図である。
図14に示す2チャンネル・スペクトラムサブトラクション・ビームフォーマは、重みを適応的にかける方法である2チャンネル・アダプティブ・スペクトラムサブトラクション(2 Channel Adaptive Spectrum Subtraction)法を使用するビームフォーマである。
図14において、2つのマイクロフォン(図ではマイクと表記)1401、1402が図10に示した音声入力部210に対応し、主ビームフォーマ1403、副ビームフォーマ1404が音源位置探索部220及び雑音抑圧処理部230としての機能を実現する。すなわち、この2チャンネル・スペクトラムサブトラクション・ビームフォーマは、2つのマイクロフォン1401、1402によって収録された音声に関し、目的音源方向に指向性を向けた主ビームフォーマ1403の出力から目的音源方向に死角を構成した副ビームフォーマ1404の出力をスペクトルサブトラクション(減算)する。副ビームフォーマ1404は、目的音源の音声信号が含まれていない雑音成分のみの信号を出力するとみなされる。主ビームフォーマ1403の出力と副ビームフォーマ1404の出力とは、それぞれ高速フーリエ変換(FFT:Fast Fourier Transform)され、所定の重み(Weight(ω):W(ω))を着けて減算が行われた後、分散計測部240、最尤推定部250による処理を経て、逆高速フーリエ変換(I-FFT:Inverse Fast Fourier Transform)されて音声認識部260へ出力される。当然ながら、音声認識部260が周波数領域のデータを入力として受け付ける場合には、この逆高速フーリエ変換は省略することができる。
【0066】
主ビームフォーマ1403の出力パワースペクトルをM1(ω,T)、副ビームフォーマ1404の出力パワースペクトルをM2(ω,T)とする。主ビームフォーマ1403に含まれる信号パワーをS、雑音パワーをN1、副ビームフォーマに含まれる雑音パワーをN2とすると、次のような関係がある。
M1(ω,T)=S(ω,T)+N1(ω,T)
M2(ω,T)=N2(ω,T)
ここでは、信号と雑音は無相関であると仮定している。
【0067】
主ビームフォーマ1403の出力から副ビームフォーマ1404の出力を、重み係数W(ω)を掛けて減算すると、その出力Zは、
Z(ω,T)=M1(ω,T)−W(ω)・M2(ω,T)
=S(ω,T)+{N1(ω,T)−W(ω)・N2(ω,T)}
と表される。重みW(ω)は、E[ ]を期待値操作として、
E[[N1(ω,T)−W(ω)・N2(ω,T)]2]
を最小とするように学習される。
図15は、例として、雑音源を右40°に1個配置した時の学習済みの重み係数W(ω)を示す図である。
図15を参照すると、特定の周波数で、特に大きな値を持つことがわかる。このような周波数では、上式で期待される雑音成分のキャンセルの精度が著しく低下する。すなわち、観測される主ビームフォーマ1403の出力パワーS(ω,T)の値に大きな誤差を伴うこととなる。
【0068】
そこで、上述した数10、11式のように状態方程式及び観測方程式を定める。この時、観測誤差V(ω,T)は、次のように定義される。
V(ω,T)=N1(ω,T)・W(ω)・N2(ω,T)
そして、分散計測部240及び最尤推定部250が、上述した数13乃至数16式により最尤推定値を算出する。
これにより、主ビームフォーマ1403の出力パワーS(ω,T)の値に大きな誤差を伴わない場合、すなわち、収録音声に信号にエイリアシングによる雑音がほとんど含まれていない場合には、観測値に近い最尤推定値が逆高速フーリエ変換されて音声認識部260へ出力される。一方、主ビームフォーマ1403の出力パワーS(ω,T)の値に大きな誤差を伴う場合、すなわち、収録音声に信号にエイリアシングによる雑音が多く含まれている場合には、当該エイリアシングが起こる特定の周波数を中心としてスムージング解に近い最尤推定値が逆高速フーリエ変換されて音声認識部260へ出力される。
【0069】
図16は、音声認識システムとして、図14に示した2チャンネル・スペクトラムサブトラクション・ビームフォーマを備えたコンピュータ装置の外観を例示する図である。
図16に示すコンピュータ装置は、ディスプレイ(LCD)1610の上部にステレオマイクロフォン1621、1622が設けられている。このステレオマイクロフォン1621、1622は、図14に示したマイクロフォン1401、1402に相当し、これを図10に示した音声入力部210として用いる。そして、プログラム制御されたCPUにより、音源位置探索部220及び雑音抑圧処理部230として機能する主ビームフォーマ1403、副ビームフォーマ1404と、分散計測部240及び最尤推定部250の機能とを実現する。これにより、エイリアシングの影響を極力減少させた音声認識が可能となる。
【0070】
なお、上記において本実施の形態は、特に2チャンネルのビームフォーマにおいて顕著に発生するエイリアシングによる雑音を減少させる場合を例として説明したが、本実施の形態によるスムージング解及び最尤推定を用いた雑音除去の技術は、その他、2チャンネル・スペクトラムサブトラクションや第1の実施の形態によるプロファイル・フィッティング等の手法でも除去できない種々の雑音を減少させるためにも用いることができるのは言うまでもない。
【0071】
【発明の効果】
以上説明したように、本発明によれば、収録音声から目的方向音源以外の背景雑音を効率良く除去し、高精度の音声認識を実現することができる。
また、本発明によれば、ビームフォーマにおけるエイリアシングの影響のような避けがたい雑音を効果的に抑制する方法及びこれを用いたシステムを提供することができる。
【図面の簡単な説明】
【図1】 第1の実施の形態による音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図2】 図1に示したコンピュータ装置にて実現される第1の実施の形態による音声認識システムの構成を示す図である。
【図3】 第1の実施の形態の音声認識システムにおける雑音抑圧処理部の構成を示す図である。
【図4】 第1の実施の形態で用いられる音声パワー分布の例を示す図である。
【図5】 予め測定された方向性音源空間特性及び無指向性背景音に対する空間特性と収録音声の空間特性との関係を模式的に表す図である。
【図6】 第1の実施の形態における雑音抑圧処理部による処理の流れを説明するフローチャートである。
【図7】 周波数領域の音声データを入力とする場合の雑音抑圧処理部の構成を示す図である。
【図8】 第1の実施の形態の音声認識システムにおける音源位置探索部の構成を示す図である。
【図9】 第1の実施の形態における音源位置探索部による処理の流れを説明するフローチャートである。
【図10】 第2の実施の形態による音声認識システムの構成を示す図である。
【図11】 第2の実施の形態による分散計測の範囲を例示する図である。
【図12】 第2の実施の形態における分散計測部の動作を説明するフローチャートである。
【図13】 第2の実施の形態における最尤推定部250の動作を説明するフローチャートである。
【図14】 第2の実施の形態による音声認識システムを2チャンネル・スペクトラムサブトラクション・ビームフォーマに適用した構成を示す図である。
【図15】 第2の実施の形態において、雑音源を右40°に1個配置した時の学習済みの重み係数W(ω)を示す図である。
【図16】 図14に示した2チャンネル・スペクトラムサブトラクション・ビームフォーマを備えたコンピュータ装置の外観を例示する図である。
【図17】 2チャンネル・マイクロフォン・アレイでエイリアスの発生する状況を説明する図である。
【図18】 マイクロフォン・アレイを使用した従来の音声認識システムの構成を概略的に示した図である。
【符号の説明】
10、210…音声入力部、20、220…音源位置探索部、21、31、36…遅延和処理部、22、32…フーリエ変換部、23、33…プロファイル・フィッティング部、24…残差評価部、30、230…雑音抑圧処理部、34…スペクトル再構成部、40、260…音声認識部、50…空間特性データベース、101…CPU、102…M/Bチップセット、103…メインメモリ、105…ハードディスク、110…サウンドカード、111…マイクロフォン・アレイ、240…分散計測部、250…最尤推定部
Claims (9)
- 音声を収録するマイクロフォン・アレイと、
想定される種々の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性及び無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性を格納したデータベースと、
前記マイクロフォン・アレイにて収録された音声の音源方向を推定する音源位置探索部と、
前記音源位置探索部にて推定された前記音源方向と前記データベースに格納された前記基準音及び前記背景音の前記空間特性とを用いて、前記収録された音声における前記推定された音源方向の成分の音声データを抽出する雑音抑圧処理部と、
前記音源方向の成分の音声データの認識処理を行う音声認識部と
を備えることを特徴とする音声認識装置。 - 前記雑音抑圧処理部は、前記収録された音声の特性と前記基準音及び前記背景音の前記空間特性とを比較し、比較結果に基づいて前記収録された音声の特性を前記音源方向の音の成分と無指向性の背景音の成分とに分解し、前記音源方向の音の成分の音声データを抽出することを特徴とする請求項1に記載の音声認識装置。
- 音声を収録するマイクロフォン・アレイと、
想定される種々の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性及び無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性を格納したデータベースと、
前記マイクロフォン・アレイにて収録された音声の特性と前記データベースに格納された前記基準音及び前記背景音の前記空間特性とを比較することにより、前記収録された音声の音源方向を推定する音源位置探索部と、
前記音源位置探索部にて推定された音源方向の成分の音声データの認識処理を行う音声認識部と
を備えることを特徴とする音声認識装置。 - 前記音源位置探索部は、所定の音声入力方向ごとに、前記基準音及び前記背景音の前記空間特性を合成して得られた空間特性と前記収録された音声の特性とを比較し、比較結果に基づいて所定の基準音の音源位置を当該収録された音声の音源方向として推定することを特徴とする請求項3に記載の音声認識装置。
- コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識する音声認識方法において、
前記マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、
前記メモリに格納された音声データに基づいて、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、
前記メモリに格納された推定結果と予め測定された所定の音声に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性とに基づいて、前記収録された音声の特性を、推定された音源位置から発せられた音の成分と、無指向性の背景音の成分とに分解処理し、処理結果に基づいて前記収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、
前記メモリに格納された前記音源方向の成分の音声データに基づいて、前記収録された音声を認識する音声認識ステップとを含み、
前記雑音抑圧ステップは、
想定される種々の音源方向から発せられた基準音の前記空間特性及び無指向性の背景音の前記空間特性を格納した記憶装置から、前記音源方向の推定結果に合致する音源方向から発せられた前記基準音及び前記背景音の空間特性を読み出すステップと、
読み出された前記空間特性を適当な重み付けを施して合成し、前記収録された音声の特性に近似させるステップと、
近似によって得られた前記基準音及び前記背景音の空間特性に関する情報に基づいて、前記メモリに格納された音声データのうち、前記推定された音源方向から発せられた成分を推定し抽出するステップとを含むことを特徴とする音声認識方法。 - コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識する音声認識方法において、
前記マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力ステップと、
予め測定された特定の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性と無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性とを合成して得られる空間特性を種々の音声入力方向に対して求め、前記メモリに格納された音声データから得られる収録された音声の特性と比較することにより、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索ステップと、
前記メモリに格納された音源方向の推定結果と前記音声データとに基づいて、前記収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧ステップと、
前記メモリに格納された前記背景音の成分を除去した音声データに基づいて、前記収録された音声を認識する音声認識ステップと
を含むことを特徴とする音声認識方法。 - 前記音源位置探索ステップは、
想定される種々の音源方向から発せられた基準音の前記空間特性及び無指向性の背景音の前記空間特性を格納した記憶装置から、前記音声入力方向ごとに前記基準音及び前記背景音の空間特性を読み出すステップと、
前記音声入力方向ごとに、読み出された前記空間特性を適当な重み付けを施して合成し、前記収録された音声の特性に近似させるステップと、
前記合成により得られた空間特性と前記収録された音声の特性とを比較し、誤差の小さい当該合成により得られた空間特性に対応する基準音の音源方向を、当該収録された音声の音源方向として推定するステップと
を含むことを特徴とする請求項6に記載の音声認識方法。 - コンピュータを制御して、マイクロフォン・アレイを用いて収録された音声を認識するプログラムにおいて、
前記マイクロフォン・アレイを用いて音声を収録し、音声データをメモリに格納する音声入力処理と、
予め測定された特定の音源方向から発せられた基準音に関する周波数帯域ごとの前記マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性と無指向性の背景音に関する周波数帯域ごとの当該マイクロフォン・アレイに対する角度別の音声パワー分布である空間特性とを合成して得られる空間特性を種々の音声入力方向に対して求め、前記メモリに格納された音声データから得られる収録された音声の特性と比較することにより、収録された音声の音源方向を推定し、推定結果をメモリに格納する音源位置探索処理と、
前記メモリに格納された音源方向の推定結果と前記音声データとに基づいて、前記収録された音声における推定された音源方向の成分の音声データを抽出してメモリに格納する雑音抑圧処理と、
前記メモリに格納された前記背景音の成分を除去した音声データに基づいて、前記収録された音声を認識する音声認識処理と
を前記コンピュータに実行させることを特徴とするプログラム。 - 前記音源位置探索処理は、
想定される種々の音源方向から発せられた基準音の前記空間特性及び無指向性の背景音の前記空間特性を格納した記憶装置から、前記音声入力方向ごとに前記基準音及び前記背景音の空間特性を読み出す処理と、
前記音声入力方向ごとに、読み出された前記空間特性を適当な重み付けを施して合成し、前記収録された音声の特性に近似させる処理と、
前記合成により得られた空間特性と前記収録された音声の特性とを比較し、誤差の小さい当該合成により得られた空間特性に対応する基準音の音源方向を、当該収録された音声の音源方向として推定する処理と
を含むことを特徴とする請求項8に記載のプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002272318A JP4195267B2 (ja) | 2002-03-14 | 2002-09-18 | 音声認識装置、その音声認識方法及びプログラム |
US10/386,726 US7478041B2 (en) | 2002-03-14 | 2003-03-12 | Speech recognition apparatus, speech recognition apparatus and program thereof |
US12/236,588 US7720679B2 (en) | 2002-03-14 | 2008-09-24 | Speech recognition apparatus, speech recognition apparatus and program thereof |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002-70194 | 2002-03-14 | ||
JP2002070194 | 2002-03-14 | ||
JP2002272318A JP4195267B2 (ja) | 2002-03-14 | 2002-09-18 | 音声認識装置、その音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003337594A JP2003337594A (ja) | 2003-11-28 |
JP4195267B2 true JP4195267B2 (ja) | 2008-12-10 |
Family
ID=28043711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002272318A Expired - Lifetime JP4195267B2 (ja) | 2002-03-14 | 2002-09-18 | 音声認識装置、その音声認識方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US7478041B2 (ja) |
JP (1) | JP4195267B2 (ja) |
Families Citing this family (134)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4000095B2 (ja) * | 2003-07-30 | 2007-10-31 | 株式会社東芝 | 音声認識方法、装置及びプログラム |
US7613532B2 (en) * | 2003-11-10 | 2009-11-03 | Microsoft Corporation | Systems and methods for improving the signal to noise ratio for audio input in a computing system |
DE602004021716D1 (de) * | 2003-11-12 | 2009-08-06 | Honda Motor Co Ltd | Spracherkennungssystem |
DE102004010850A1 (de) * | 2004-03-05 | 2005-09-22 | Siemens Ag | Bedien- und Beobachtungssystem mit Klanggenerator zur Erzeugung von kontinuierlichen Klangmustern |
JP4873913B2 (ja) * | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
JP4204541B2 (ja) * | 2004-12-24 | 2009-01-07 | 株式会社東芝 | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム |
DE602005008005D1 (de) * | 2005-02-23 | 2008-08-21 | Harman Becker Automotive Sys | Spracherkennungssytem in einem Kraftfahrzeug |
JP4761506B2 (ja) * | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | 音声処理方法と装置及びプログラム並びに音声システム |
DE602006018897D1 (de) * | 2005-05-05 | 2011-01-27 | Sony Computer Entertainment Inc | Videospielsteuerung mittels Joystick |
KR20060127452A (ko) * | 2005-06-07 | 2006-12-13 | 엘지전자 주식회사 | 로봇청소기 상태알림장치 및 방법 |
US7689248B2 (en) * | 2005-09-27 | 2010-03-30 | Nokia Corporation | Listening assistance function in phone terminals |
US7813923B2 (en) * | 2005-10-14 | 2010-10-12 | Microsoft Corporation | Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset |
US7565288B2 (en) * | 2005-12-22 | 2009-07-21 | Microsoft Corporation | Spatial noise suppression for a microphone array |
WO2007080886A1 (ja) * | 2006-01-11 | 2007-07-19 | Nec Corporation | 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム |
US7903825B1 (en) * | 2006-03-03 | 2011-03-08 | Cirrus Logic, Inc. | Personal audio playback device having gain control responsive to environmental sounds |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP5070873B2 (ja) * | 2006-08-09 | 2012-11-14 | 富士通株式会社 | 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム |
JP4660740B2 (ja) * | 2006-09-13 | 2011-03-30 | 独立行政法人産業技術総合研究所 | 電動車椅子搭載用音声入力装置 |
ATE424329T1 (de) * | 2006-10-02 | 2009-03-15 | Harman Becker Automotive Sys | Sprachsteuerung von fahrzeugelementen von ausserhalb einer fahrzeugkabine |
US8233353B2 (en) * | 2007-01-26 | 2012-07-31 | Microsoft Corporation | Multi-sensor sound source localization |
JP4623027B2 (ja) * | 2007-03-06 | 2011-02-02 | 三菱電機株式会社 | 測距装置及び測位装置並びに測距方法及び測位方法 |
KR101141033B1 (ko) * | 2007-03-19 | 2012-05-03 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 스피치 개선을 위한 노이즈 분산 추정기 |
JP5156260B2 (ja) * | 2007-04-27 | 2013-03-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム |
DE112007003603T5 (de) * | 2007-08-03 | 2010-07-01 | FUJITSU LIMITED, Kawasaki-shi | Tonempfangsanordnung, Richtcharakteristik-Ableitungsverfahren, Richtcharakteristik-Ableitungsvorrichtung und Computerprogramm |
US8194871B2 (en) * | 2007-08-31 | 2012-06-05 | Centurylink Intellectual Property Llc | System and method for call privacy |
JP5089295B2 (ja) | 2007-08-31 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理システム、方法及びプログラム |
US8538492B2 (en) * | 2007-08-31 | 2013-09-17 | Centurylink Intellectual Property Llc | System and method for localized noise cancellation |
WO2009038136A1 (ja) * | 2007-09-19 | 2009-03-26 | Nec Corporation | 雑音抑圧装置、その方法及びプログラム |
US8335308B2 (en) * | 2007-10-31 | 2012-12-18 | Centurylink Intellectual Property Llc | Method, system, and apparatus for attenuating dual-tone multiple frequency confirmation tones in a telephone set |
KR101415026B1 (ko) * | 2007-11-19 | 2014-07-04 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 |
US9392360B2 (en) | 2007-12-11 | 2016-07-12 | Andrea Electronics Corporation | Steerable sensor array system with video input |
US8249867B2 (en) * | 2007-12-11 | 2012-08-21 | Electronics And Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
WO2009076523A1 (en) | 2007-12-11 | 2009-06-18 | Andrea Electronics Corporation | Adaptive filtering in a sensor array system |
US8150054B2 (en) * | 2007-12-11 | 2012-04-03 | Andrea Electronics Corporation | Adaptive filter in a sensor array system |
JP4926091B2 (ja) * | 2008-02-19 | 2012-05-09 | 株式会社日立製作所 | 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
KR101442172B1 (ko) * | 2008-05-14 | 2014-09-18 | 삼성전자주식회사 | 검색 공간 클러스터링 방법을 이용한 실시간srp-phat 음원 위치 탐색 시스템 및 제어방법 |
US8300801B2 (en) * | 2008-06-26 | 2012-10-30 | Centurylink Intellectual Property Llc | System and method for telephone based noise cancellation |
JP5334037B2 (ja) * | 2008-07-11 | 2013-11-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音源の位置検出方法及びシステム |
US8023660B2 (en) | 2008-09-11 | 2011-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
BRPI0913460B1 (pt) | 2008-09-11 | 2024-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais |
JP5134477B2 (ja) * | 2008-09-17 | 2013-01-30 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
US8073634B2 (en) * | 2008-09-22 | 2011-12-06 | University Of Ottawa | Method to extract target signals of a known type from raw data containing an unknown number of target signals, interference, and noise |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
KR101041039B1 (ko) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
US8248885B2 (en) * | 2009-07-15 | 2012-08-21 | National Semiconductor Corporation | Sub-beam forming receiver circuitry for ultrasound system |
FR2948484B1 (fr) * | 2009-07-23 | 2011-07-29 | Parrot | Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
DK2478502T3 (en) | 2009-09-16 | 2016-08-29 | Nobak Danmark Aps | A system and method for motivating and / or encourage people to wash hands |
US9154730B2 (en) * | 2009-10-16 | 2015-10-06 | Hewlett-Packard Development Company, L.P. | System and method for determining the active talkers in a video conference |
US8924220B2 (en) * | 2009-10-20 | 2014-12-30 | Lenovo Innovations Limited (Hong Kong) | Multiband compressor |
EP2492912B1 (en) * | 2009-10-21 | 2018-12-05 | Panasonic Intellectual Property Corporation of America | Sound processing apparatus, sound processing method and hearing aid |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
CN102483918B (zh) * | 2009-11-06 | 2014-08-20 | 株式会社东芝 | 声音识别装置 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US20110153320A1 (en) * | 2009-12-18 | 2011-06-23 | Electronics And Telecommunications Research Institute | Device and method for active noise cancelling and voice communication device including the same |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) * | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
KR20140061285A (ko) * | 2010-08-11 | 2014-05-21 | 본 톤 커뮤니케이션즈 엘티디. | 사생활 보호 및 개인적 사용을 위한 배경 소리 제거 시스템, 방법 및 매체 |
US20120045068A1 (en) * | 2010-08-20 | 2012-02-23 | Korea Institute Of Science And Technology | Self-fault detection system and method for microphone array and audio-based device |
JP5573517B2 (ja) * | 2010-09-07 | 2014-08-20 | ソニー株式会社 | 雑音除去装置および雑音除去方法 |
JP2012149906A (ja) * | 2011-01-17 | 2012-08-09 | Mitsubishi Electric Corp | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム |
US20140163671A1 (en) * | 2011-04-01 | 2014-06-12 | W. L. Gore & Associates, Inc. | Leaflet and valve apparatus |
GB2493327B (en) | 2011-07-05 | 2018-06-06 | Skype | Processing audio signals |
US9685172B2 (en) * | 2011-07-08 | 2017-06-20 | Goertek Inc | Method and device for suppressing residual echoes based on inverse transmitter receiver distance and delay for speech signals directly incident on a transmitter array |
US20130034237A1 (en) * | 2011-08-04 | 2013-02-07 | Sverrir Olafsson | Multiple microphone support for earbud headsets |
GB2495472B (en) | 2011-09-30 | 2019-07-03 | Skype | Processing audio signals |
GB2495130B (en) | 2011-09-30 | 2018-10-24 | Skype | Processing audio signals |
GB2495128B (en) | 2011-09-30 | 2018-04-04 | Skype | Processing signals |
GB2495131A (en) | 2011-09-30 | 2013-04-03 | Skype | A mobile device includes a received-signal beamformer that adapts to motion of the mobile device |
GB2495129B (en) | 2011-09-30 | 2017-07-19 | Skype | Processing signals |
GB2495278A (en) * | 2011-09-30 | 2013-04-10 | Skype | Processing received signals from a range of receiving angles to reduce interference |
GB2496660B (en) | 2011-11-18 | 2014-06-04 | Skype | Processing audio signals |
GB201120392D0 (en) | 2011-11-25 | 2012-01-11 | Skype Ltd | Processing signals |
JP6267860B2 (ja) * | 2011-11-28 | 2018-01-24 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声信号送信装置、音声信号受信装置及びその方法 |
GB2497343B (en) | 2011-12-08 | 2014-11-26 | Skype | Processing audio signals |
KR101305373B1 (ko) * | 2011-12-16 | 2013-09-06 | 서강대학교산학협력단 | 관심음원 제거방법 및 그에 따른 음성인식방법 |
US9111542B1 (en) * | 2012-03-26 | 2015-08-18 | Amazon Technologies, Inc. | Audio signal transmission techniques |
US20130282372A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9767828B1 (en) * | 2012-06-27 | 2017-09-19 | Amazon Technologies, Inc. | Acoustic echo cancellation using visual cues |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
JP5997007B2 (ja) * | 2012-10-31 | 2016-09-21 | 日本電信電話株式会社 | 音源位置推定装置 |
WO2014113739A1 (en) * | 2013-01-18 | 2014-07-24 | Syracuse University | Spatial localization of intermittent noise sources by acoustic antennae |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
JP2014219467A (ja) * | 2013-05-02 | 2014-11-20 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
KR102282366B1 (ko) | 2013-06-03 | 2021-07-27 | 삼성전자주식회사 | 음성 향상 방법 및 그 장치 |
US9530407B2 (en) | 2014-06-11 | 2016-12-27 | Honeywell International Inc. | Spatial audio database based noise discrimination |
WO2016033269A1 (en) * | 2014-08-28 | 2016-03-03 | Analog Devices, Inc. | Audio processing using an intelligent microphone |
WO2016033364A1 (en) | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
KR102351366B1 (ko) * | 2015-01-26 | 2022-01-14 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
KR102444061B1 (ko) * | 2015-11-02 | 2022-09-16 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
US9898847B2 (en) * | 2015-11-30 | 2018-02-20 | Shanghai Sunson Activated Carbon Technology Co., Ltd. | Multimedia picture generating method, device and electronic device |
CN107437420A (zh) * | 2016-05-27 | 2017-12-05 | 富泰华工业(深圳)有限公司 | 语音信息的接收方法、系统及装置 |
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
CN106708041B (zh) * | 2016-12-12 | 2020-12-29 | 西安Tcl软件开发有限公司 | 智能音箱、智能音箱定向移动方法及装置 |
CN106782591B (zh) * | 2016-12-26 | 2021-02-19 | 惠州Tcl移动通信有限公司 | 一种在背景噪音下提高语音识别率的装置及其方法 |
US10311889B2 (en) * | 2017-03-20 | 2019-06-04 | Bose Corporation | Audio signal processing for noise reduction |
CN107146614B (zh) * | 2017-04-10 | 2020-11-06 | 北京猎户星空科技有限公司 | 一种语音信号处理方法、装置及电子设备 |
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) * | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
KR102338376B1 (ko) | 2017-09-13 | 2021-12-13 | 삼성전자주식회사 | 디바이스 그룹을 지정하기 위한 전자 장치 및 이의 제어 방법 |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
CN110035355B (zh) * | 2018-01-12 | 2022-06-07 | 北京京东尚科信息技术有限公司 | 麦克风阵列输出声源的方法、系统、设备及存储介质 |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US20190324117A1 (en) * | 2018-04-24 | 2019-10-24 | Mediatek Inc. | Content aware audio source localization |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
US11501761B2 (en) | 2019-04-05 | 2022-11-15 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN112216295B (zh) * | 2019-06-25 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | 一种声源定位方法、装置及设备 |
CN112565531B (zh) * | 2020-12-12 | 2021-08-13 | 深圳波导智慧科技有限公司 | 一种应用于多人语音会议的录音方法和设备 |
CN112727704B (zh) * | 2020-12-15 | 2021-11-30 | 北京天泽智云科技有限公司 | 一种叶片前缘腐蚀的监测方法及系统 |
CN112837703B (zh) * | 2020-12-30 | 2024-08-23 | 深圳市联影高端医疗装备创新研究院 | 医疗成像设备中语音信号获取方法、装置、设备和介质 |
CN112992140B (zh) * | 2021-02-18 | 2021-11-16 | 珠海格力电器股份有限公司 | 智能设备的控制方法、装置、设备及存储介质 |
CN114203167B (zh) * | 2021-12-28 | 2025-01-24 | 深圳大学 | 一种基于分布式阵列的语音数据训练方法、识别方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6262399A (ja) * | 1985-09-13 | 1987-03-19 | 株式会社日立製作所 | 音声高能率符号化方式 |
US5400434A (en) * | 1990-09-04 | 1995-03-21 | Matsushita Electric Industrial Co., Ltd. | Voice source for synthetic speech system |
IT1257164B (it) * | 1992-10-23 | 1996-01-05 | Ist Trentino Di Cultura | Procedimento per la localizzazione di un parlatore e l'acquisizione diun messaggio vocale, e relativo sistema. |
JP3424757B2 (ja) * | 1992-12-22 | 2003-07-07 | ソニー株式会社 | 音源信号推定装置 |
US5335011A (en) * | 1993-01-12 | 1994-08-02 | Bell Communications Research, Inc. | Sound localization system for teleconferencing using self-steering microphone arrays |
US5704007A (en) * | 1994-03-11 | 1997-12-30 | Apple Computer, Inc. | Utilization of multiple voice sources in a speech synthesizer |
US5574824A (en) * | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
US5737431A (en) * | 1995-03-07 | 1998-04-07 | Brown University Research Foundation | Methods and apparatus for source location estimation from microphone-array time-delay estimates |
US5828997A (en) * | 1995-06-07 | 1998-10-27 | Sensimetrics Corporation | Content analyzer mixing inverse-direction-probability-weighted noise to input signal |
JP3522954B2 (ja) | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
US6987856B1 (en) * | 1996-06-19 | 2006-01-17 | Board Of Trustees Of The University Of Illinois | Binaural signal processing techniques |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
JP3795610B2 (ja) | 1997-01-22 | 2006-07-12 | 株式会社東芝 | 信号処理装置 |
DE19712632A1 (de) * | 1997-03-26 | 1998-10-01 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten |
FI114422B (fi) * | 1997-09-04 | 2004-10-15 | Nokia Corp | Lähteen puheaktiviteetin tunnistus |
US6137887A (en) * | 1997-09-16 | 2000-10-24 | Shure Incorporated | Directional microphone system |
JP4163294B2 (ja) | 1998-07-31 | 2008-10-08 | 株式会社東芝 | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2001075594A (ja) | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
JP3582712B2 (ja) | 2000-04-19 | 2004-10-27 | 日本電信電話株式会社 | 収音方法および収音装置 |
JP3514714B2 (ja) | 2000-08-21 | 2004-03-31 | 日本電信電話株式会社 | 収音方法およびその装置 |
US7617099B2 (en) * | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
US7206418B2 (en) * | 2001-02-12 | 2007-04-17 | Fortemedia, Inc. | Noise suppression for a wireless communication device |
EP1253581B1 (en) * | 2001-04-27 | 2004-06-30 | CSEM Centre Suisse d'Electronique et de Microtechnique S.A. - Recherche et Développement | Method and system for speech enhancement in a noisy environment |
EP1425738A2 (en) * | 2001-09-12 | 2004-06-09 | Bitwave Private Limited | System and apparatus for speech communication and speech recognition |
JP3940662B2 (ja) * | 2001-11-22 | 2007-07-04 | 株式会社東芝 | 音響信号処理方法及び音響信号処理装置及び音声認識装置 |
US20030125959A1 (en) * | 2001-12-31 | 2003-07-03 | Palmquist Robert D. | Translation device with planar microphone array |
-
2002
- 2002-09-18 JP JP2002272318A patent/JP4195267B2/ja not_active Expired - Lifetime
-
2003
- 2003-03-12 US US10/386,726 patent/US7478041B2/en active Active
-
2008
- 2008-09-24 US US12/236,588 patent/US7720679B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7478041B2 (en) | 2009-01-13 |
JP2003337594A (ja) | 2003-11-28 |
US20030177006A1 (en) | 2003-09-18 |
US7720679B2 (en) | 2010-05-18 |
US20090076815A1 (en) | 2009-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
US10123113B2 (en) | Selective audio source enhancement | |
JP4469882B2 (ja) | 音響信号処理方法及び装置 | |
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
Goh et al. | Kalman-filtering speech enhancement method based on a voiced-unvoiced speech model | |
US8374854B2 (en) | Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
US8467538B2 (en) | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium | |
JP4173641B2 (ja) | 音声活動に基づくゲイン制限による音声強化 | |
US8244547B2 (en) | Signal bandwidth extension apparatus | |
JP2005249816A (ja) | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム | |
US20080310646A1 (en) | Audio signal processing method and apparatus for the same | |
US20040230428A1 (en) | Method and apparatus for blind source separation using two sensors | |
US20220068288A1 (en) | Signal processing apparatus, signal processing method, and program | |
JP2004502977A (ja) | サブバンド指数平滑雑音消去システム | |
CN108172231A (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
Neo et al. | Enhancement of noisy reverberant speech using polynomial matrix eigenvalue decomposition | |
CN115223583A (zh) | 一种语音增强方法、装置、设备及介质 | |
Doclo et al. | Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
US7957964B2 (en) | Apparatus and methods for noise suppression in sound signals | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
JP5034735B2 (ja) | 音処理装置およびプログラム | |
KR101537653B1 (ko) | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 | |
JP7159928B2 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050530 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060602 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060721 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20061110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080822 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4195267 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
EXPY | Cancellation because of completion of term |