JP4827661B2

JP4827661B2 - 信号処理方法及び装置

Info

Publication number: JP4827661B2
Application number: JP2006233763A
Authority: JP
Inventors: 猛大谷; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-08-30
Filing date: 2006-08-30
Publication date: 2011-11-30
Anticipated expiration: 2026-08-30
Also published as: US20080059162A1; US8738373B2; CN101136204B; EP1895514B1; CN101136204A; JP2008058480A; DE602006012831D1; EP1895514A3; EP1895514A2

Description

本発明は、信号処理方法及び装置に関し、特に雑音抑圧等の加工処理を周波数領域で施した後、時間領域の信号に戻して処理する時の信号処理方法及び装置に関するものである。

上記のような信号処理技術の従来例[1]及び[2]を、図14〜17を参照して以下に説明する。

従来例[1]：図14及び15
図14に示す雑音抑圧装置2は、音声信号である入力信号In(t)を所定長単位に分割して所定の窓関数を施すフレーム分割・窓掛部10と、このフレーム分割・窓掛部10から出力される窓掛フレーム信号W(t)を、振幅成分|X(f)|と位相成分argX(f)とから成る周波数スペクトルX(f)に変換する周波数スペクトル変換部20と、この周波数スペクトルX(f)の振幅成分|X(f)|に対して雑音抑圧処理を施す雑音抑圧部130と、雑音抑圧後の振幅成分|Xs(f)|と周波数スペクトルX(f)の位相成分argX(f)とを時間領域に変換する時間領域変換部40と、この時間領域変換部40から出力される時間領域フレーム信号Y(t)を合成するフレーム合成部60とで構成されている。

この雑音抑圧装置2の動作波形図が、図15に示されており、まずフレーム分割・窓掛部10が、入力信号In(t)を所定のフレーム長Lの前フレーム信号FRb(t)及び現フレーム信号FRp(t)(以下、符号FRで総称することがある。)に順次分割する。ここで、フレーム信号FRb(t)及びFRp(t)は、後述する雑音抑圧のための加工処理をより精度良く(すなわち、周波数スペクトルの分析をより細かく)行わせるため、入力信号In(t)から互いに一部重複するようにフレームシフト長ΔLだけずらして切り出したものである。

さらに、フレーム分割・窓掛部10は、フレーム信号FRb(t)及びFRp(t)に所定の窓関数w(t)を以下の式(1)に従って順次施して窓掛フレーム信号W(t)を出力する(ステップT1)。
・W(t) ＝ FR(t)＊w(t) (t＝0〜L) …式(1)

ここで、この窓関数w(t)は、例えば図示のように、各フレーム信号FR(t)の両端の振幅を等しく“0”にし、各フレーム信号FR(t)の重複部分で互いの寄与度の和が“1”になるように設定されている。

以下、前フレーム信号FRb(t)に対応して得られた窓掛フレーム信号Wb(t)を例に取って、周波数スペクトル変換部20、雑音抑圧部130、及び時間領域変換部40の動作を説明する。これは、現フレーム信号FRp(t)に対応する窓掛フレーム信号Wp(t)についても同様に適用される。

周波数スペクトル変換部20は、MDCT(Modified Discrete Cosine Transform)やFFT(Fast Fourier Transform)等の直交変換手法を用いて、窓掛フレーム信号Wb(t)を周波数スペクトルX(f)に変換し、その振幅成分|X(f)|を雑音抑圧部130に与え、位相成分argX(f)を時間領域変換部40に与える。

そして、雑音抑圧部130は、振幅成分|X(f)|中に含まれる雑音成分を抑圧し、雑音抑圧後の振幅成分|Xs(f)|を時間領域変換部40に与える(ステップT2)。

周波数スペクトルX(f)の位相成分argX(f)及び雑音抑圧後振幅成分|Xs(f)|を受けた時間領域変換部40は、これらを時間領域に変換(逆直交変換)して求めた時間領域フレーム信号Yb(t)をフレーム合成部60に与える(ステップT3)。

そして、時間領域フレーム信号Yb(t)、及びこれと同様にして求めた現フレーム信号FRp(t)に対応する時間領域フレーム信号Yp(t)を受けたフレーム合成部60は、これらの時間領域フレーム信号Yb(t)及びYp(t)を以下の式(2)のように加算合成し、出力信号Out(t)を得る(ステップT4)。
・Out(t) ＝ Y(t−ΔL)＋Y(t) …式(2)
＝ Yb(t)＋Yp(t)

このように、入力信号In(t)から雑音成分を抑圧した出力信号Out(t)を得ることが可能となる。

しかしながら、上記のステップT2における雑音抑圧処理に伴って、時間領域フレーム信号Yb(t)又はYp(t)のフレーム両端の振幅が、図示のように“0”より大きくなったり又は小さくなったりして、フレーム端の振幅がズレる場合がある。この場合、このような従来例[1]においては、出力信号Out(t)が時間領域フレーム信号Yb(t)及びYp(t)の境界B1及びB2で不連続となり異音を発生させてしまうという問題がある。

この問題に対処するため、以下に説明する従来例[2]が既に提案されている。

従来例[2]：図16及び17
図16に示す雑音抑圧装置2は、上記の従来例[1]で示した構成に加えて、時間領域変換部40とフレーム合成部60との間に接続され、時間領域フレーム信号Y(t)に後窓関数を施した後窓掛フレーム信号Wa(t)を出力する後窓掛部140を備えている。

動作においては、図17に示すように、後窓掛部140が、上記の従来例[1]と同様にして得た時間領域フレーム信号Yb(t)及びYp(t)に所定の後窓関数wa(t)を、以下の式(3)及び(4)に従って順次施して後窓掛フレーム信号Wab(t)及びWap(t)を出力する(ステップT5)。
・Wab(t) ＝ Yb(t)＊wa(t) …式(3)
・Wap(t) ＝ Yp(t)＊wa(t) …式(4)

ここで、この後窓関数wa(t)は、図示のように、時間領域フレーム信号Yb(t)及びYp(t)のフレーム両端の振幅を再び“0”にするように(すなわち、時間領域フレーム信号Yb(t)及びYp(t)の境界B1及びB2で振幅が連続になるように)設定されている。

そして、フレーム合成部60は、これらの後窓掛フレーム信号Wab(t)及びWap(t)を以下の式(5) のように加算合成し、出力信号Out(t)を得る(ステップT6)。
・Out(t) ＝ Wa(t−ΔL)＋Wa(t) …式(5)
＝ Wab(t)＋Wap(t)

このように、時間領域フレーム信号Yb(t)及びYp(t)をその境界B1及びB2で連続に接続した出力信号Out(t)を得ることが可能となる(例えば、特許文献1参照。)。

なお、参考例として、上記の従来例[2]と同様に後窓関数を用いて、エコー抑圧処理を施した周波数スペクトルを時間領域に変換して得た各フレーム信号を連続に接続するエコー抑圧装置もある(例えば、特許文献2参照。)。
特許第3626492号公報特開2000-252891号公報

上記の従来例[2]では、後窓関数を用いてフレーム信号を順次補正することにより補正後の各フレーム信号を連続に接続することは可能であるが、後窓関数をフレーム信号の振幅成分に乗算するため、言い換えると、フレーム信号中に含まれる全ての周波数成分に対応する振幅成分|Xs(f)|を補正してしまうため、図18に示すように、後窓関数処理後のフレーム信号Wa(t)の周波数スペクトル振幅成分|Xa(f)|(実線で図示。)が、後窓関数処理前のフレーム信号Y(t)の周波数スペクトル振幅成分|Xs(f)|(点線で図示。)に比べて全周波数帯域において鈍ってしまい、フレーム信号全体に歪みが発生してしまうという課題がある。

一般に、周波数fが20Hz〜20kHzである高周波数帯域は聴覚感度が高いとされるため、特にこの高周波数帯域において発生するフレーム信号の歪みは音質の劣化につながる。

従って、本発明は、雑音抑圧等の加工処理を施した周波数スペクトルを時間領域のフレーム信号へ変換する際に生じるフレーム端振幅のズレを、出来るだけフレーム信号に歪みを発生させずに補正することが可能な信号処理方法及び装置を提供することを目的とする。

[1]上記の目的を達成するため、本発明の一態様に係る信号処理方法(又は装置)は、所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１ステップ(又は手段)と、該第２フレーム信号と同一のフレーム長を有する予め定めた補正用信号の両端の振幅と、該第２フレーム信号のフレーム両端又は片端の振幅との差分が小さくなるように調整すると共に、該第２フレーム信号から該調整した補正用信号を減算することにより補正フレーム信号を算出する第２ステップ(又は手段)と、を備え、該補正用信号は、複数の周波数成分を有する時間信号を加算したものであり、その合成波形による関数の周波数成分が、該第２フレーム信号における補正すべき低周波数成分に対応していることを特徴とする。

すなわち、第１ステップ(又は手段)で第１フレーム信号の周波数スペクトルに所定の加工処理を施し、且つ時間領域に変換して得た第２フレーム信号は、従来と同様、そのフレーム両端の振幅が“0”より大きく又は小さくなる場合がある。

このため、第２ステップ(又は手段)では、予め定めた補正用信号の両端の振幅と該第２フレーム信号のフレーム両端又は片端の振幅との差分が小さくなるように調整し、該調整した補正用信号を該第２フレーム信号から減算する。

ここで、該補正用信号は、該第２フレーム信号と同一のフレーム長を有していれば良く、複数の周波数成分を有する時間信号を加算したものであり、その合成波形による関数の周波数成分が、該第２フレーム信号における補正すべき低周波数成分に対応している。

すなわち、該補正用信号の振幅成分は、複数の周波数成分から成るものであるため、上記の調整及び減算により、該第２フレーム信号のフレーム両端又は片端の振幅は“0”、或いはほぼ“0”に近い値となり、且つ該補正用関数中に含まれる周波数成分に対応する振幅成分のみの減少又は増加という補正がなされることになる。

従って、該第２フレーム信号に生じるフレーム端振幅のズレを、フレーム信号全体に歪みを発生させることなく補正することが可能である。

特に、例えば該第１フレーム信号が音声信号から得られたものであって、該補正用信号の振幅成分が聴覚感度が低いとされる周波数帯域の成分のみを含む場合、音質の劣化を発生させること無く、該第２フレーム信号に生じるフレーム端振幅のズレを補正することができる。

[3]また、上記[1]において、該補正用信号の振幅成分が直流成分のみを含む場合、該補正に伴うフレーム信号の歪みを最小限に留めることができる。

[4]また、上記の目的を達成するための本発明の一態様に係る信号処理方法(又は装置)は、所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１ステップ(又は手段)と、該周波数スペクトルと該第２フレーム信号とを入力して、該第２フレーム信号からフレーム両端又は片端の振幅を除去した信号のパワーと該周波数スペクトルのパワーとの差分の平方根で与えられる振幅補正量を求め、該振幅補正量を該周波数スペクトル中の直流成分又は低周波数成分の振幅に加算して該直流成分又は低周波数成分に対する補正振幅成分を求める第２ステップ(又は手段)と、該補正振幅成分を時間領域に変換して補正フレーム信号を算出する第３ステップ(又は手段)とを備えたことを特徴とする。

すなわち、第２ステップ(又は手段)では、第３ステップ(又は手段)における時間領域変換に先立って、振幅成分を補正した周波数スペクトルを時間領域に変換させたフレーム信号が、該第２フレーム信号のフレーム両端又は片端の振幅を小さくしたフレーム信号と同等になるように、周波数領域で補正を行う。

ここで、該補正は、該所定の加工処理が施された周波数スペクトル中の直流成分又は低周波数成分に対応する振幅成分に対して行う。

すなわち、補正後の周波数スペクトルを時間領域に変換して得たフレーム信号は、そのフレーム両端又は片端の振幅が“0”、或いはほぼ“0”に近い値となり、且つ該補正の対象とした周波数成分に対応する振幅成分のみが補正されたものとなる。

従って、上記[1]と同様、該第２フレーム信号に生じるフレーム端振幅のズレを、フレーム信号全体に歪みを発生させることなく補正することが可能である。

特に、該低周波数帯域が聴覚感度が低いとされる周波数帯域に設定される場合、上記[2]と同様、音質の劣化を発生させること無く、該第２フレーム信号に生じるフレーム端振幅のズレを補正することができる。

[7]また、上記[1]又は[4]において、該第１ステップ(又は手段)が、該第１フレーム信号を周波数領域に変換して第１周波数スペクトルを発生するステップ(又は手段)と、該第１周波数スペクトルに該所定の加工処理を施した第２周波数スペクトルを発生するステップ(又は手段)と、該第２周波数スペクトルを時間領域に変換して該第２フレーム信号を発生するステップ(又は手段)とを含むようにしても良い。

[8]また、上記[1]又は[4]において、該第１ステップ(又は手段)の該所定の加工処理が、該第１フレーム信号の周波数スペクトルの振幅成分から雑音スペクトルを推定すると共に、該雑音スペクトルに基づき該第１フレーム信号の周波数スペクトルの振幅成分中の雑音を抑圧するものであっても良い。

[9]また、上記[1]又は[4]において、該第１ステップ(又は手段)の該所定の加工処理が、該所定の窓関数を施した参照フレーム信号の周波数スペクトルの振幅成分と、該第１フレーム信号の周波数スペクトルの振幅成分とを比較してエコーを抑圧するための抑圧係数を算出すると共に、該抑圧係数を該第１フレーム信号の周波数スペクトルの振幅成分に乗算するものであっても良い。

[10]また、上記[1]又は[4]において、該第１フレーム信号が、音声信号又は音響信号に該所定の窓関数を施したものであり、該所定の加工処理が、該第１フレーム信号の周波数スペクトルに対する符号化であり、該第１ステップ(又は手段)が、該符号化された周波数スペクトルを時間領域に変換することにより復号化して該第２フレーム信号を発生するステップ(又は手段)を含むようにしても良い。

[11]また、上記[1]又は[4]において、該第１フレーム信号が、任意の文字列を分析して生成された複数の表音文字列の内の一の表音文字列に対応する音素片であって、予測される全ての表音文字列とこれらに対応する音素片とを記録した音声辞書から抽出され且つ該所定の窓関数が施されたものであり、該第１フレーム信号と互いに一部重複して隣接するフレーム信号が、該複数の表音文字列の内の他の表音文字列に対応する音素片であって、該音声辞書から抽出され且つ該所定の窓関数が施されたものであり、該所定の加工処理が、各表音文字列から生成された長さ及びピッチから各音素片の接続順序を決定し、該接続順序に基づき各音素片の周波数スペクトルを互いに滑らかに接続するための振幅補正係数を算出すると共に、各振幅補正係数を各音素片の周波数スペクトルの振幅成分に乗算するものであっても良い。

上記[8]〜[11]のように、種々のフレーム信号を入力し、また、その周波数スペクトルに種々の加工処理を施す場合であっても、時間領域変換に伴って生じるフレーム端振幅のズレを、信号処理方法及び装置の構成を変更すること無く補正することが可能である。

[12]また、上記[1]又は[4]において、該フレーム信号が隣接するフレーム信号と互いに一部重複しており、現フレーム信号に対して該補正を行って得たフレーム信号と、該現フレーム信号の直前のフレーム信号に対して該補正を行って得たフレーム信号との重複部分を加算合成するステップ(又は手段)をさらに備えるようにしても良い。

このように、互いに一部重複して隣接するフレーム信号の各々に対して、上記[1]又は[4]においてフレーム両端の振幅を実質的に“0”に補正した場合、各フレーム信号のフレーム両端の振幅はそれぞれ等しくなるため、各フレーム信号をその境界で連続させることができる。

また、上記[1]又は[4]において、各フレーム信号のフレーム片端の振幅を実質的に“0”に補正した場合には、連続にならないフレーム信号が存在し得るが、そのフレーム信号に生じていたフレーム端振幅のズレ自体は、上述した通り歪みを発生すること無く補正されているため、音質には影響を与えない。

本発明によれば、雑音抑圧等の加工処理を施した周波数スペクトルを時間領域のフレーム信号へ変換する際に生じるフレーム端振幅のズレを、出来るだけフレーム信号に歪みを発生させないように補正することができ、以てこれを適用する装置の出力信号の品質を向上させることができる。

また、フレーム信号の直流成分或いは低周波数帯域に対応する振幅成分のみを補正できるようにしたので、補正に伴うフレーム信号の品質劣化をより小さくすることができる。

さらに、種々のフレーム信号及び加工処理に対して本発明の構成を変更すること無く対応できるようにしたので、種々の装置に共通して適用することができ、以て開発コストを低減させることができる。

本発明に係る信号処理方法及びこれを使用する装置の実施例[1]及び[2]、並びにその応用例[1]〜[4]を、図1〜13を参照して以下の順に説明する。
I. 実施例[1]：図1〜6
I.1. 構成例：図1
I.2. 動作例：図2〜6
I.2.A. 全体動作例：図2
I.2.B. フレーム信号補正処理例(1)：図3及び4
I.2.C. フレーム信号補正処理例(2)：図5及び6
II. 実施例[2]：図4,6,7,及び8
II.1. 構成例：図7
II.2. 動作例：図4,6,8
III. 応用例：図9〜13
III.1. 応用例[1] (雑音抑圧装置)：図9
III.2. 応用例[2] (エコー抑圧装置)：図10
III.3. 応用例[3] (音声(又は音響)復号化装置)：図11
III.4. 応用例[4] (音声合成装置)：図12及び13

I.実施例[1]：図1〜6
I.1.構成例：図1
図1に示す本発明の実施例[1]に係る信号処理装置1は、入力信号In(t)を所定長単位に分割して所定の窓関数を施すフレーム分割・窓掛部10と、このフレーム分割・窓掛部10から出力される窓掛フレーム信号W(t)を、振幅成分|X(f)|と位相成分argX(f)とから成る周波数スペクトルX(f)に変換する周波数スペクトル変換部20と、この周波数スペクトルX(f)の振幅成分|X(f)|に所定の加工処理を施すための加工係数G(f)を乗算する乗算器30と、加工後の振幅成分|Xs(f)|と周波数スペクトルX(f)の位相成分argX(f)とを時間領域に変換する時間領域変換部40と、この時間領域変換部40から出力される時間領域フレーム信号Y(t)を所定の補正用信号を用いて補正する歪除去部50と、この歪除去部50から出力される補正フレーム信号Yc(t)を合成するフレーム合成部60とで構成されている。

ここで、乗算器30に入力される加工係数G(f)は、この信号処理装置1の用途に合わせて適宜設定することができる。

I.2.動作例：図2〜6
次に、図1に示した信号処理装置1の動作を説明するが、まずその全体動作例を、図2を参照して説明する。そして、歪除去部50のフレーム信号補正処理例(1)及び(2)を、図3〜6を参照して説明する。

I.2.A.全体動作例：図2
まず、図2に示す波形図において、フレーム分割・窓掛部10は、図14の従来例と同様、入力信号In(t)を所定のフレーム長Lの前フレーム信号FRb(t)及び現フレーム信号FRp(t)に順次分割し、フレーム信号FRb(t)及びFRp(t)に所定の窓関数w(t)を上述した式(1)に示すように順次乗算して窓掛フレーム信号W(t)を出力する(ステップS1)。

以下、前フレーム信号FRb(t)に対応して得られた窓掛フレーム信号Wb(t)を例に取って、周波数スペクトル変換部20、乗算器30、時間領域変換部40、及び歪除去部50の動作を説明する。これは、現フレーム信号FRb(t)に対応する窓掛フレーム信号Wp(t)についても同様に適用される。

周波数スペクトル変換部20は、従来例と同様の直交変換手法を用いて、窓掛フレーム信号Wb(t)を周波数スペクトルX(f)に変換し、その振幅成分|X(f)|を乗算器30に与え、位相成分argX(f)を時間領域変換部40に与える。

乗算器30は、以下の式(6)に示すように、振幅成分|X(f)|に加工係数G(f)を乗算(加工処理)して振幅成分|Xs(f)|を生成し、時間領域変換部40に与える(ステップS2)。
・|Xs(f)| ＝ G(f)＊|X(f)| …式(6)

位相成分argX(f)及び加工後の振幅成分|Xs(f)|を受けた時間領域変換部40は、従来例と同様にこれらを逆直交変換して時間領域フレーム信号Yb(t)を求め、このフレーム信号Yp(t)を歪除去部50に与える(ステップS3)。

歪除去部50は、この時間領域フレーム信号Yb(t)に対して後述するフレーム信号補正処理を行い、補正したフレーム信号Ycb(t)をフレーム合成部60に与える(ステップS4)。

そして、補正フレーム信号Ycb(t)、及びこれと同様にして求めた現フレーム信号FRp(t)に対応する補正フレーム信号Ycp(t)を受けたフレーム合成部60は、これらの補正フレーム信号Ycb(t)及びYcp(t)を以下の式(7)のように加算合成し、出力信号Out(t)を得る(ステップS5)。なお、ΔLは、上述した式(2)と同様、前フレーム信号FRb(t)に対する現フレームFRp(t)のシフト長を示す。
・Out(t) ＝ Yc(t−ΔL)＋Yc(t) …式(7)
＝ Ycb(t)＋Ycp(t)

I.2.B.フレーム信号補正処理例(1)：図3及び4
図3(i)は、歪除去部50で用いる補正用信号f(t)の一実施例を示している。この補正用信号f(t)は、時間領域フレーム信号Y(t)と同一のフレーム長Lを有しており、例えば図示のように、周波数f1の波形W1及び周波数f2の波形W2の合成波形で表されるものとする。また、この例では、補正用信号f(t)の両端の振幅f(0)及びf(L)を互いに異なる振幅値に設定している。もちろん、同一の振幅値であっても良い。

まず、歪除去部50は、同図(ii)に示すように、補正用信号f(t)の振幅成分を、振幅f(0)及びf(L)が、それぞれ、時間領域フレーム信号Y(t)のフレーム両端の振幅Y(0)及びY(L)に等しくなるように(f(0)＝Y(0),f(L)＝Y(L))調整し、調整後の補正用信号fa(t)を生成する。

ここで、上記のように振幅f(0)及びf(L)が互いに異なる振幅値に設定されている場合には、例えば、補正用信号f(t)の振幅成分から時間領域フレーム信号Y(t)の一方のフレーム端の振幅Y(0)を減算することにより振幅f(0)と振幅Y(0)とが等しくなるようにオフセットした後、補正用信号f(t)の振幅成分が、さらに時間領域フレーム信号Y(t)の他方のフレーム端の振幅Y(L)と等しくなるように種々の周知の近似法等を用いて調整する。

そして、歪除去部50は、以下の式(8)に示すように、時間領域フレーム信号Y(t)から調整後の補正用信号fa(t)を減算して補正した補正フレーム信号Yc(t)を求める。
・Yc(t) ＝ Y(t)−fa(t) …式(8)

上記の補正フレーム信号Yc(t)は、同図(iii)に示すようにフレーム両端の振幅が共に“0”となる。

ここで、上記の補正により、時間領域フレーム信号Y(t)から調整後補正用信号fa(t)に含まれる周波数成分に対応する振幅成分(すなわち、補正用信号f(t)に元々含まれていた周波数f1及びf2に対応する振幅成分を調整したもの)のみが減算されるため、図4に実線で示す補正後(補正フレーム信号Yc(t))の周波数スペクトル振幅成分|Xc(f)|は、同図に点線で示す補正前の周波数スペクトル振幅成分|Xs(f)|から、周波数f1及びf2に対応する振幅成分のみを周波数f1及びf2にそれぞれ対応した振幅補正量α1及びα2だけ増加又は減少させたものとなる。

I.2.C.フレーム信号補正処理例(2)：図5及び6
図5(i)に示す補正用信号f(t)は、上記のフレーム信号補正処理例(1)と異なり、その振幅成分が直流成分C₀のみを含むように設定されている。

歪除去部50は、同図(ii)に示すように、補正用信号f(t)の振幅成分を、補正用関数f(t)の両端の振幅f(0)及びf(L)が時間領域フレーム信号Y(t)のフレーム両端の振幅Y(0)及びY(L)に等しくなるように調整、すなわち、調整後補正用信号fa(t)を以下の式(9)のように設定する。
・fa(t) ＝ Y(0) …式(9)

そして、歪除去部50は、時間領域フレーム信号Y(t)を上述した式(8)に従って補正し、補正フレーム信号Yc(t)(＝Y(t)−Y(0))を求める。

上記の補正フレーム信号Yc(t)は、同図(iii)に示すように、補正フレーム信号Yc(t)の振幅成分を振幅Y(0)だけオフセットさせたものとなる。

また、図6に示すように、補正後(補正フレーム信号Yc(t))の周波数スペクトル振幅成分|Xc(f)|(実線で図示。)は、補正前の周波数スペクトル振幅成分|Xs(f)|(点線で図示。)の直流成分(f＝0)のみを振幅補正量αだけ変更させたものとなる。

なお、上記のフレーム信号補正処理例(1)及び(2)においては、補正用信号f(t)の両端の振幅を、時間領域フレーム信号Y(t)のフレーム両端の振幅に等しくなるように調整したが、時間領域フレーム信号Y(t)のフレーム片端の振幅Y(0)又はY(L)に等しくなるように調整することもでき、この場合も上記の説明は同様に適用される。

但し、補正フレーム信号Yc(t)のいずれか一端の振幅が“0”にならず、以て隣接する補正フレーム信号と不連続になり得るが、音声等のデジタル信号の場合は離散的な値を取るため(すなわち、誤差を有するため)、実質的に連続と見做すことができる。

II.実施例[2]：図4,6,7,及び8
II.1.構成例：図7
図7に示す本発明の実施例[2]に係る信号処理装置1は、上記の実施例[1]において、歪除去部50の代わりに、乗算器30と時間領域変換部40との間に接続され、時間領域フレーム信号Y(t)及び加工後振幅成分|Xs(f)|を入力して、加工後振幅成分|Xs(f)|を周波数領域で補正した補正振幅成分|Xc(f)|を出力する振幅成分調整部120を挿入すると共に、時間領域変換部40が補正振幅成分|Xc(f)|も入力する点が異なっている。

II.2.動作例：図4,6,8
次に、本実施例の動作を説明するが、時間領域変換部40及び振幅成分調整部120以外の動作は上記の実施例[1]と共通であるため、時間領域変換部40及び振幅成分調整部120の動作例のみを、図8を参照して説明する。また、以下の説明においては、上記の実施例[1]で用いた図4及び6を再び使用して説明する。

図8に示すように、まず、周波数スペクトルX(f)の位相成分argX(f)及び加工後振幅成分|Xs(f)|を受けた時間領域変換部40は、上記の実施例[1]と同様にこれらを逆直交変換して時間領域フレーム信号Y(t)を得る(ステップS10)。

そして、時間領域変換部40は、この時間領域フレーム信号Y(t)を振幅成分調整部120に与え、この振幅成分調整部120からの補正振幅成分|Xc(f)|の受信を待つ(ステップS11)。

時間領域変換部40からの時間領域フレーム信号Y(t)及び乗算器30からの加工後振幅成分|Xs(f)|を受けた振幅成分調整部120は、パーセバルの定理に基づき加工後振幅成分|Xs(f)|に対する振幅補正量αを算出する(ステップS20)。ここで、パーセバルの定理は、以下の式(10)に示すように、時間領域における信号のパワーと周波数領域におけるスペクトルのパワーとの間で成り立つ等号関係を示す式であり、両者が等しくない時の差分として振幅補正量αを用いている。

すなわち、上記の式(10)中の振幅補正量αのパワーα²は、時間領域フレーム信号Y(t)からフレーム端の振幅Y(0) (すなわち、Y(0)＝“0”であるフレーム信号)を除去した信号のパワー(右辺第１項)と、加工後振幅成分|Xs(f)|のパワー(右辺第２項)とが等しくなるように周波数領域におけるスペクトルのパワーを補正する値であるため、この平方根を取って求めた加工後振幅成分|Xs(f)|に対する振幅補正量αは、後述するように、時間領域フレーム信号Y(t)からフレーム端の振幅Y(0)を除去したフレーム信号と、補正振幅成分|Xc(f)|を時間領域に変換して得られた補正フレーム信号Yc(t)とを実質的に同一にする補正量として用いることができる。

また、時間領域フレーム信号Y(t)のフレーム両端の振幅Y(0)及びY(L)が互いに等しい場合には、振幅補正量αは、時間領域フレーム信号Y(t)からフレーム両端の振幅Y(0)及びY(L)を除去したフレーム信号(すなわち、Y(0)＝Y(L)＝“0”)と、補正フレーム信号Yc(t)とを実質的に同一にする補正量となる。

そして、振幅成分調整部120は、以下の式(11)に示すように、この振幅補正量αを加工後振幅成分|Xs(f)|の直流成分(f＝0)の振幅に加算して補正振幅成分|Xc(f)|の直流成分の振幅を求めると共に、以下の式(12)に示すように、加工後振幅成分|Xs(f)|の直流成分以外の周波数(f≠0)に対応する振幅成分を、そのまま補正振幅成分|Xc(f)|の直流成分以外の周波数に対応する振幅成分として求め(ステップS21)、この補正振幅成分|Xc(f)|を時間領域変換部40に与える(ステップS22)。
・|Xc(0)| ＝ |Xs(0)|＋α (f＝0) …式(11)
・|Xc(f)| ＝ |Xs(f)| (f≠0) …式(12)

これにより、補正振幅成分|Xc(f)|は、図6に示したものと同様、補正前の周波数スペクトル振幅成分|Xs(f)|に対して直流成分のみを振幅補正量αだけ変更したものとなる。

また、図4に示した補正振幅成分|Xc(f)|を得たい場合には、振幅成分調整部120は、振幅補正量αを、上記の式(10)及び(11)のように加工後振幅成分|Xs(f)|の直流成分の振幅のみに加算するのではなく、振幅補正量αを振幅補正量α1及びα2(α1＋α2＝α)に分割し、加工後振幅成分|Xs(f)|中の周波数f1及びf2に対応する両振幅にそれぞれ振幅補正量α1及びα2を加算することもできる。

そして、補正振幅成分|Xc(f)|を受けた時間領域変換部40は、上記の実施例[1]と同様にこれを逆直交変換して得たフレーム信号を、補正フレーム信号Yc(t)とする(ステップS12)と共に、この補正フレーム信号Yc(t)をフレーム合成部60に与える(ステップS13)。

これにより、上記の実施例[1]と同様の補正フレーム信号Yc(t)を得ることができ、各補正フレーム信号Yc(t)を加算合成した出力信号Out(t)を得ることができる。

III.応用例：図9〜13
以下、本発明の応用例[1]〜[4]を、図9〜13を参照して説明する。なお、下記の応用例の各装置は上記の実施例[1]の信号処理装置1(或いはその一部)を含むように構成されているが、これを上記の実施例[2]の信号処理装置1(或いはその一部)に代えて構成することもできる。

III.1.応用例[1] (雑音抑圧装置)：図9
図9に示す雑音抑圧装置2は、乗算器30での加工処理の一例として雑音抑圧処理を行うものであり、上記の実施例[1]の構成に加えて、信号処理装置1の周波数スペクトル変換部20から出力される振幅成分|X(f)|から雑音スペクトル|N(f)|を推定する雑音推定部70と、この雑音スペクトル|N(f)|及び振幅成分|X(f)|に基づき抑圧係数G(f)を算出して乗算器30に与える抑圧係数算出部80とを含むように構成されている。

動作においては、まず雑音推定部70が、振幅成分|X(f)|を受ける度毎に、振幅成分|X(f)|から雑音スペクトル|N(f)|を推定すると共に、振幅成分|X(f)|中に音声が含まれるか否かを判定する。

この結果、振幅成分|X(f)|中に音声が含まれていないと判定した時、雑音推定部70は、推定した雑音スペクトル|N(f)|を以下の式(13)に従って更新し、抑圧係数算出部80に与える。
・|N(f)| ＝ A＊|N(f)|＋(1−A)＊|X(f)| (Aは所定の定数) …式(13)
一方、振幅成分|X(f)|中に音声が含まれると判定した時には、雑音推定部70は、雑音スペクトル|N(f)|を更新しない。

そして、雑音スペクトル|N(f)|を受けた抑圧係数算出部80は、この雑音スペクトル|N(f)|及び振幅成分|X(f)|から以下の式(14)に従ってSN比(SNR(f))を算出する。
・SNR(f) ＝ |X(f)|／|N(f)| …式(14)

この抑圧係数算出部80は、さらに、このSNR(f)に応じた抑圧係数G(f)を算出して乗算器30に与える。

乗算器30では、この抑圧係数G(f)を周波数スペクトルX(f)の振幅成分|X(f)|に乗算して雑音抑圧処理を施す。時間領域変換部40で時間領域に変換した時間領域フレーム信号Y(t)は、上述した通り、そのフレーム両端の振幅がズレる場合があるが、上記の実施例[1](又は実施例[2])に示した歪除去部50によるフレーム信号補正処理(又は振幅成分調整部120による周波数スペクトルの振幅成分に対する補正)によりこれを補正することができる。

III.2.応用例[2] (エコー抑圧装置)：図10
図10に示すエコー抑圧装置3は、乗算器30での加工処理の一例としてエコー抑圧処理を行うものであり、上記の実施例[1]の構成に加えて、入力信号In(t)に対する参照信号Ref(f)を所定長単位に分割して所定の窓関数を施すフレーム分割・窓掛部10rと、このフレーム分割・窓掛部10rから出力される窓掛フレーム信号Wr(t)を、振幅成分|Xr(f)|と位相成分argXr(f)とから成る周波数スペクトルXr(f)に変換する周波数スペクトル変換部20rと、この周波数スペクトル変換部20rから出力される振幅成分|Xr(f)|と信号処理装置1の周波数スペクトル変換部20から出力される振幅成分|X(f)|とを入力して、エコーを抑圧するための抑圧係数G(f)を算出して乗算器30に与える抑圧係数算出部80とを含むように構成されている。

動作においては、フレーム分割・窓掛部10rが、信号処理装置1のフレーム分割・窓掛部10と同様にして窓掛フレーム信号Wr(t)を算出して周波数スペクトル変換部20rに与える。これを受けた周波数スペクトル変換部20rは、周波数スペクトル変換部20と同様にして周波数スペクトルXr(f)に変換する。

そして、周波数スペクトルX(f)及びXr(f)のそれぞれの振幅成分|X(f)|及び振幅成分|Xr(f)|を受けた抑圧係数算出部80は、両振幅成分を比較して類似度(図示せず)を算出し、この類似度に応じた抑圧係数G(f)を算出して乗算器30に与える。

そして、乗算器30が、振幅成分|X(f)|に抑圧係数G(f)を乗算してエコー抑圧処理を施し、時間領域変換部40が、エコー抑圧後の振幅成分|Xs(f)|を時間領域フレーム信号Y(t)に変換する。

この時間領域フレーム信号Y(t)は、雑音抑圧処理を施した場合と同様、そのフレーム両端の振幅がズレる場合がある。この場合も、上記の実施例[1](又は実施例[2])に示した歪除去部50によるフレーム信号補正処理(又は振幅成分調整部120による周波数スペクトルの振幅成分に対する補正)により補正を行うことができる。

III.3.応用例[3] (音声(又は音響)復号化装置)：図11
図11に示す音声(又は音響)復号化装置4は、上記の実施例[1]の信号処理装置1の内の時間領域変換部40、歪除去部50、及びフレーム合成部60で構成され、時間領域変換部40へ入力される符号化信号X(f)が、所定の符号化処理が施された振幅成分|Xs(f)|と位相成分argX(f)とから成る周波数スペクトルである点が、上記の実施例[1]と異なっている。

ここで、符号化信号X(f)は、送信側の符号化装置(図示せず)が、音声信号又は音響信号に窓関数を施したフレーム信号の周波数スペクトルX(f)の振幅成分|X(f)|を符号化処理したもの(すなわち、音声信号又は音響信号に対して信号処理装置1のフレーム分割・窓掛部10、周波数スペクトル変換部20、及び乗算器30と同等の処理を行ったもの)である。

この符号化信号X(f)を受信した音声(又は音響)復号化装置4の時間領域変換部40が、符号化処理が施された振幅成分|Xs(f)|を時間領域フレーム信号Y(t)へ変換して復号化することにより、上記の応用例[1]及び[2]と同様、時間領域フレーム信号Y(t)のフレーム両端の振幅がズレる場合がある。この場合も、上記の実施例[1](又は実施例[2])に示した歪除去部50によるフレーム信号補正処理(又は振幅成分調整部120による周波数スペクトルの振幅成分に対する補正)により補正を行うことができる。

III.4.応用例[4] (音声合成装置)：図12及び13
図12に示す音声合成装置5は、乗算器30での加工処理の一例として周波数領域で音素片の加工処理を行うものであり、上記の実施例[1]の構成に加えて、任意の文字列CSを分析して複数の表音文字列PSを生成する言語処理部90と、各表音文字列PSから長さPL及びピッチPPを生成する韻律生成部100と、予測される全ての表音文字列PSとこれらに対応する音素片Ph(t)とを記録した音声辞書DCTと、この音声辞書DCTから言語処理部90で生成した各表音文字列PSに対応する音素片Ph(t)を抽出し、これらを入力信号In(t)として信号処理装置1に与えると共に、韻律生成部100で生成された長さPL及びピッチPLの各々から各音素片Ph(t)の接続順序を決定し、この接続順序を示す接続順序情報INFOを生成する制御部110と、この接続順序情報INFOに基づき周波数スペクトル変換部20から出力される各音素片Ph(t)の周波数スペクトルX(f)の振幅成分|X(f)|を互いに滑らかに接続するための振幅補正係数H(f)を算出して乗算器30に与える振幅補正係数算出部150とを含むように構成されている。

動作においては、まず言語処理部90が、入力された文字列CSから複数の表音文字列PSを生成して制御部110に与える。例えば図13(1)に示すように、この文字列CSが“KONNICHIWA”という文字列である場合、言語処理部90は、同図(2)に示すように、表音文字列PS1“KON”、PS2“NICHI”、PS3“WA”をそれぞれ生成する。

そして、韻律生成部100は、各表音文字列PS1〜PS3から長さPL1〜PL3及びピッチPP1〜PP3(共に図示せず)を生成して制御部110に与える。

表音文字列PS1〜PS3を受けた制御部110は、同図(3)に示すように、表音文字列PS1〜PS3の各々に対応する音素片Ph1(t)〜Ph3(t)を音声辞書DCTからそれぞれ抽出する。ここで、各音素片Ph1(t)〜Ph3(t)は、音声辞書DCT中に記録されている“KONDO”、“31NICHI”、及び“WANAGE”に対応する音素片の一部をそれぞれ切り出したものである。

ここで、各音素片Ph1(t)〜Ph3(t)は、それぞれ異なる音素片から得られたものであるため、互いにその振幅成分が異なり不連続な場合がある。このため、音素片Ph1(t)〜Ph3(t)の各振幅成分がその境界で連続になるよう加工処理を施す必要がある。

本応用例では、この加工処理を、後述する振幅補正係数算出部150及び振幅補正係数算出部150からの振幅補正係数H(f)を受けた乗算器30で行う。

また、振幅補正係数算出部150は、該加工処理に際して、音素片Ph1(t)〜Ph3(t)をどのような順序で接続するのかを予め認識していなければならない。

このため、該加工処理に先立って、制御部110が、長さPL1〜PL3及びピッチPP1〜PP3から、同図(4)に示すように各音素片Ph1(t)〜Ph3(t)の接続順序(“KON”→“NICHI”→“WA”)を決定し、これを示す接続順序情報INFOを振幅補正係数算出部150に与える。

そして、振幅補正係数算出部150は、音素片Ph1(t)〜Ph3(t)に対応する周波数スペクトルの振幅成分|X(f)|を受ける度毎に、接続順序情報INFOに基づき振幅成分|X(f)|を互いに滑らかに接続するための振幅補正係数H(f)を算出して乗算器30に与える。

そして、乗算器30が、振幅成分|X(f)|に振幅補正係数H(f)を乗算して加工処理を施し、時間領域変換部40が、加工後の振幅成分|Xs(f)|を時間領域フレーム信号Y(t)に変換する。

乗算器30での加工処理により各音素片Ph1(t)〜Ph3(t)が一旦は連続的に接続されるが、時間領域変換部40での時間領域に変換により、上記の応用例[1]〜[3]と同様、時間領域フレーム信号Y(t)のフレーム両端の振幅が再びズレてしまう場合がある。この場合も、上記の実施例[1](又は実施例[2])に示した歪除去部50によるフレーム信号補正処理(又は振幅成分調整部120による周波数スペクトルの振幅成分に対する補正)により補正を行うことができる。

なお、上記実施例によって本発明は限定されるものではなく、特許請求の範囲の記載に基づき、当業者によって種々の変更が可能なことは明らかである。

（付記１）
所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１ステップと、
該第２フレーム信号と同一のフレーム長を有する予め定めた補正用信号の両端の振幅が、該第２フレーム信号のフレーム両端又は片端の振幅に実質的に等しくなるように調整すると共に、該第２フレーム信号から該調整した補正用信号を減算することにより補正する第２ステップと、
を備えたことを特徴とする信号処理方法。
（付記２）付記１において、
該補正用信号の振幅成分が低周波数成分のみを含むことを特徴とした信号処理方法。
（付記３）付記１において、
該補正用信号の振幅成分が直流成分のみを含むことを特徴とした信号処理方法。
（付記４）
所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１ステップと、
該所定の加工処理が施された周波数スペクトルと該第２フレーム信号とを入力して、該第２フレーム信号のフレーム両端又は片端の振幅が実質的に零になるように該所定の加工処理が施された周波数スペクトルの振幅成分を補正する第２ステップと、
該補正した周波数スペクトルを時間領域に変換する第３ステップと、
を備えたことを特徴とする信号処理方法。
（付記５）付記４において、
該第２ステップが、該所定の加工処理が施された周波数スペクトルの低周波数帯域に対応する振幅成分に対して該補正を行うことを特徴とした信号処理方法。
（付記６）付記４において、
該第２ステップが、該所定の加工処理が施された周波数スペクトルの直流成分に対応する振幅に対してのみ該補正を行うことを特徴とした信号処理方法。
（付記７）付記１又は４において、
該第１ステップが、該第１フレーム信号を周波数領域に変換して第１周波数スペクトルを発生するステップと、
該第１周波数スペクトルに該所定の加工処理を施した第２周波数スペクトルを発生するステップと、
該第２周波数スペクトルを時間領域に変換して該第２フレーム信号を発生するステップと、を含むことを特徴とした信号処理方法。
（付記８）付記１又は４において、
該第１ステップの該所定の加工処理が、該第１フレーム信号の周波数スペクトルの振幅成分から雑音スペクトルを推定すると共に、該雑音スペクトルに基づき該第１フレーム信号の周波数スペクトルの振幅成分中の雑音を抑圧するものであることを特徴とした信号処理方法。
（付記９）付記１又は４において、
該第１ステップの該所定の加工処理が、該所定の窓関数を施した参照フレーム信号の周波数スペクトルの振幅成分と、該第１フレーム信号の周波数スペクトルの振幅成分とを比較してエコーを抑圧するための抑圧係数を算出すると共に、該抑圧係数を該第１フレーム信号の周波数スペクトルの振幅成分に乗算するものであることを特徴とした信号処理方法。
（付記１０）付記１又は４において、
該第１フレーム信号が、音声信号又は音響信号に該所定の窓関数を施したものであり、該所定の加工処理が、該第１フレーム信号の周波数スペクトルに対する符号化であり、
該第１ステップが、該符号化された周波数スペクトルを時間領域に変換することにより復号化して該第２フレーム信号を発生するステップを含むことを特徴とした信号処理方法。
（付記１１）付記１又は４において、
該第１フレーム信号が、任意の文字列を分析して生成された複数の表音文字列の内の一の表音文字列に対応する音素片であって、予測される全ての表音文字列とこれらに対応する音素片とを記録した音声辞書から抽出され且つ該所定の窓関数が施されたものであり、
該第１フレーム信号と互いに一部重複して隣接するフレーム信号が、該複数の表音文字列の内の他の表音文字列に対応する音素片であって、該音声辞書から抽出され且つ該所定の窓関数が施されたものであり、
該所定の加工処理が、各表音文字列から生成された長さ及びピッチから各音素片の接続順序を決定し、該接続順序に基づき各音素片の周波数スペクトルを互いに滑らかに接続するための振幅補正係数を算出すると共に、各振幅補正係数を各音素片の周波数スペクトルの振幅成分に乗算するものであることを特徴とした信号処理方法。
（付記１２）付記１又は４において、
該フレーム信号が隣接するフレーム信号と互いに一部重複しており、
現フレーム信号に対して該補正を行って得たフレーム信号と、該現フレーム信号の直前のフレーム信号に対して該補正を行って得たフレーム信号との重複部分を加算合成するステップをさらに備えたことを特徴とする信号処理方法。
（付記１３）
所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１手段と、
該第２フレーム信号と同一のフレーム長を有する予め定めた補正用信号の両端の振幅が、該第２フレーム信号のフレーム両端又は片端の振幅に実質的に等しくなるように調整すると共に、該第２フレーム信号から該調整した補正用信号を減算することにより補正する第２手段と、
を備えたことを特徴とする信号処理装置。
（付記１４）付記１３において、
該補正用信号の振幅成分が低周波数成分のみを含むことを特徴とした信号処理装置。
（付記１５）付記１３において、
該補正用信号の振幅成分が直流成分のみを含むことを特徴とした信号処理装置。
（付記１６）
所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１手段と、
該所定の加工処理が施された周波数スペクトルと該第２フレーム信号とを入力して、該第２フレーム信号のフレーム両端又は片端の振幅が実質的に零になるように該所定の加工処理が施された周波数スペクトルの振幅成分を補正する第２手段と、
該補正した周波数スペクトルを時間領域に変換する第３手段と、
を備えたことを特徴とする信号処理装置。
（付記１７）付記１６において、
該第２手段が、該所定の加工処理が施された周波数スペクトルの低周波数帯域に対応する振幅成分に対して該補正を行うことを特徴とした信号処理装置。
（付記１８）付記１６において、
該第２手段が、該所定の加工処理が施された周波数スペクトルの直流成分に対応する振幅に対してのみ該補正を行うことを特徴とした信号処理装置。
（付記１９）付記１３又は１６において、
該第１手段が、該第１フレーム信号を周波数領域に変換して第１周波数スペクトルを発生する手段と、
該第１周波数スペクトルに該所定の加工処理を施した第２周波数スペクトルを発生する手段と、
該第２周波数スペクトルを時間領域に変換して該第２フレーム信号を発生する手段と、を含むことを特徴とした信号処理装置。
（付記２０）付記１３又は１６において、
該第１手段の該所定の加工処理が、該第１フレーム信号の周波数スペクトルの振幅成分から雑音スペクトルを推定すると共に、該雑音スペクトルに基づき該第１フレーム信号の周波数スペクトルの振幅成分中の雑音を抑圧するものであることを特徴とした信号処理装置。
（付記２１）付記１３又は１６において、
該第１手段の該所定の加工処理が、該所定の窓関数を施した参照フレーム信号の周波数スペクトルの振幅成分と、該第１フレーム信号の周波数スペクトルの振幅成分とを比較してエコーを抑圧するための抑圧係数を算出すると共に、該抑圧係数を該第１フレーム信号の周波数スペクトルの振幅成分に乗算するものであることを特徴とした信号処理装置。
（付記２２）付記１３又は１６において、
該第１フレーム信号が、音声信号又は音響信号に該所定の窓関数を施したものであり、該所定の加工処理が、該第１フレーム信号の周波数スペクトルに対する符号化であり、
該第１手段が、該符号化された周波数スペクトルを時間領域に変換することにより復号化して該第２フレーム信号を発生する手段を含むことを特徴とした信号処理装置。
（付記２３）付記１３又は１６において、
該第１フレーム信号が、任意の文字列を分析して生成された複数の表音文字列の内の一の表音文字列に対応する音素片であって、予測される全ての表音文字列とこれらに対応する音素片とを記録した音声辞書から抽出され且つ該所定の窓関数が施されたものであり、
該第１フレーム信号と互いに一部重複して隣接するフレーム信号が、該複数の表音文字列の内の他の表音文字列に対応する音素片であって、該音声辞書から抽出され且つ該所定の窓関数が施されたものであり、
該所定の加工処理が、各表音文字列から生成された長さ及びピッチから各音素片の接続順序を決定し、該接続順序に基づき各音素片の周波数スペクトルを互いに滑らかに接続するための振幅補正係数を算出すると共に、各振幅補正係数を各音素片の周波数スペクトルの振幅成分に乗算するものであることを特徴とした信号処理装置。
（付記２４）付記１３又は１６において、
該フレーム信号が隣接するフレーム信号と互いに一部重複しており、
現フレーム信号に対して該補正を行って得たフレーム信号と、該現フレーム信号の直前のフレーム信号に対して該補正を行って得たフレーム信号との重複部分を加算合成する手段をさらに備えたことを特徴とする信号処理装置。

本発明に係る信号処理方法及び装置の実施例[1]を示したブロック図である。本発明の実施例[1]の全体動作例を示した波形図である。本発明の実施例[1]に用いる歪除去部のフレーム信号補正処理例(1)を示した動作波形図である。本発明の実施例[1]に用いる歪除去部のフレーム信号補正処理例(1)による補正前後の周波数スペクトル特性を示したグラフ図である。本発明の実施例[1]に用いる歪除去部のフレーム信号補正処理例(2)を示した動作波形図である。本発明の実施例[1]に用いる歪除去部のフレーム信号補正処理例(2)による補正前後の周波数スペクトル特性を示したグラフ図である。本発明に係る信号処理方法及び装置の実施例[2]を示したブロック図である。本発明の実施例[2]に用いる時間領域変換部及び振幅成分調整部の動作例を示したフローチャート図である。本発明に係る信号処理方法及び装置の応用例[1]を示したブロック図である。本発明に係る信号処理方法及び装置の応用例[2]を示したブロック図である。本発明に係る信号処理方法及び装置の応用例[3]を示したブロック図である。本発明に係る信号処理方法及び装置の応用例[4]を示したブロック図である。本発明の応用例[4]に用いる言語処理部、韻律生成部、及び制御部の動作例を示した図である。雑音抑圧装置の従来例[1]の構成例を示したブロック図である。従来例[1]の信号処理例を示した動作波形図である。雑音抑圧装置の従来例[2]の構成例を示したブロック図である。従来例[2]の信号処理例を示した動作波形図である。従来例[2]による後窓関数処理前後の周波数スペクトル特性を示したグラフ図である。

符号の説明

1 信号処理装置
2 雑音抑圧装置
3 エコー抑圧装置
4 音声(又は音響)復号化装置
5 音声合成装置
10, 10r フレーム分割・窓掛部
20, 20r 周波数スペクトル変換部
30 乗算器
40 時間領域変換部
50 歪除去部
60 フレーム合成部
70 雑音推定部
80 抑圧係数算出部
90 言語処理部
100 韻律生成部
110 制御部
120 振幅成分調整部
130 雑音抑圧部
140 後窓掛部
150 振幅補正係数算出部
In(t) 入力信号
FR(t), FRb(t), FRp(t) フレーム信号
W(t), Wb(t), Wp(t) 窓掛フレーム信号
Wa(t), Wab(t), Wap(t) 後窓掛フレーム信号
X(f), Xr(f) 周波数スペクトル
|X(f)|, |Xr(f)| 振幅成分
argX(f) 位相成分
|Xa(f)| 後窓関数処理後振幅成分
G(f) 加工係数(抑圧係数)
|Xs(f)| 加工後振幅成分
Y(t), Yb(t), Yp(t) 時間領域フレーム信号
Yc(t), Ycb(t), Ycp(t) 補正フレーム信号
|Xc(f)| 補正振幅成分
Out(t) 出力信号
L フレーム長
ΔL フレームシフト長
B1, B2 境界
w(t) 窓関数
wa(t) 後窓関数
f(t) 補正用信号
fa(t) 調整後補正用信号
W, W1, W2 波形
f, f1, f2 周波数
α, α1, α2 振幅補正量
C₀ 直流成分
|N(f)| 推定雑音スペクトル
CS 文字列
PS, PS1〜PS3 表音文字列
PL 長さ
PP ピッチ
DCT 音声辞書
Ph(t), Ph1(t)〜Ph3(t) 音素片
INFO 接続順序情報
H(f) 振幅補正係数
図中、同一符号は同一又は相当部分を示す。

Claims

所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１ステップと、
該第２フレーム信号と同一のフレーム長を有する予め定めた補正用信号の両端の振幅と、該第２フレーム信号のフレーム両端又は片端の振幅との差分が小さくなるように調整すると共に、該第２フレーム信号から該調整した補正用信号を減算することにより補正フレーム信号を算出する第２ステップと、
を備え、
該補正用信号は、複数の周波数成分を有する時間信号を加算したものであり、その合成波形による関数の周波数成分が、該第２フレーム信号における補正すべき低周波数成分に対応していることを特徴とする信号処理方法。
所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１ステップと、
該周波数スペクトルと該第２フレーム信号とを入力して、該第２フレーム信号からフレーム両端又は片端の振幅を除去した信号のパワーと該周波数スペクトルのパワーとの差分の平方根で与えられる振幅補正量を求め、該振幅補正量を該周波数スペクトル中の直流成分又は低周波数成分の振幅に加算して該直流成分又は低周波数成分に対する補正振幅成分を求める第２ステップと、
該補正振幅成分を時間領域に変換して補正フレーム信号を算出する第３ステップと、
を備えたことを特徴とする信号処理方法。
所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１手段と、
該第２フレーム信号と同一のフレーム長を有する予め定めた補正用信号の両端の振幅と、該第２フレーム信号のフレーム両端又は片端の振幅との差分が小さくなるように調整すると共に、該第２フレーム信号から該調整した補正用信号を減算することにより補正フレーム信号を算出する第２手段と、
を備え、
該補正用信号は、複数の周波数成分を有する時間信号を加算したものであり、その合成波形による関数の周波数成分が、該第２フレーム信号における補正すべき低周波数成分に対応している複数の周波数成分を有する時間信号を加算したものであることを特徴とする信号処理装置。
所定の窓関数が施された所定長単位の第１フレーム信号の周波数スペクトルに所定の加工処理が施され且つ時間領域に変換された第２フレーム信号を発生する第１手段と、
該周波数スペクトルと該第２フレーム信号とを入力して、該第２フレーム信号からフレーム両端又は片端の振幅を除去した信号のパワーと該周波数スペクトルのパワーとの差分の平方根で与えられる振幅補正量を求め、該振幅補正量を該周波数スペクトル中の直流成分又は低周波数成分の振幅に加算して該直流成分又は低周波数成分に対する補正振幅成分を求める第２手段と、
該補正振幅成分を時間領域に変換して補正フレーム信号を算出する第３手段と、
を備えたことを特徴とする信号処理装置。
請求項３又は４において、
該第１手段が、該第１フレーム信号を周波数領域に変換して第１周波数スペクトルを発生する手段と、
該第１周波数スペクトルに該所定の加工処理を施した第２周波数スペクトルを発生する手段と、
該第２周波数スペクトルを時間領域に変換して該第２フレーム信号を発生する手段と、を含むことを特徴とした信号処理装置。
請求項３又は４において、
該第１手段の該所定の加工処理が、該第１フレーム信号の周波数スペクトルの振幅成分から雑音スペクトルを推定すると共に、該雑音スペクトルに基づき該第１フレーム信号の周波数スペクトルの振幅成分中の雑音を抑圧するものであることを特徴とした信号処理装置。
請求項３又は４において、
該第１手段の該所定の加工処理が、該所定の窓関数を施した参照フレーム信号の周波数スペクトルの振幅成分と、該第１フレーム信号の周波数スペクトルの振幅成分とを比較してエコーを抑圧するための抑圧係数を算出すると共に、該抑圧係数を該第１フレーム信号の周波数スペクトルの振幅成分に乗算するものであることを特徴とした信号処理装置。
請求項３又は４において、
該第１フレーム信号が、音声信号又は音響信号に該所定の窓関数を施したものであり、該所定の加工処理が、該第１フレーム信号の周波数スペクトルに対する符号化であり、
該第１手段が、該符号化された周波数スペクトルを時間領域に変換することにより復号化して該第２フレーム信号を発生する手段を含むことを特徴とした信号処理装置。
請求項３又は４において、
該第１フレーム信号が、任意の文字列を分析して生成された複数の表音文字列の内の一の表音文字列に対応する音素片であって、予測される全ての表音文字列とこれらに対応する音素片とを記録した音声辞書から抽出され且つ該所定の窓関数が施されたものであり、
該第１フレーム信号と互いに一部重複して隣接するフレーム信号が、該複数の表音文字列の内の他の表音文字列に対応する音素片であって、該音声辞書から抽出され且つ該所定の窓関数が施されたものであり、
該所定の加工処理が、各表音文字列から生成された長さ及びピッチから各音素片の接続順序を決定し、該接続順序に基づき各音素片の周波数スペクトルを互いに滑らかに接続するための振幅補正係数を算出すると共に、各振幅補正係数を各音素片の周波数スペクトルの振幅成分に乗算するものであることを特徴とした信号処理装置。
請求項３又は４において、
該フレーム信号が隣接するフレーム信号と互いに一部重複しており、
現フレーム信号に対して該補正を行って得たフレーム信号と、該現フレーム信号の直前のフレーム信号に対して該補正を行って得たフレーム信号との重複部分を加算合成する手段をさらに備えたことを特徴とする信号処理装置。
請求項１又は２において、
該第１ステップの該所定の加工処理が、該第１フレーム信号の周波数スペクトルの振幅成分から雑音スペクトルを推定すると共に、該雑音スペクトルに基づき該第１フレーム信号の周波数スペクトルの振幅成分中の雑音を抑圧するものであることを特徴とした信号処理方法。
請求項１又は２において、
該第１ステップの該所定の加工処理が、該所定の窓関数を施した参照フレーム信号の周波数スペクトルの振幅成分と、該第１フレーム信号の周波数スペクトルの振幅成分とを比較してエコーを抑圧するための抑圧係数を算出すると共に、該抑圧係数を該第１フレーム信号の周波数スペクトルの振幅成分に乗算するものであることを特徴とした信号処理方法。