CN1013525B - 认人与不认人实时语音识别的方法和装置 - Google Patents
认人与不认人实时语音识别的方法和装置Info
- Publication number
- CN1013525B CN1013525B CN88107791A CN88107791A CN1013525B CN 1013525 B CN1013525 B CN 1013525B CN 88107791 A CN88107791 A CN 88107791A CN 88107791 A CN88107791 A CN 88107791A CN 1013525 B CN1013525 B CN 1013525B
- Authority
- CN
- China
- Prior art keywords
- speech
- time
- parameter
- parameter vector
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 26
- 239000013074 reference sample Substances 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims abstract description 3
- 230000008859 change Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 239000003990 capacitor Substances 0.000 claims description 2
- 230000008676 import Effects 0.000 claims 1
- 230000001737 promoting effect Effects 0.000 claims 1
- 239000011121 hardwood Substances 0.000 description 30
- 238000005070 sampling Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 244000287680 Garcinia dulcis Species 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
一种认人与不认人实时语音识别的方法和装置。属于语音识别领域。其基本方法是:提取语音信号的频谱变化量为参数,并将其在时域上作平滑和非线性规正,得到时域上等长的语音特征参数失量;对每一帧语音特征参数失量做二值化处理或做幅值规正;语音特征参数失量经优化生成按时间顺序排列的子码书序列作为语音参考样本。以这种方法设计的语音识别装置,不仅可用于认人识别,也可用于不认人识别。具有实时处理能力强、识别率高、占用存贮量小、抗噪音能力强及发音自由度大等特点。这方法可以应用于任何自然语音的声控装置。
Description
本发明属于语音识别领域,涉及一种用于快速和准确地识别各种语音的方法和装置。现有的语音识别系统绝大部分是用高速运算器件(如TMS320系列)来开发并实现的,这主要是由于这些系统采用了线性预测(LPC)参数及动态规划(DP)等运算量极大的方案,使得只有借助高速运算器件才能实现实时处理。另一类系统采用滤波器组各通道的能量作为参数桢序列,如北方电信有限公司的专利“语音识别”(专利申请号:CN86100298A)和清华大学的专利“一种语音特征的提取和识别方法”(专利申请号:CN85100083A),它虽然避免了提取谱参数的大量运算,但在待测音与基准样型音的匹配识别方法上,或用动态时间卷曲(DTW)、或用所谓特征分块识别方案,前者所需运算量依旧很大,后者将语音在时序上的信息量模糊过甚,实际上类似于不适用于语音识别的长时谱参数。抗噪音能力的强弱是检验一个语音识别系统性能的重要标准,由于LPC和倒谱等参数对频谱的变化很敏感,故以上述参数为基础的识别系统在背景噪音较高时误识别次数明显增多。现有的识别系统一般均要求使用者发音规范、平稳,自由度较小,这造成语音识别系统使用不便,增加了使用者的心理负担。究其原因,主要是设计者采用了线性时域压缩、以时长判定字数或不完善的DP方案。作为参考样本的语音码本所占用的体积,决定了系统可能的字表大小、也在一定程度上影响着系统的实时性能。如北京祥云电脑公司的一套语音识别系统,一个语音码本占
用4K字内存,字表大小仅限于50左右。
本发明的目的是提供一种识别精度高、实时性能强、可扩字表大、抗噪音能力强、发音自由度大和可多人共用一套参考样本,即不认人识别的语音识别方法和装置。
图1为用于识别语音的装置和方法:
(Ⅰ)原始语音参数提取:
原始语音参数提取利用将语音信号转化为一系列原始语谱参数桢的装置。原始语音参数桢序列可根据需要选用以下形式的参数:带通滤波器组各通道的能量输出、频谱斜率或变化量参数、Bark刻度或Mel刻度的倒谱参数、以及LPC参数等。采样周期以10~20毫秒为宜。本发明采用的是带通滤波器各通道的能量输出和频谱变化量参数,其中频谱变化量参数指的是带通滤波器组相邻通道能量的差值。
(Ⅱ)语音始、终点判定
依据原始语音参数提取(Ⅰ)所提供的一系列参数桢来判定语音始、终点的装置。由全通或接近全通的C网络通道的能量超过某个阈值,如20分贝,并持续了一定的时间,如200毫秒,则判定一个音开始;由该通道的能量连续低于某个阈值,如25分贝,并达到一定的时间,如250毫秒,则判定一个音结束。如当原始语音参数桢序列的采样周期为10毫秒、量化精度为8比特,可将判定语音始、终点的时间阈值分别定为20桢和25桢,将能量阈值分别定为30和37。上述的时间和能量阈值均可根据使用该设备时的背景噪音情况而重新设定,背景噪音大时可提高阈值。
(Ⅲ)语音特征参数提取
语音特征参数提取是从原始语音参数提取(Ⅰ)和语音始、终点
判定(Ⅱ)所提供的原始语音参数桢序列中,运用进一步优化了的声刺激量非线性时域规正方法,提取用于建立语音参考样本和匹配识别的语音特征参数矢量的装置。利用声刺激量参数对原始语音参数桢序列进行非线性时域规正的目的,是充分强调过渡音段的重要性、压缩掉元音的稳态部分,以获得在时域上等长的语音特征参数矢量序列。这样可以减少必须存贮的信息量并避免繁复的DP运算以大大提高识别速度。方法如下:若在Ti时刻的原始语音参数桢为B(Ti)={Ai,l…Ai,j,…Ai,L},Ai,j表示L维语音参数矢量的一个分量,则将其在时域上做30毫秒光滑得到B′(Ti)={Pi,l,…Pi,j,…Pi,L},Pij表示光滑后的L维语音参数矢量的分量,其中Plj= 1/4 A(i-l),j+ 1/2 Ai,j+ 1/4 A(i+l),j。定义在Ti时刻的声刺激量为:
当采样精度为8比特时,若上式中|Pi,j-P(i-l),j|≤2,则令其为零。若一段语音的采样桢数为N,则该段语音的总声刺激量便是
若要选出M个参数桢矢量来标征这段语音,即将该段语音规正为M桢长,则可定义平均声刺激量(
)为:
=△/(M+1)。
以
作为选谱阈值,确定M个语音特征参数桢矢量的方法如下:
(1)声刺激量累加器(W)置零:W=0;
(2)顺序取下一个声刺激量δi,加进声刺激量累加器W=W+δi;
(3)如果W≥
,则选中此第i桢,转往(5);
(4)否则,不选此第i桢,转往(2);
(6)检查是否已选中M桢矢量,即m≥M;若是,则结束;否则,转往(3)。
语音特征参数桢矢量的个数M一般选为20左右,可根据字表内容的音节数目做适当调整,约为音节数的4~6倍。
(Ⅳ)语音特征参数幅值的量化规正
对语音特征参数(Ⅲ)所提供的语音特征参数矢量进行幅值量化规正的装置。为了进一步压缩必须存贮的信息量,也为了克服说话声音大小和距话筒远近所造成的输入信号能量的差别,我们对特征参数矢量的幅值进行量化规正。量化精度可根据需要选为1-8比特。1比特量化法如下:
以频谱变化量为参数时,根据下式进行1比特量化:
当量化精度选为8比特时,对每桢谱进行幅值规正,即
利用规正后的特征参数去识别,减少了由于话音电平的大小不同所造成的误识别次数。
(Ⅴ)语音参考样本的优化
经过以上步骤,已生成了用于认人识别的等长的语音特征参数矢量序列。进行不认人语音识别时,还需对上述特征参数矢量再优化,以建立不依赖于特定使用人的语音参考样本。具体方法和步骤如下:
(1)由多个发音人念字表多遍,对于每一次发音均用上述(Ⅰ)~(Ⅳ)步骤进行时域和能域规正。字表中的每个项目均被分桢处理,即字表中同一个项目的多次发音,按在语音特征参数桢序列上的顺序,被分别生成一个子码书序列。由此序列所构成的码书,是严格按照时间顺序排列的。
(2)每个子码书由小到大地生成,每次增大1。由N个码字构成的码书BN生成N+1个码字的码书BN+1的方法是:由BN中具有多于2个成员的码字中选出平均距离最大的那个码字,作微扰产生两个初始中心,其余不变。对N+1个初始中心进行聚类循环得到BN+1。
(3)对于偶然发生的空白子空间,我们将其消去,采用(2)中的办法补生成一个码字。
另外,在码书生成过程中,可考虑将男女声或不同语系的语音样本分别各自生成一个子码书序列,识别时再将其合并使用。试验测试证明此方法优于将所有语音一起生成一个子码书序列,提高了识别准
确率。
这些步骤也可用于优化认人识别系统的语音参考样本。
(Ⅵ)待测音与参考样本之差距的计量
用于将一个未知语音特征参数矢量序列与参考样本相比较,并确定哪个参考样本与之最相匹配的装置。
在认人语音识别系统中,当字表大小为N,每个语音特征参数桢序列的桢数为M,每个参数桢的分量数为L时,可用下式表示语音参考样本:
j=1,2,…L,
R(k)={r′i,j (k)},i=1,2,…M,
k=1,2,…N。
用X表示待识别语音样本:
j=1,2,…L,
X={x′i,j} i=1,2,…M。
当参数精度为1比特时,用Hamming距离计量待识别语音和参考样本之间的差距:
其中“
”为异或运算。该种运算较之乘法或加法运算节省很多运算时间。当用2~8比特量化参数矢量时,用city-block距离或欧氏距离计量差距,即:
用最小距离原则判定识别结果,即将待测语音判为第n项,如果d(n)≤d(k),k=1,2,…N。
在不认人语音识别系统中,每个参考样本都是由一个码书所表示,该码书之严格按时间顺序排列的每个子码书均包含V个码字。将待测语音特征参数矢量与参考样本的子码书序列比较时,选择与待测音参数矢量最相似的码字为准,来累计待测音与参考样本的相似度。其余与认人识别过程相同。
(Ⅶ)待测语音音节数的判定
用于判定未知语音音节数目的装置。判定未知语音的音节数主要依据声刺激量的变化情况,设
,当δ1 i连续8桢以上为负值,或
连续8组以上为负值,则判定一个音节结束。以上参数可根据采样率和呼音的速度作相应的调整。
(Ⅷ)识别结果判决
利用(Ⅵ)和(Ⅶ)所提供的结果,再加上离散度阈值的限定,用于判定最终识别结果的装置。如果待测语音与字表中的第n1项最相匹配,与第n2项次最相匹配,即有差距参数
则定义离散度为
其阈值一般定为0.1。如果离散度小于该阈值,则拒绝识别。如果大于或等于该阈值,则看第n1项的字数是否与字数判定装置所给出的结果基本相符。若是,则输出识别结果;若否,则考虑第n2项;如此推移,直至得到识别结果。
一种用于将语音信号转化为一系列原始语谱参数桢的装置-语音信号预处理器。其工作原理如图2所示的方框图。
语音信号通过传声器变成电信号,电信号经高低频提升、放大、带通滤波、RMS检波和16路模拟开关,至A/D变换器(参见图2)。至此,完成了原始语音数字能谱的采集过程。
(1)传声器:完成声-电变换工作。
(2)高低频提升:对语音信号中的高频成份加权,以克服辅音信息较弱的现象,有助于加强本装置对辅音的敏感程度,为了改善识别系统对女声的识别率,除高频提升外,在低频端也作了提升,图4是它的频率特性曲线。
(3)放大器:根据所用A/D变换器的最大容许输入动态范围和所用传声器的灵敏度来选定恰当的放大量。充分利用A/D变换器的输入动态范围,有利于后端的语音数字信号处理。
(4)滤波器:共17路。其中16路是窄带通滤波器,1路是宽带通滤波器。窄带通滤波器的中心频率在200~6300Hz之间按1/3倍频程划分,用于提取语谱信号;宽带通滤波器的带宽是窄带通滤波器的总和,用于音量显示。
(5)RMS检波器:完成对模拟信号的如下运算:
从而得到语音信号在各通道的能量值。
(6)A/D变换器:将模拟信号变为数字信号。
(7)接口:完成语音信号预处理器与后端数字信号处理部分的连接,并完成后端对A/D采样控制的传递工作。
(8)音量显示:由比较电路和7列电平显示器组成,供用户监视和控制自己的发音音量。可根据音量显示随时调正放大器的放大倍数。
本发明所构成的认人和不认人语音识别方法和设备所具备的优点在于:
对于认人语音识别系统具有:
(1)实时处理能力强:将原来需要大量的乘法和加法运算的过程,改为仅需异或运算的过程。使得既使不用高速数字处理器件也能实现2000字表大小的实时处理。
(2)识别率高,一般字表(200条口令)时,正确识别率达99%。
(3)占用存贮量小:识别执行运算匹配部分仅2KB,每条语音样本30字节。
(4)抗噪音能力强:在噪声较大的环境下也能正常工作。
(5)发音自由度大:对发音的速度和音量无十分严格的要求,允许一定程度上的非线性发音。
对于不认人语音识别系统具有:
(1)实时性能强:字表大小为200时能够实时处理。
(2)识别率高:用包括“0-9”十字数字的31条口令测试时,参与训练者的正确识别率为99%,未参与训练者的正确识别率为95%。
其它特点与认人语音识别系统相同。
本发明可应用于军事口令指挥,工业语音自动控制、声控文献检索以及汉字语音输入等领域。它适用于任何自然语言的声控装置。
图1是认人与不认人语音识别方框图。
图2是提取原始语音参数装置的方框图。它包含了十六个通道带
通滤波器和检波器,以及相应的放大器,跟随器、缓冲器、高低频提升、A/D转换器及其接口。还包括了用于检测音量的宽带滤波器、衰减器、检波器、缓冲器和音量显示。
图3是语音信号预处理器的局部电路图。它由集成块A1,A2,电阻R1至R8以及电容C1至C3所组成的高低频提升电路。
图4是高低频提升电路的频率特性曲线。
Claims (3)
1、一种认人与不认人的语音识别方法,通常包含有将语音信号转化为一系列原始语谱参数,判定语音的始终点,对语音特征参数矢量进行模式匹配,判定识别结果,其特征在于:
a.原始语谱参数帧是经过高、低频提升后的频谱和频谱变化量参数;
c.对原始语谱参数进行非线性时域规正时,将其在时域上做30毫秒的光滑处理,其中
d.将经过时域规正了的语音特征参数矢量序列作为认人识别参考样本,并将字表中的每个项目的多次发音而生成的特征参数矢量序列分帧聚类生成一个子码书序列,该序列按严格时间顺序排列,组成码书,即不认人识别的参考样本;
e.在码书生成过程中,采取将男女声或不同语系的语音样本分别各自生成一个子码书,识别时再将其合并使用;
f.采用完全异或运算方法来比较待测语音特征参数矢量序列与参考样本,从而确定那一个参考样本与之最相匹配;
g.根据声刺激量的变化,判定语音音节数目,从而缩小搜索比较范围,加快识别速度。
2、一种适用于权利要求1所述方法的装置,通常是将语音信号经过跟随器、放大器和缓冲器的放大和处理之后,分多通道同样再经过跟随器,带通滤波器,放大器,检波器处理之后同时输入A/D变换器,将各通道的模拟信号进行数字化,再将这些数字化信号经接口电路送入计算机按予先编程的方法进行分析、计算,并获得其结果,其特征在于,当语音信号第一次经跟随器输出后,是经过高低频提升电路处理。
3、按照权利要求2所述的装置,其特征在于所说的高低频提升电路是由集成块A1,A2,电阻R1至R8以及电容C1至C3所组成。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN88107791A CN1013525B (zh) | 1988-11-16 | 1988-11-16 | 认人与不认人实时语音识别的方法和装置 |
US07/433,098 US5056150A (en) | 1988-11-16 | 1989-11-08 | Method and apparatus for real time speech recognition with and without speaker dependency |
GB8925873A GB2225142A (en) | 1988-11-16 | 1989-11-15 | Real time speech recognition |
MYPI89001589A MY104270A (en) | 1988-11-16 | 1989-11-15 | Method and apparatus for real time speech recognition with and without speaker dependency |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN88107791A CN1013525B (zh) | 1988-11-16 | 1988-11-16 | 认人与不认人实时语音识别的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1042790A CN1042790A (zh) | 1990-06-06 |
CN1013525B true CN1013525B (zh) | 1991-08-14 |
Family
ID=4834785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN88107791A Expired CN1013525B (zh) | 1988-11-16 | 1988-11-16 | 认人与不认人实时语音识别的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5056150A (zh) |
CN (1) | CN1013525B (zh) |
GB (1) | GB2225142A (zh) |
MY (1) | MY104270A (zh) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69128990T2 (de) * | 1990-09-07 | 1998-08-27 | Toshiba Kawasaki Kk | Sprecherkennungsvorrichtung |
US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
US5428708A (en) * | 1991-06-21 | 1995-06-27 | Ivl Technologies Ltd. | Musical entertainment system |
JP4203122B2 (ja) * | 1991-12-31 | 2008-12-24 | ユニシス・パルスポイント・コミュニケーションズ | 音声制御通信装置および処理方法 |
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
US5567901A (en) * | 1995-01-18 | 1996-10-22 | Ivl Technologies Ltd. | Method and apparatus for changing the timbre and/or pitch of audio signals |
US6046395A (en) * | 1995-01-18 | 2000-04-04 | Ivl Technologies Ltd. | Method and apparatus for changing the timbre and/or pitch of audio signals |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US6336092B1 (en) * | 1997-04-28 | 2002-01-01 | Ivl Technologies Ltd | Targeted vocal transformation |
ES2143953B1 (es) * | 1998-05-26 | 2000-12-01 | Univ Malaga | Circuito integrado analizador de secuencias silabicas. |
US6278972B1 (en) * | 1999-01-04 | 2001-08-21 | Qualcomm Incorporated | System and method for segmentation and recognition of speech signals |
US6721719B1 (en) * | 1999-07-26 | 2004-04-13 | International Business Machines Corporation | System and method for classification using time sequences |
US7117149B1 (en) * | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
JP2001117579A (ja) * | 1999-10-21 | 2001-04-27 | Casio Comput Co Ltd | 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体 |
US6836758B2 (en) * | 2001-01-09 | 2004-12-28 | Qualcomm Incorporated | System and method for hybrid voice recognition |
US20050234712A1 (en) * | 2001-05-28 | 2005-10-20 | Yongqiang Dong | Providing shorter uniform frame lengths in dynamic time warping for voice conversion |
US20030220788A1 (en) * | 2001-12-17 | 2003-11-27 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
US8306821B2 (en) * | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US8170879B2 (en) * | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US7716046B2 (en) * | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
JP4645241B2 (ja) * | 2005-03-10 | 2011-03-09 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US8027833B2 (en) * | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
KR100717393B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치 |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
WO2011024572A1 (ja) * | 2009-08-28 | 2011-03-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
US8321209B2 (en) | 2009-11-10 | 2012-11-27 | Research In Motion Limited | System and method for low overhead frequency domain voice authentication |
US8326625B2 (en) * | 2009-11-10 | 2012-12-04 | Research In Motion Limited | System and method for low overhead time domain voice authentication |
CN104965724A (zh) * | 2014-12-16 | 2015-10-07 | 深圳市腾讯计算机系统有限公司 | 一种切换工作状态的方法和装置 |
CN105070291A (zh) * | 2015-07-21 | 2015-11-18 | 国网天津市电力公司 | 基于动态时间规整技术的声控门系统 |
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4412098A (en) * | 1979-09-10 | 1983-10-25 | Interstate Electronics Corporation | Audio signal recognition computer |
CH645501GA3 (zh) * | 1981-07-24 | 1984-10-15 | ||
JPS5844500A (ja) * | 1981-09-11 | 1983-03-15 | シャープ株式会社 | 音声認識方式 |
JPH067343B2 (ja) * | 1987-02-23 | 1994-01-26 | 株式会社東芝 | パタ−ン識別装置 |
-
1988
- 1988-11-16 CN CN88107791A patent/CN1013525B/zh not_active Expired
-
1989
- 1989-11-08 US US07/433,098 patent/US5056150A/en not_active Expired - Fee Related
- 1989-11-15 GB GB8925873A patent/GB2225142A/en not_active Withdrawn
- 1989-11-15 MY MYPI89001589A patent/MY104270A/en unknown
Also Published As
Publication number | Publication date |
---|---|
US5056150A (en) | 1991-10-08 |
CN1042790A (zh) | 1990-06-06 |
GB2225142A (en) | 1990-05-23 |
MY104270A (en) | 1994-02-28 |
GB8925873D0 (en) | 1990-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1013525B (zh) | 认人与不认人实时语音识别的方法和装置 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
US5594834A (en) | Method and system for recognizing a boundary between sounds in continuous speech | |
CN1151218A (zh) | 用于语音识别的神经网络的训练方法 | |
CN1123862C (zh) | 基于语音识别专用芯片的特定人语音识别、语音回放方法 | |
CN106782521A (zh) | 一种语音识别系统 | |
CN1141696C (zh) | 基于语音识别专用芯片的非特定人语音识别、语音提示方法 | |
CN1160450A (zh) | 从连续语音中识别讲话声音的系统及其应用方法 | |
CN1300049A (zh) | 汉语普通话话音识别的方法和设备 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN111179910A (zh) | 语速识别方法和装置、服务器、计算机可读存储介质 | |
CN1150852A (zh) | 采用神经网络的语音识别系统和方法 | |
EP0071716A2 (en) | Allophone vocoder | |
CN115762465A (zh) | 语音生成模型的训练、使用方法以及训练、使用装置 | |
CN108735230B (zh) | 基于混合音频的背景音乐识别方法、装置及设备 | |
CN113066459B (zh) | 基于旋律的歌曲信息合成方法、装置、设备及存储介质 | |
CN111105799B (zh) | 基于发音量化和电力专用词库的离线语音识别装置及方法 | |
CN118136022A (zh) | 一种智能语音识别系统及方法 | |
WO1983002190A1 (en) | A system and method for recognizing speech | |
CN1009320B (zh) | 语音识别 | |
CN118197309A (zh) | 基于ai语音识别的智能多媒体终端 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
CN114927128B (zh) | 语音关键词的检测方法、装置、电子设备及可读存储介质 | |
Nikitaras et al. | Fine-grained noise control for multispeaker speech synthesis | |
Li et al. | Model compression for DNN-based speaker verification using weight quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C13 | Decision | ||
GR02 | Examined patent application | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C15 | Extension of patent right duration from 15 to 20 years for appl. with date before 31.12.1992 and still valid on 11.12.2001 (patent law change 1993) | ||
OR01 | Other related matters | ||
C17 | Cessation of patent right | ||
CX01 | Expiry of patent term |