FI111486B - Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa - Google Patents
Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa Download PDFInfo
- Publication number
- FI111486B FI111486B FI942761A FI942761A FI111486B FI 111486 B FI111486 B FI 111486B FI 942761 A FI942761 A FI 942761A FI 942761 A FI942761 A FI 942761A FI 111486 B FI111486 B FI 111486B
- Authority
- FI
- Finland
- Prior art keywords
- delay
- frame
- signal
- value
- threshold
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000007774 longterm Effects 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000011664 signaling Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 18
- 230000003595 spectral effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Time-Division Multiplex Systems (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Description
1 111486
Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa t
Esillä oleva keksintö liittyy digitaalisiin puhekoodereihin ja tarkemmin 5 se kohdistuu menetelmään ja laitteeseen, jolla estimoidaan ja luokitellaan puhesignaalin äänijakso näissä koodereissa.
Puhekoodausjärjestelmät, jotka sallivat saada hyvälaatuisen koodatun puheen alhaisella bittitiheydellä, ovat tekniikassa yhä kiinnostavampia. Tätä tarkoitusta varten käytetään usein lineaarista ennustekoodaus (LPC) -tekniikkaa, 10 joka tekniikka käyttää puheen spektriominaisuuksia ja sallii ainoastaan puheen käsittämisen kannalta tärkeän informaation koodauksen. Monet LPC-tekniik-kaan perustuvat koodausjärjestelmät suorittavat prosessoinnin aikana puhe-signaalisegmentin luokittelun, jotta erotettaisiin, onko kyseessä aktiivinen vaiko inaktiivinen puhesegmentti ja ensimmäisessä tapauksessa, vastaako se soinnil-15 lista vai soinnitonta ääntä. Tämä sallii koodausstrategioiden sovittamisen tiettyihin segmenttiominaisuuksiin. Vaihteleva koodausstrategia, missä lähetetty informaatio vaihtelee segmentistä segmenttiin, on erityisen sopiva vaihtelevan nopeuden lähetyksiin, tai kiinteän nopeuden lähetyksissä se sallii mahdolliset vähennykset lähetettävän informaation määrässä, jotta saataisiin parannettua suo-20 jausta kanavavirheitä vastaan.
Esimerkki vaihtelevan nopeuden koodausjärjestelmästä, jossa suoritetaan aktiivisten ja hiljaisten jaksojen tunnistaminen ja aktiivisten jaksojen aikana tunnistetaan vastaavat soinnilliset tai soinnittomat signaalit, jotka sitten koo-• dataan eri tavoin, on kuvattu paperissa "Variable Rate Speech Coding with onli- 25 ne segmentation and fast algebraic codes", R. Di Francesvo et alii, konferenssi ICASSP '90, 3. - 6. huhtikuuta 1990, Albuquerque (USA), paperi S4b.5.
Keksinnön mukaan saadaan menetelmä, jolla koodataan puhesignaali, jossa menetelmässä koodattava signaali jaetaan digitaalisten näytteiden kehyksiksi, jotka sisältävät saman lukumäärän näytteitä; kunkin kehyksen näyt-'·' 30 teille suoritetaan pitkän aikavälin ennusteanalyysi, jotta signaalista saataisiin erotettua parametriryhmä, joka sisältää äänijaksoa vastaavan viiveen d, ennus-tekertoimen b ja ennustevahvistuksen G, ja luokittelu, joka ilmaisee, vastaako kehys itse aktiivista vai inaktiivista puhesignaalisegmenttiä, ja aktiivisen signaa-lisegmentin tapauksessa, vastaako segmentti soinnillista vai soinnitonta ääntä, 35 kun segmenttiä pidetään soinnillisena jos sekä ennustekerroin ja ennustevahvis-tus ovat suurempia tai yhtäsuuria kuin vastaavat kynnykset; ja koodausyksiköille 2 111486 syötetään informaatiota parametreista mahdollista lisäämistä koodattuun signaalin varten, yhdessä luokittelusta kertovien parametrien kanssa joilla yksiköissä valitaan eri koodaustavat puhesegmentin ominaisuuksien mukaan; tunnettu siitä että pitkän aikavälin analyysin aikana viive estimoidaan kovarianssifunktion - 5 maksimin mukaan, painotettuna painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettu jakso on todellisen jakson monikerta, ikkunan sisällä, jonka pituus ei ole pienempi kuin itse viiveen suurin mahdollinen arvo; ja siitä että en-nustekertoimen ja vahvistuksen kynnykset ovat kuhunkin kehykseen adaptoituja kynnyksiä, jotta seurattaisiin taustakohinan kehityssuuntaa eikä puheen; adap-10 taatiota käytettäessä ainoastaan aktiivisten puhesignaalisegmenttien tapauksessa.
Kooderi menetelmän suorittamiseen sisältää välineet, joilla jaetaan puhesignaalin digitaalisten näytteiden sekvenssi kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä näytteitä; puhesignaalin ennusteanalyysiin tar-15 koitetut välineet, jotka sisältävät piirit, jotka synnyttävät parametrit, jotka edustavat lyhyen aikavälin spektriominaisuuksia ja lyhyen aikavälin ennustejäännös-signaalia, ja piirit, joilla jäännössignaalista saadaan parametrejä, jotka edustavat pitkän aikavälin spektriominaisuuksia, käsittäen pitkän aikavälin analyysin viiveen eli äänijakson d, ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G; 20 välineet apriori-luokitteluun, jotka tunnistavat, vastaako kehys aktiivisen puheen jaksoa vaiko hiljaisuutta ja vastaako aktiivisen puheen jakso soinnillista vai soinnitonta ääntä, luokitteluvälineiden sisältäessä piirit, jotka synnyttävät ensimmäisen ja toisen lipun aktiivisen puhejakson ja soinnillisen äänen signaloimiseksi vastaavasti, toisen lipun synnyttävien piirien sisältäessä välineet, joilla verrataan 25 ennustekertoimen ja vahvistuksen arvoja vastaaviin kynnyksiin ja joilla annetaan tuo lippu, kun kumpikin noista arvoista on suurempi kuin kynnykset; puhekoo-dausyksiköt, jotka synnyttävät koodatun signaalin käyttämällä ainakin joitain en-nusteanalyysivälineiden synnyttämistä parametreista, ja joita mainitut liput ohjaavat asettamaan koodattuun signaalin eri informaatiota kehyksessä olevan 30 puhesignaalin luonteen mukaan, ja on tunnettu siitä, että pitkän aikavälin ana-lyysiviiveen määrittävät piirit laskevat tuon viiveen maksimoimalla jäännös-signaalin kovarianssifunktion, kun tuo funktio lasketaan näyteikkunan sisällä, jonka pituus ei ole pienempi kuin suurin viiveelle sallittu arvo, ja sitä painotetaan painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettava maksimiarvo 35 on todellisen viiveen monikerta; ja siitä että toisen lipun synnyttävissä piireissä olevat vertailuvälineet suorittavat vertailun kehys kehykseltä vaihtelevin kynnyk- 3 111486 sin ja ovat yhteydessä kynnykset synnyttäviin välineisiin, kun vertailuvälineet ja kynnyksiä synnyttävät välineet toimivat ainoastaan ensimmäisen lipun esiintyessä.
Edellä olevat ja muut esillä olevan keksinnön piirteet tulevat selke-5 ämmiksi seuraavien liitteenä olevien piirrosten avulla, joissa - kuvio 1 on peruskaavio kooderista, jossa on keksintöä käyttävä ap-riori-luokittelu; - kuvio 2 on yksityiskohtaisempi kaavio eräistä kuvion 1 lohkoista; - kuvio 3 on kaavio ääni-ilmaisemesta; ja 10 - kuvio 4 on kaavio kuvion 3 ilmaisimen kynnyksenlaskentapiiristä.
Kuviosta 1 nähdään, että apriori-luokittelulla varustettu puhekooderi voidaan kuvata piirillä TR, joka jakaa liitoskohdassa 1 esiintyvän puhesignaalin digitaalisten näytteiden sekvenssin x(n) kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä Lf näytteitä (esim. 80 -160, joka tavanomaisella näyt-15 teistystaajuudella 8 kHz vastaa 10 - 20 ms puhetta). Kehykset viedään liitoskohdan 2 kautta ennusteanalyysiyksiköihin AS, jotka kullekin kehykselle laskevat ryhmän parametreja, jotka antavat informaatiota lyhyen aikavälin spektriominai-suuksista (liittyvät viereisten näytteiden väliseen korrelaatioon, joka saa aikaan ei-tasaisen spektriverhokäyrän) ja pitkän aikavälin spektriominaisuuksista (liitty-20 vät vierekkäisten äänijaksojen väliseen korrelaatioon, josta signaalin spektrin hienorakenne riippuu). AS vie nämä parametrit liitoskohdan 3 kautta luokittelu-yksikköön CL, joka tunnistaa sen, vastaako vallitseva kehys aktiivista vaiko inaktiivista puhetta ja aktiivisen puheen tapauksessa, vastaako vallitseva kehys *· soinnillista vai soinnitonta ääntä. Käytännössä tämä informaatio muodostuu lip- 25 puparista A, V, joka lähtee liitoskohdasta 4, jotka voivat saada arvot 1 tai 0 (esim. A=1 aktiivinen puhe, A=0 inaktiivinen puhe, ja V=1 soinnillinen ääni, V=0 soinniton ääni). Lippuja käytetään koodausyksiköiden CV ohjaukseen ja ne myös lähetetään vastaanottimeen. Tämän lisäksi, kuten myöhemmin nähdään, lippu V syötetään myös takaisin ennusteanalyysiyksikköön eräiden niiden suorit-,30 tamien toimenpiteiden jalostamiseksi.
Koodausyksiköt CV synnyttävät koodatun puhesignaalin y(n), joka lähtee liitoskohdasta 5, alkaen AS:n synnyttämistä parametreista ja lisäparametreistä, jotka edustavat informaatiota synteesisuodattimen virityksestä, joka simuloi puheen tuottavaa laitetta; kun lisäparametrit antaa virityslähde, jota kuvaa 35 lohko GE. Yleisesti ottaen eri parametrit syötetään CV:hen indeksien ji (AS:n synnyttämät parametrit) j2 (viritys) ryhmien muodossa. Nämä kaksi indeksiryh- 4 111486 mää esiintyvät liitoskohdissa 6, 7.
Yksiköt CV valitsevat lippujen A, V perusteella kaikkein sopivimman koodausstrategian ottaen myös huomioon kooderisovelluksen. Äänen luonteesta riippuen kaikki AS:n ja GE:n antama informaatio tai vain osa siitä viedään 5 koodattuun signaaliin; tietyille indekseille annetaan ennalta asetetut arvot jne. Esimerkiksi inaktiivisen puheen tapauksessa koodattu signaali sisältää hiljaisuuden kuvaavan bittikonfiguraation, esim konfiguraation, joka sallii vastaanottimen rekonstruoida niin kutsuttua "mukavuuskohinaa”, jos kooderia käytetään epäjatkuvassa lähetysjärjestelmässä; soinnittoman äänen tapauksessa signaali si-10 sältää ainoastaan lyhyen aikavälin analyysiin liittyvät parametrit eikä pitkän aikavälin analyysiin liittyviä, koska tämäntyyppisessä äänessä ei ole jaksollisuus-ominaisuuksia, ja niin edelleen. Yksiköiden CV tarkka rakenne ei ole keksinnön kannalta kiinnostava.
Kuvio 2 esittää yksityiskohtaisesti lohkojen AS ja CL rakenteen.
15 Liitoskohdassa 2 olevat näyte kehykset vastaanotetaan ylipääs- tösuodattimella FPA, jonka tehtävänä on poistaa tasakomponentti ja matalataa-juinen kohina ja näin synnyttää suodatettu signaali Xf(n), joka syötetään täysin tavanomaisiin lyhyen aikavälin analyysipiireihin ST, jotka sisältävät yksiköt, joilla lasketaan lineaariset ennustekertoimet a, (tai näihin kertoimiin liittyvät suureet), 20 ja lyhyen aikavälin ennustesuodattimeen, joka synnyttää lyhyen aikavälin ennus-tejäännössignaalin rs(n).
Kuten tavallista, piirit ST antavat kooderille CV (kuvio 1) liitoskohdan 60 kautta indeksi j(a), jotka saadaan kvantisoimalla kertoimet a, tai näitä edusta-vat muut suureet.
25 Jäännössignaali rs(n) viedään alipäästösuodattimeen FPB, joka syn nyttää suodatetun jäännössignaalin rf(n), joka syötetään pitkän aikavälin analyysipiireihin LT 1, LT2, jotka estimoivat vastaavasti äänijakson d ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G. Alipäästösuodatin tekee nämä toimenpiteet yksinkertaisemmiksi ja luotettavammiksi, kuten alaa tunteva tietää.
30 Äänijaksolla (eli pitkän aikavälin analyysiviiveellä) d on arvot välillä maksimi dH ja minimi di_, esim. 147 ja 20. Piiri LT1 estimoi jakson d suodatetun jäännössignaalin kovarianssifunktion avulla, funktion ollessa painotettu, keksinnön mukaan, sopivan ikkunan avulla, jota käsitellään myöhemmin.
Jakso d estimoidaan yleensä etsimällä suodatetun jäännöksen r<n) 35 5 111486 autokorrelaatiofunktion maksimi R(d) = Li’x drf(n+d) ri(n) (d = dL...dH) m n-0 ' ' 5 Tämä funktio arvioidaan koko kehykselle kaikille d:n arvoille. Tämä menetelmä on harvoin tehokas d:n suurille arvoille, koska (1 ):n tulojen lukumäärä vähenee d:n kasvaessa ja, jos dH > Lf/2, kaksi signaalisegmenttiä rt(n+d) ja rf(n) eivät mahdollisesti tarkoita äänijaksoa ja on vaarana, että äänijaksopulssi jää tarkastelematta. Tätä ei tapahtuisi, jos käytetään kovarianssifunktiota, joka 10 saadaan relaatiosta R (d.0)=L^1r((n-d)Tf (n) (d=dL...d^ (2)
n-O
missä suoritettavien tulojen lukumäärä on d:stä riippumaton ja kaksi 15 puhesegmenttiä rt(n-d) ja rt(n) aina sisältävät äänijakson (jos dH < Lf). Kovarianssifunktion käyttö kuitenkin sisältää suuren vaaran, että löydetty maksimiarvo on efektiivisen arvon monikerta, mistä seuraa kooderin suorituskyvyn heikentyminen. Tämä riski on paljon pienempi käytettäessä autokorrelaatiota, kiitos painotuksen, joka tulee implisiittisesti tehdyksi 20 suoritettaessa vaihteleva lukumäärä tuloja. Tämä painotus kuitenkin riippuu ainoastaan kehyksen pituudesta, jolloin ei sen määrää eikä muotoa pystytä optimoimaan, joten joko vaara säilyy tai voidaan valita oikean arvon tai oikean arvon alapuolella olevien haja-arvojen parillisia monikertoja. Ottamalla tämä huomioon, keksinnön mukaan, kovarianssi R painotetaan ikkunan w(d) avulla, 25 joka on riippumaton kehyksen pituudesta, ja painotetun funktion R w (d)=w (d) · R (d, 0) (3) maksimia etsitään d:n koko arvoväliltä. Tällä tavoin saadaan poistettua haitat, • · · 30 jotka ovat luontaisia sekä autokorrelaatiolle ja yksinkertaiselle kovarianssille: täten d:n estimointi on luotettava suurten viiveitten tapauksessa ja mahdollisuutta saada oikean viiveen monikerta hallitaan painotusfunktiolla, joka ei riipu kehyksen pituudesta ja jolla on mielivaltainen muoto, jotta pienennettäisiin tätä mahdollisuutta niin paljon kuin mahdollista.
35 Keksinnön mukainen painotusfunktio on: 6 111486 w(d)=dl°9*Kw (4) missä O < Kw < 1. Tällä funktiolla on ominaisuus 5 w(2d)/w(d) = Kw, (5) että suhteellinen painotus minkä tahansa viiveen ja sen kaksinkertaisen arvon välillä on vakio, joka on pienempi kuin 1. Pienet Kw:n arvot pienentävät mahdollisuutta saada arvoja, jotka ovat efektiivisen arvon monikertoja; toisaalta 10 liian pienet arvot voivat antaa maksimin, joka vastaa todellisen arvon murto-osaa tai haja-arvoa, ja tämän vaikutus on vielä pahempi. Näin ollen arvo Kw on kompromissi näiden kahden välillä, esim. sopivasta arvosta, jota käytetään kooderin käytännön toteutuksessa, on 0,7.
On huomattava, että jos viive dH on suurempi kuin kehyksen pituus, 15 kuten voi sattua käytettäessä melko lyhyitä kehyksiä (esim. 80 näytettä), summauksen alarajan tulee olla Lf-dH, 0:n sijasta, jotta tarkasteltaisiin ainakin yhtä äänijaksoa.
Kaavalla (3) laskettua viivettä voidaan korjata, jotta taattaisiin mahdollisimman tasainen viiveen kehityssuunta, menetelmillä, jotka ovat saman 20 kaltaisia kuin on kuvattu IT-patenttihakemuksessa nro TO 93A 000 244, jätetty 9. huhtikuuta 1993. Tämä koijaus suoritetaan, jos signaalin edellinen kehys oli soinnillinen (lippu V arvossa 1) ja jos lisälippu S oli aktiivinen, joka lisälippu signaloi puhejaksosta, jolla on tasainen kehityssuunta, ja jonka synnyttää piiri GS, joka kuvataan myöhemmin.
25 Tämän korjauksen suorittamiseksi tehdään kaavan (3) paikallisen maksimin etsintä edelliseen kehykseen liittyvän arvon d(-1) läheisyydessä ja paikallista maksimia vastaavaa arvoa käytetään, jos tämän paikallisen maksimin ja päämaksimin välinen suhde on suurempi kuin tietty kynnys. Hakuvälin määrittelevät arvot 30 di_' = max [(1-0s)d(-1), dj dH' = max [(1+0s)d(-1), dH] missä 0S on kynnys, jonka merkitys tulee selvemmäksi, kun kuvataan lipun S synnyttäminen. Tämän lisäksi haku suoritetaan vain, jos kaavalla (3) vallitsevassa kehyksessä laskettu viive d(O) on välin dV - d'H ulkopuolella.
35 Lohko GS laskee absoluuttiarvon 7 111486 |β| ldm-dro-i| m=Ld + 1....0 (β) ^m-1 suhteellisesta viiveen vaihtelusta kahden peräkkäisen kehyksen välillä tietylle lukumäärälle Ld kehyksiä, ja kussakin kehyksessä S synnyttää lipun S, jos | 0 | 5 on pienempi tai yhtäsuuri kuin kynnys 0S kaikille Ld kehyksille. Ld:n ja 0s:n arvot riippuvat Lf:stä. Käytännön toteutukset käyttävät arvoja Ld = 1 tai Ld = 2 vastaavasti 160:n ja 80:n näytteen kehyksille; vastaavat 0s:n arvot olivat 0,15 ja 0,1.
LT1 lähettää CV.IIe (kuvio 1), liitoskohdan 61 kautta, indeksin j(d) 10 (käytännössä d-di_+1) ja lähettää arvon d luokittelupiireille CL ja piireihin LT2, jotka laskevat pitkän aikavälin ennustekertoimen b ja vahvistuksen G. Nämä parametrit saadaan vastaavasti suhteista: (7) 15 R(d·^ R(0,0) w missä R on relaation (2) antama kovarianssifunktio. Edellä tehdyt 20 havainnot R:n lausekkeessa esiintyvän summauksen alarajan suhteen pätevät myös relaatioihin (7), (8). Vahvistus G antaa viitteen pitkän aikavälin ennusteen tehokkuudesta ja b on tekijä, jolla menneisiin jaksoihin liittyvää viritystä täytyy painottaa koodausvaiheen aikana. LT2 myös muuntaa (8):n antaman arvon G ·· vastaavaksi logaritmiseksi arvoksi G(dB) = 10!ogioG ja lähettää arvot b ja G(dB) 25 luokittelupiireihin CL (liitoskohtien 32, 33) kautta ja lähettää CVrhen (kuvio 1) liitoskohdan 62 kautta indeksi j(b), joka saatiin b:n kvantisoinnin kautta. Liitoskohdat 60, 61, 62 kuviossa 2 muodostavat yhdessä kuvion 1 liitoskohdan 6.
Liitteessä on C-kielinen listaus LT1:n, GS:n, LT2:n suorittamista toimenpiteistä. Tästä listauksesta lähtien alaa tuntevalla ei ole vaikeuksia :" 30 suunnitella tai ohjelmoida kuvattuja toimintoja suorittavia laitteita.
Luokittelupiirit muodostuvat kahden lohkon RA, RV sarjasta. Ensimmäisen tehtävänä on tunnistaa, vastaako kehys aktiivista puhejaksoa ja synnyttää sen vuoksi lippu A, joka viedään liitoskohtaan 40. Lohko RA voi olla mikä tahansa useasta alalla tunnetusta tyypistä. Valinta riippuu myös 35 puhekooderin CV laadusta. Esimerkiksi, lohko RA voi oleellisesti toimia kuten suosituksessa CEPT-CCH-GSM 06.32 kuvataan, ja siten se voi vastaanottaa 8 111486 ST:stä ja LT1:stä, liitoskohtien 30, 31 kautta informaatiota, joka vastaavasti liittyy lineaarisiin ennustekertoimiin ja äänijaksoon. Vaihtoehtoisesti RA voi toimia kuten jo mainittu R. Oi Francescon et alii paperissa.
Lohko RV, joka toimii lipun A ollessa arvossa 1, vertaa LT2:sta vas-5 taanotettuja arvoja b ja G(dB) vastaaviin kynnyksiin. Esillä olevan keksinnön mukaan kynnykset bs, Gs ovat adaptiivisia kynnyksiä, joiden arvo on arvojen b ja G(dB) funktio. Adaptiivisten kynnysten käyttö mahdollistaa suuresti lisätä kestävyyttä taustakohinaa vastaan. Tämä on perusteellisen tärkeää erityisesti liikkuvien tietoliikennejärjestelmien sovelluksissa, ja se parantaa myös riippumatto-10 muutta puhujasta.
Adaptiiviset kynnykset lasketaan kussakin kehyksessä seuraavalla tavalla. Ensiksikin b:n, G(dB):n todelliset arvot skaalataan vastaavilla tekijöillä Kb, KG, jolloin saadaan arvot b' = Kb.b, G' = KG.G(dB). Sopivat arvot kahdelle vakiolle Kb, KG ovat vastaavasti 0,8 ja 0,6. Arvot b' ja G' suodatatetaan sitten 15 alipäästösuodattimen läpi, jotta saataisiin vallitsevaan kehykseen liittyvät kynnysarvot bs(0), Gs(0), relaatioiden bs(0) = (1-a)b' + abs(-1) (9')
Gs(0) = (1-a)G’ + aG(-1) (9") mukaan, missä bs(-1) ja Gs(-1) ovat edelliseen kehykseen liittyvät arvot ja a on 20 vakio, joka on pienempi kuin 1 mutta hyvin lähellä arvoa 1. Alipäästösuodatuk-sen päämääränä, kertoimen ollessa hyvin lähellä arvoa 1, on saada kynnysa-daptaatio seuraamaan taustakohinan kehityssuuntaa, joka on yleensä verrattain vakaa myös pitkien jaksojen tapauksessa, eikä puheen kehityssuuntaa, joka on tyypillisesti epävakaa. Esimerkiksi, kerroinarvo a valitaan vastaamaan muuta-25 man sekunnin aikavakiota (esim. 5) ja näin ollen muutaman sadan kehyksen mittaista aikavakiota.
Arvot bs(0) ja Gs(0) leikataan sitten olemaan välillä bs(L) - bs(H) ja Gs(L) - Gs(H). Tyypillisä arvoja kynnyksille ovat 0,3 ja 0,5 b:lle ja 1 dB ja 2 dB G(dB):lle. Lähtösignaalin leikkaus mahdollistaa välttää liian hitaita paluita rajati-:1 30 lanteen tapauksessa, esim. sävelen koodauksen jälkeen, kun tulosignaaliarvot ovat hyvin korkeita. Kynnysarvot ovat ylärajojen vieressä tai ovat ylärajoilla, kun taustakohinaa ei ole ja kohinatason noustessa ne pyrkivät alarajoille.
Kuvio 3 esittää soinnillisuusilmaisimen RV rakenteen. Tämä ilmaisin muodostuu oleellisesti komparaattoriparista CM1, CM2, jotka voivat vastaanot-35 taa, lipun A:n ollessa 1, LT2:sta b:n ja G(dB):n arvot, verrata niitä kehys kehykseltä laskettuihin kynnyksiin, jotka vastaavat kynnyksen synnyttävät piirit CS1, 9 111486 CS2 ovat vieneet langoille CS1, CS2, ja antaa lähdöissä 36, 37 signaali, joka ilmaisee, että syöttöarvo on suurempi tai yhtäsuuri kuin kynnykset. AND-veräjät AN1 ja AN2, joilla on yhdet tulot vastaavasti kytkettyinä lankoihin 32 ja 33, ja toiset tulot kytketty lankaan 40, käynnistävät piirit RV vain aktiivisen puheen ta-5 pauksessa. Lippu V voidaan saada lähtösignaalina AND-veräjästä AN3, joka vastaanottaa kahteen tuloonsa kahden komparaattorin antamat signaalit.
Kuvio 4 esittää kynnyksen bs synnyttävän piirin CS1 rakenteen; CS2:n rakenne on samanlainen.
Piiri sisältää ensimmäisen kertojan M1, joka vastaanottaa langoilla 10 32' olevan kertoimen b, skaalaa sen tekijällä Kb ja synnyttää arvon b'. Tämä syötetään positiiviseen tuloon vähentäjässä S1, joka vastaanottaa negatiiviseen tuloonsa lähtösignaalin toisesta kertojasta M2, joka kertoo arvon b' vakiolla a.
S1:n lähtösignaali viedään summaajaan S2, joka vastaanottaa toiseen tuloon lähtösignaalin kolmannesta kertojasta M3, joka kertoo keskenään vakion a ja 15 kynnyksen bs(-1), joka liittyy edelliseen kehykseen ja saadaan viivästämällä viive-elimellä D1 kehyksen pituutta vastaavan ajan verran piirin lähdössä 36 olevaa signaalia. S2:n lähdössä oleva arvo, joka on (9'):n antama arvo, syötetään sitten leikkauspiiriin CT, joka sitten, jos tarpeen, leikkaa arvon bs(0) siten, että se pysyy annetun alueen sisällä ja antaa leikatun arvon lähdössä 36. Näin ollen 20 leikattua arvoa käytetään seuraaviin kehyksiin liittyvissä suodatuksissa.
On selvää, että mitä on kuvattu, on annettu ainoastaan ei-rajoittavana esimerkkinä ja että muunnelmat ja modifikaatiot ovat mahdollisia poikkeamatta keksinnön hengestä.
• 4 1 <.
« ‘ 10 111486
Liite /1 Haetaan pitkän aikavälin ennusteviivettä: 1/ 5
Rwrfdmax=-DBL_MAX; for (d_=dL; d_<=dH; d_++) (
Rrfd0=0.; •JO for (n=Lf-dH; n<=Lf-l; n++)
RrfdO+=rf[n-d_]1rf[n];
Rwrf[d_]=w_[dJ1RrfdO; •J5 jf (Rwrf[d_J>Rwrfdmax) ( d[0]=d_;
Rwrfdmax=Rwrf(d_]; } 20 ) f1 Haetaan toisen kerran pitkän aikavälin ennusteviivettä edellisen arvon ympäriltä: 1/ 25 dL_=sround((l.-absTHHTAd(hr)1d[-1]); dH_=sround((l.+absTHETAdthr)1d[-l]); if (dL_<dL) dL =dL; • · l —.7 else if (dH_>dH) dH_=dH; if (smoothing[-l J&&voicing[-l]&&(d[0]<dL_ld[0]>dH_)) ( 35 Rwrfdmax_=-DBL_MAX; for (d_=dL_;d_<=dH„;d_++) if (Rwrf[d_]>Rwrfdmax_) { 11 111486 d_=d_;
Rwrfdmax_=Rwrf[d_]; } 5 if (Rwrfdmax_yRwrfdmax>=KRwrfdthr) d[0]=d_; ) /* Tasauspäätös: */ 10 smoothing[0] = l; for (m=-Lds+l; m<=0; m++) if (fabs(d[m]-d[m-l])/d[m-l]>absTHETAdthr) smoothing[0]=0; 15 /* Pitkän aikavälin ennustekertoimen ja vahvistuksen laskenta */
Rrfdd=Rrfd0=Rrf00=0.; for (n=Lf-dH; n<=Lf-l; n++) 20 t
Rrfdd+=rf[n-d[0]]*rf[n-d[0]];
Rrfd0+=rf[n-d[0]]*rf[n];
Rrf00+=rf[nj*rf[n]; ; } 25 b=(Rrfdd>=epsilon)?RrfdO/Rrfdd:0.;
GdB=(Rrfdd>=epsilon&&Rrf00>=epsilon)?-10.*logl0(l.- b*Rrfd0/Rrf00):0.;
Claims (13)
12 111486
1. Menetelmä puhesignaalin koodaukseen, jossa koodattava signaali jaetaan digitaalisten näytteiden kehyksiksi, jotka sisältävät saman lukumäärän 5 näytteitä; kunkin kehyksen näytteille suoritetaan pitkän aikavälin ennusteana-lyysi, jotta signaalista saataisiin erotettua parametriryhmä, joka sisältää äänijak-soa vastaavan viiveen d, ennustekertoimen b ja ennustevahvistuksen G, ja luokittelu, joka ilmaisee, vastaako kehys itse aktiivista vai inaktiivista puhesignaa-lisegmenttiä, ja aktiivisen signaalisegmentin tapauksessa, vastaako segmentti 10 soinnillista vai soinnitonta ääntä, kun segmenttiä pidetään soinnillisena, jos sekä ennustekerroin ja ennustevahvistus ovat suurempia tai yhtäsuuria kuin vastaavat kynnykset; ja koodausyksiköilie annetaan informaatiota kyseisistä parametreista mahdollista lisäämistä koodattuun signaaliin varten yhdessä luokittelusta kertovien parametrien kanssa, joilla yksiköissä valitaan eri koodaustavat 15 puhesegmentin ominaisuuksien mukaan; tunnettu siitä, että pitkän aikavälin analyysin aikana viive estimoidaan kovarianssifunktion maksimin mukaan, painotettuna painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettu jakso on todellisen jakson monikerta, ikkunan sisällä, jonka pituus ei ole pienempi kuin itse viiveen suurin mahdollinen arvo; ja siitä, että ennustekertoimen 20 ja vahvistuksen kynnykset ovat kuhunkin kehykseen adaptoituja kynnyksiä, jotta seurattaisiin taustakohinan kehityssuuntaa eikä puheen; adaptaatiota käytettäessä ainoastaan aktiivisten puhesignaalisegmenttien tapauksessa.
2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että painotusfunktio kullekin sallitulle viivearvolle on funktio, joka on tyyppiä w(d) * 25 = dlog2Kw, missä d on viive ja Kw on positiivinen vakio pienempi kuin 1.
3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että kovarianssifunktio lasketaan koko kehykselle, jos viiveen suurin sallittu arvo on pienempi kuin kehyksen pituus, tai näyteikkunalle, jonka pituus on yhtä suuri kuin maksimiviive ja joka sisältää kehyksen, jos maksimiviive on suurempi kuin ... 30 kehyksen pituus.
4. Patenttivaatimuksen 3 mukainen menetelmä, tunnettu siitä, että kussakin kehyksessä synnytetään äänijakson tasausta ilmaiseva signaali, ja pitkän aikavälin analyysin aikana, jos edellisessä kehyksessä oleva signaali oli soinnillinen ja suoritettiin äänijakson tasaus, suoritetaan myös painotetun kova- 35 rianssifunktion toisen maksimin etsintä edellisessä kehyksessä löydetyn arvon ympäristössä, ja tätä toista maksimia vastaavaa arvoa käytetään viiveenä, jos 13 111486 se poikkeaa ennalta asetettua määrää pienemmällä määrällä vallitsevan kehyksen kovarianssifunktion maksimista.
5. Patenttivaatimuksen 4 mukainen menetelmä, tunnettu siitä, että äänijakson tasausta ilmaisevan signaalin synnyttämiseksi lasketaan kahden 5 peräkkäisen kehyksen välinen viiveen vaihtelu ennalta asetetulle lukumäärälle vallitsevaa kehystä edeltäviä kehyksiä; näiden vaihtelujen absoluuttiarvot estimoidaan; näin saatuja absoluuttiarvoja verrataan viivekynnykseeen ja ilmaiseva signaali synnytetään, jos absoluuttiarvot ovat kaikki alempia kuin viivekynnys.
6. Patenttivaatimuksen 4 tai 5 mukainen menetelmä, tunnettu 10 siitä, että ympäristön leveys on viivekynnyksen funktio.
7. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että pitkän aikavälin ennustekertoimen ja vahvistuksen kynnyksien laskemiseksi kehyksessä, ennustekertoimen ja vahvistuksen arvot skaalataan vastaavilla ennalta asetetuilla tekijöillä; edellisessä kehyksessä saadut kynnykset ja sekä ker- 15 toimen että vahvistuksen skaalatut arvot alipäästösuodatetaan ensimmäisellä suodatuskertoimella, joka saa aikaan kehyksen kestoon verraten hyvin pitkän aikavakion, ja vastaavasti toisella suodatuskertoimella, joka on ensimmäisen 1-komplementti; ja että ennustekertoimen ja vahvistuksen skaalatut ja suodatetut arvot summataan vastaavaan suodatettuun kynnykseen, summauksesta saata-20 van arvon ollessa päivitetty kynnysarvo.
8. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että summauksesta saatavat kynnysarvot leikataan maksimiarvon ja minimiarvon mukaan, ja siitä, että seuraavassa kehyksessä näin leikatut arvot alipäästösuodatetaan. ··' 25 9. Laite puhesignaalin digitaaliseen koodaukseen, sisältää välineet (TR), joilla jaetaan puhesignaalin digitaalisten näytteiden sekvenssi kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä näytteitä; puhesignaalin en-nusteanalyysiin tarkoitetut välineet (AS), jotka sisältävät piirit (ST), jotka synnyttävät parametrit, jotka edustavat lyhyen aikavälin spektriominaisuuksia ja lyhyen 30 aikavälin ennustejäännössignaalia, ja piirit (LT1, LT2), joilla jäännössignaalista saadaan parametreja, jotka edustavat pitkän aikavälin spektriominaisuuksia, käsittäen pitkän aikavälin analyysin viiveen eli äänijakson d, ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G; välineet apriori luokitteluun (CL), jotka tunnistavat, vastaako kehys aktiivisen puheen jaksoa vaiko hiljaisuutta ja vas-35 taako aktiivisen puheen jakso soinnillista vai soinnitonta ääntä, luokitteluvälineiden sisältäessä piirit (RA, RV), jotka synnyttävät ensimmäisen ja toisen lipun (A, 111486 V) aktiivisen puhejakson ja soinnillisen äänen signaloimiseksi vastaavasti, toisen lipun synnyttävien piirien (RV) sisältäessä välineet (CM1, CM2), joilla verrataan ennustekertoimen ja vahvistuksen arvoja vastaaviin kynnyksiin ja joilla annetaan tuo lippu, kun kumpikin noista arvoista on suurempi kuin kynnykset; puhekoo-5 dausyksiköt (CV), jotka synnyttävät koodatun signaalin käyttämällä ainakin joitain ennusteanalyysivälineiden synnyttämistä parametreista, ja joita mainitut liput (A, V) ohjaavat asettamaan koodattuun signaalin eri informaatiota kehyksessä olevan puhesignaalin luonteen mukaan, tunnettu siitä, että pitkän aikavälin analyysiviiveen määrittävät piirit (LT1) laskevat tuon viiveen maksimoimalla 10 jäännössignaalin kovarianssifunktion, kun tuo funktio lasketaan näyteikkunan sisällä, jonka pituus ei ole pienempi kuin suurin viiveelle sallittu arvo, ja sitä painotetaan painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettava maksimiarvo on todellisen viiveen monikerta; ja siitä että toisen lipun (V) synnyttävissä piireissä (RV) olevat vertailuvälineet (CM1, CM2) suorittavat vertailun 15 kehys kehykseltä vaihtelevin kynnyksin ja ovat yhteydessä kynnykset synnyttäviin välineisiin (CS1, CS2), kun vertailuvälineet ja kynnyksiä synnyttävät välineet toimivat ainoastaan ensimmäisen lipun esiintyessä.
10. Patenttivaatimuksen 9 mukainen laite, tunnettu siitä, että painotusfunktio kullekin sallitulle viivearvolle on funktio joka on tyyppiä w(d) = 20 dl092Kw, missä d on viive ja Kw on positiivinen vakio pienempi kuin 1.
11. Patenttivaatimusten 9 ja 10 mukainen laite, tunnettu siitä, että pitkän aikavälin analyysiviiveen laskevat piirit (LT1) ovat yhteydessä välineisiin (GS), joilla tunnistetaan kehyssekvenssi, jossa on viiveen tasaus, jotka välineet synnyttävät ja antavat piireille (LT1) kolmannen lipun (S), jos kyseisessä ·· 25 kehyssekvenssissä peräkkäisten kehysten välisen suhteellisen viiveen vaihtelun absoluuttiarvo on aina pienempi kuin ennalta asetettu viivekynnys.
12. Patenttivaatimuksen 11 mukainen laite, tunnettu siitä, että viiveen laskevat piirit (LT1) suorittavat kehyksessä lasketun viivearvon korjauksen, jos edellisessä kehyksessä annettiin toinen ja kolmas lippu (V, S), ja anta- 30 vat käytettäväksi arvoksi sen, joka vastaa painotetun kovarianssifunktion toista maksimia edellisessä kehyksessä lasketun viivearvon ympäristössä, jos tämä maksimi on suurempi kuin ennalta määrätty murto-osa päämaksimista.
13. Patenttivaatimusten 9 ja 10 mukainen laite, tunnettu siitä, että ennustekertoimen ja vahvistuksen kynnykset synnyttävät piirit (CS1, CS2) 35 sisältävät: 15 111486 - ensimmäisen kertojan (M1), jolla skaalataan kerroin tai vahvistus vastaavalla tekijällä; - alipäästösuodattimen (S1, M2, D1, M3), jolla suodatetaan edelliselle kehykselle laskettu kynnys ja skaalattu arvo vastaavasti ensimmäisen suodatus- 5 kertoimen mukaan, joka vastaa arvoltaan kehyksen pituutta paljon suurempaa aikavakiota, ja toisen kertoimen mukaan, joka on ensimmäisen 1 :n komplementti; - summaajan (S2), joka antaa vallitsevan kynnysarvon suodatettujen signaalien summana; 10. leikkauspiirin (CT), jolla kynnysarvo pidetään ennalta asetetun arvo- välin sisällä. « 16 111486
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ITTO930419 | 1993-06-10 | ||
ITTO930419A IT1270438B (it) | 1993-06-10 | 1993-06-10 | Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce |
Publications (3)
Publication Number | Publication Date |
---|---|
FI942761A0 FI942761A0 (fi) | 1994-06-10 |
FI942761A FI942761A (fi) | 1994-12-11 |
FI111486B true FI111486B (fi) | 2003-07-31 |
Family
ID=11411549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI942761A FI111486B (fi) | 1993-06-10 | 1994-06-10 | Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa |
Country Status (10)
Country | Link |
---|---|
US (1) | US5548680A (fi) |
EP (1) | EP0628947B1 (fi) |
JP (1) | JP3197155B2 (fi) |
AT (1) | ATE170656T1 (fi) |
CA (1) | CA2124643C (fi) |
DE (2) | DE628947T1 (fi) |
ES (1) | ES2065871T3 (fi) |
FI (1) | FI111486B (fi) |
GR (1) | GR950300013T1 (fi) |
IT (1) | IT1270438B (fi) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
KR970017456A (ko) * | 1995-09-30 | 1997-04-30 | 김광호 | 음성신호의 무음 및 무성음 판별방법 및 그 장치 |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
FI114248B (fi) * | 1997-03-14 | 2004-09-15 | Nokia Corp | Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen |
FI971679A (fi) * | 1997-04-18 | 1998-10-19 | Nokia Telecommunications Oy | Puheen havaitseminen tietoliikennejärjestelmässä |
FI113903B (fi) * | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
US5970441A (en) * | 1997-08-25 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Detection of periodicity information from an audio signal |
US5999897A (en) * | 1997-11-14 | 1999-12-07 | Comsat Corporation | Method and apparatus for pitch estimation using perception based analysis by synthesis |
US6023674A (en) * | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
EP0993674B1 (en) * | 1998-05-11 | 2006-08-16 | Philips Electronics N.V. | Pitch detection |
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
US7072832B1 (en) | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6507814B1 (en) | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
JP3180786B2 (ja) * | 1998-11-27 | 2001-06-25 | 日本電気株式会社 | 音声符号化方法及び音声符号化装置 |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
FI116992B (fi) | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
KR100388488B1 (ko) * | 2000-12-27 | 2003-06-25 | 한국전자통신연구원 | 유성음 구간에서의 고속 피치 탐색 방법 |
US6876965B2 (en) | 2001-02-28 | 2005-04-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Reduced complexity voice activity detector |
FR2825505B1 (fr) * | 2001-06-01 | 2003-09-05 | France Telecom | Procede d'extraction de la frequence fondamentale d'un signal sonore au moyen d'un dispositif mettant en oeuvre un algorithme d'autocorrelation |
US7177304B1 (en) * | 2002-01-03 | 2007-02-13 | Cisco Technology, Inc. | Devices, softwares and methods for prioritizing between voice data packets for discard decision purposes |
USH2172H1 (en) * | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
AU2003248029B2 (en) * | 2002-09-17 | 2005-12-08 | Canon Kabushiki Kaisha | Audio Object Classification Based on Statistically Derived Semantic Information |
DE102005002195A1 (de) * | 2005-01-17 | 2006-07-27 | Siemens Ag | Verfahren und Anordnung zur Regeneration eines optischen Datensignals |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
KR100717396B1 (ko) | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 로컬 스펙트럴 정보를 이용하여 음성 인식을 위한 유성음을판단하는 방법 및 장치 |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
JP5229234B2 (ja) * | 2007-12-18 | 2013-07-03 | 富士通株式会社 | 非音声区間検出方法及び非音声区間検出装置 |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
GB2466675B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
US8767978B2 (en) | 2011-03-25 | 2014-07-01 | The Intellisis Corporation | System and method for processing sound signals implementing a spectral motion transform |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US10423650B1 (en) * | 2014-03-05 | 2019-09-24 | Hrl Laboratories, Llc | System and method for identifying predictive keywords based on generalized eigenvector ranks |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US10390589B2 (en) | 2016-03-15 | 2019-08-27 | Nike, Inc. | Drive mechanism for automated footwear platform |
FR3056813B1 (fr) * | 2016-09-29 | 2019-11-08 | Dolphin Integration | Circuit audio et procede de detection d'activite |
EP3306609A1 (en) * | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5359696A (en) * | 1988-06-28 | 1994-10-25 | Motorola Inc. | Digital speech coder having improved sub-sample resolution long-term predictor |
US5208862A (en) * | 1990-02-22 | 1993-05-04 | Nec Corporation | Speech coder |
CA2051304C (en) * | 1990-09-18 | 1996-03-05 | Tomohiko Taniguchi | Speech coding and decoding system |
JPH04264600A (ja) * | 1991-02-20 | 1992-09-21 | Fujitsu Ltd | 音声符号化装置および音声復号装置 |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
-
1993
- 1993-06-10 IT ITTO930419A patent/IT1270438B/it active IP Right Grant
-
1994
- 1994-05-17 US US08/243,295 patent/US5548680A/en not_active Expired - Lifetime
- 1994-05-30 CA CA002124643A patent/CA2124643C/en not_active Expired - Lifetime
- 1994-06-09 DE DE0628947T patent/DE628947T1/de active Pending
- 1994-06-09 ES ES94108874T patent/ES2065871T3/es not_active Expired - Lifetime
- 1994-06-09 AT AT94108874T patent/ATE170656T1/de active
- 1994-06-09 DE DE69412913T patent/DE69412913T2/de not_active Expired - Lifetime
- 1994-06-09 EP EP94108874A patent/EP0628947B1/en not_active Expired - Lifetime
- 1994-06-09 JP JP15057194A patent/JP3197155B2/ja not_active Expired - Lifetime
- 1994-06-10 FI FI942761A patent/FI111486B/fi not_active IP Right Cessation
-
1995
- 1995-03-31 GR GR950300013T patent/GR950300013T1/el unknown
Also Published As
Publication number | Publication date |
---|---|
ES2065871T1 (es) | 1995-03-01 |
EP0628947B1 (en) | 1998-09-02 |
EP0628947A1 (en) | 1994-12-14 |
ITTO930419A0 (it) | 1993-06-10 |
ATE170656T1 (de) | 1998-09-15 |
FI942761A (fi) | 1994-12-11 |
JP3197155B2 (ja) | 2001-08-13 |
FI942761A0 (fi) | 1994-06-10 |
GR950300013T1 (en) | 1995-03-31 |
CA2124643A1 (en) | 1994-12-11 |
DE69412913T2 (de) | 1999-02-18 |
ES2065871T3 (es) | 1998-10-16 |
DE628947T1 (de) | 1995-08-03 |
IT1270438B (it) | 1997-05-05 |
ITTO930419A1 (it) | 1994-12-10 |
CA2124643C (en) | 1998-07-21 |
DE69412913D1 (de) | 1998-10-08 |
JPH0728499A (ja) | 1995-01-31 |
US5548680A (en) | 1996-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI111486B (fi) | Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa | |
AU2024203054B2 (en) | Audio encoder and decoder | |
US7155386B2 (en) | Adaptive correlation window for open-loop pitch | |
US6202046B1 (en) | Background noise/speech classification method | |
US6134518A (en) | Digital audio signal coding using a CELP coder and a transform coder | |
US10706865B2 (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction | |
US6047253A (en) | Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal | |
US6910009B1 (en) | Speech signal decoding method and apparatus, speech signal encoding/decoding method and apparatus, and program product therefor | |
EP1159739A1 (en) | Method and apparatus for eighth-rate random number generation for speech coders | |
US5313554A (en) | Backward gain adaptation method in code excited linear prediction coders | |
Zhang et al. | A CELP variable rate speech codec with low average rate | |
Bae et al. | On a new predictor for the waveform coding of speech signal by using the dual autocorrelation and the sigma-delta technique | |
RU2828411C2 (ru) | Звуковые кодирующее устройство и декодирующее устройство | |
CN111630591A (zh) | 支持不同丢失消隐工具的集合的音频解码器 | |
GB2327021A (en) | Speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GB | Transfer or assigment of application |
Owner name: TELECOM ITALIA S.P.A. |
|
MA | Patent expired |