JPH037994A - Generating device for singing voice synthetic data - Google Patents

Generating device for singing voice synthetic data

Info

Publication number
JPH037994A
JPH037994A JP1142402A JP14240289A JPH037994A JP H037994 A JPH037994 A JP H037994A JP 1142402 A JP1142402 A JP 1142402A JP 14240289 A JP14240289 A JP 14240289A JP H037994 A JPH037994 A JP H037994A
Authority
JP
Japan
Prior art keywords
data
voice
information
input
song
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1142402A
Other languages
Japanese (ja)
Inventor
Kanji Kunisawa
国澤 寛治
Noboru Uechi
上地 登
Akira Yamamura
山村 彰
Junko Omukai
大向 順子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP1142402A priority Critical patent/JPH037994A/en
Publication of JPH037994A publication Critical patent/JPH037994A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To obtain a singing voice of high quality by inputting a musical score and a singing voice, extracting respective data on a character string, pitch, strength, length, and synthesizing a voice. CONSTITUTION:A score input part 1 extracts character string data as phoneme information and pitch data as rhythm information from the input score. The phoneme information extracting means consisting of a song voice input part 2, a feature extraction part 3, a segmentation processing part 4, and a rhythm information extraction part 5 extracts strength data and length data as rhythm information from the input song voice. The character string data, pitch data, strength data, and length data which are thus extracted are encoded by an encoding part 6 and outputted as the voice data of a voice synthesizing circuit X. Thus, the strength and length data are extracted according to an actual singing voice and the pitch data is extracted from the score, so a natural and accurate singing voice can be synthesized.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、音韻情報および韻律情報よりなる音声データ
に基づいて歌音声の規則合成を行う音声合成回路に入力
される歌音声合成データの作成装置に関するものである
[Detailed Description of the Invention] [Industrial Application Field] The present invention is directed to the creation of song speech synthesis data that is input to a speech synthesis circuit that performs rule synthesis of song speech based on speech data consisting of phonological information and prosody information. It is related to the device.

[従来の技術] 一般に、音声の規則合成方式は、音韻情報を制御する音
韻パラメータと韻律情報を制御する韻律パラメータを入
力とし、音声学的・言語学的規則に基づいて音声を生成
する方式であって、処理する情報量(外部入力情報、内
部蓄積情・報)は非常に少ないにも拘らず、大量の単語
や文章の合成音声を出力することができるようにした音
声合成方式である。
[Prior Art] In general, a speech rule synthesis method is a method that generates speech based on phonetic and linguistic rules by inputting phonological parameters that control phonological information and prosodic parameters that control prosodic information. Although the amount of information to be processed (external input information, internally stored information) is very small, it is a speech synthesis method that can output synthesized speech of a large number of words and sentences.

一方、テキスト合成方式は、文字列のみから音声合成を
行なうという究極の音声合成方式であり、文字列から音
韻情報と韻律情報を自動的に作成しそれらの情報に基づ
いて規則合成を行なうことにより実現されるものである
。しかしながら、現在盛んに研究されているものの、合
成音声の品質はまだ低い。
On the other hand, the text synthesis method is the ultimate speech synthesis method that performs speech synthesis only from character strings. It automatically creates phonological information and prosody information from character strings and performs rule synthesis based on that information. It will be realized. However, although it is currently being actively researched, the quality of synthesized speech is still low.

ここで、テキスト合成を、文字列から音韻情報と韻律情
報を自動的に作成し、それらを音声デー夕とし記憶媒体
に記憶させたり、伝送路に出力したりする部分と、記憶
媒体や伝送路から音声データを取り出し、規則合成によ
って音声を出力する部分の2つに分けることが考えられ
、このようにすると合成音声を出力する部分はコンパク
トになる、すなわち、小型、軽量化、低コスト化が図れ
るく特願昭62−263298号参照)、。
Here, text synthesis consists of two parts: automatically creating phonological information and prosody information from character strings, storing them as audio data on a storage medium, or outputting them to a transmission line, and the other part: It is conceivable to extract voice data from the system and divide it into two parts, a part that outputs the sound by rule synthesis.In this way, the part that outputs the synthesized speech can be made compact, that is, it can be made smaller, lighter, and lower in cost. (See Japanese Patent Application No. 62-263298).

ところで、歌音声を合成する場合について考えると、こ
の場合の究極の形は、楽譜を入力すると歌音声が出力さ
れるものということになる。これをテキスト合成方式と
比べると、楽譜の場合は文字列(歌詞)だけでなく、そ
の他の情報も含まれているので韻律情報の生成が容易で
あり、テキスト合成方式よりも簡単な構成で品質も高い
ものが得られることになる(特願昭63−177314
号参照)。
By the way, when we consider the case of synthesizing singing voices, the ultimate form in this case is that when a musical score is input, singing voices are output. Comparing this with the text synthesis method, it is easy to generate prosodic information because musical scores contain not only character strings (lyrics) but also other information, and the structure is simpler than the text synthesis method. (Patent application 177314/1986)
(see issue).

この場合についても、テキスト合成のところで考えたの
と同じように、楽譜から音韻情報と韻律情報を自動的に
作成し、それを音声データとし記憶媒体に記憶させたり
、伝送路に出力したりする部分と、記憶媒体や伝送路か
ら音声データを取り出し、規則合成によって音声を出力
する部分の2つに分けることが考えられる6 [発明が解決しようとする課題] しかしながら、上述のように、楽譜を入力とした場合、
文字列のみより情報量が多いものの、高さについては音
符より一義的に決るが、長さについては各音符に対する
長さが与えられるだけであり、その中で子音長や母音共
をどれだけにするかは与えられないので規則によって決
める必要があり、強さについても具体的な数値で与えら
れるわけではないので、これも規則により具体的な数値
として表現する必要があり、現在の技術レベルでは品質
の低い音声しか得られないという問題があった。
In this case as well, in the same way as we considered text synthesis, we can automatically create phonological information and prosody information from the musical score, and store it as audio data on a storage medium or output it to a transmission path. It is conceivable to divide the musical score into two parts: a part that extracts audio data from a storage medium or a transmission path, and outputs audio through rule synthesis.6 [Problem to be solved by the invention] However, as mentioned above, it is difficult to If input,
Although the amount of information is larger than a string alone, the height is determined more uniquely than a note, but the length is only given for each note, and it is difficult to determine how much consonant length and vowel length should be used. Since it is not given whether it will be strong or not, it must be determined by rules, and strength is not given as a specific value, so this also needs to be expressed as a specific value according to rules, and at the current technological level, There was a problem that only low-quality audio could be obtained.

本発明は上記の点に鑑みて為されたものであり、その目
的とするところは、規則合成方式の音声合成回路に入力
される歌音声合成データとして、自然な歌音声に対する
音声データが得られ、しかも、より品質の高い歌音声を
音声合成回路から出力させる音声データを簡単な構成で
実現でき、安価な歌音声合成データの作成装置を提供す
ることである。
The present invention has been made in view of the above points, and its purpose is to obtain voice data for natural singing voices as song voice synthesis data input to a regular synthesis type voice synthesis circuit. Moreover, it is an object of the present invention to provide an inexpensive singing voice synthesis data creation device that can realize voice data for outputting higher quality song voices from a voice synthesis circuit with a simple configuration.

[課題を解決するための手段] 本発明の歌音声合成データの作成装置は、音韻情報およ
び韻律情報よりなる音声データに基づいて歌音声の規則
合成を行う音声合成回路に入力される歌音声合成データ
の作成装置において、楽譜と歌音声とを入力とし、入力
される楽譜から音韻情報である文字列データと韻律情報
である高さデータとを抽出する楽譜情報抽出手段を設け
るとともに、入力される歌音声から韻律情報である強さ
データと長さデータとを抽出する歌音声情報抽出手段を
設け、両抽出手段にて抽出された文字列データ、高さデ
ータ、強さデータおよび長さデータを音声データとして
出力するようにしたものである。
[Means for Solving the Problems] The song speech synthesis data creation device of the present invention provides song speech synthesis data that is input to a speech synthesis circuit that performs rule synthesis of song speech based on speech data consisting of phonological information and prosody information. In the data creation device, a musical score and a singing voice are input, and a musical score information extraction means is provided for extracting character string data as phonological information and height data as prosody information from the input musical score. A song voice information extraction means is provided for extracting strength data and length data, which are prosody information, from the song voice, and character string data, height data, strength data, and length data extracted by both extraction means are provided. It is designed to be output as audio data.

[作 用] 本発明は上述のように構成されており、歌音声の規則合
成を行う音声合成回路に入力される歌音声合成データの
作成装置において、入力される楽譜から音韻情報である
文字列データと韻律情報である高さデータとを抽出する
楽譜情報抽出手段を設けるとともに、入力される歌音声
から韻律情報である強さデータと長さデータとを抽出す
る歌音声情報抽出手段を設け、両抽出手段にて抽出され
た文字列データ、高さデータ、強さデータおよび長さデ
ータを音声データとして出力するようにしたものであり
、実際の歌音声に基づいて強さデータと長さデータを抽
出しているので、規則合成方式の音声合成回路に入力さ
れる歌音声合成データとして、自然な歌音声に対する音
声データが得られるようになっている。また、高さデー
タを楽譜データから抽出しているので、入力される歌音
声の音程が楽譜からずれていても正確な音程の歌音声を
合成することができ、しかも、複雑な処理を必要とする
ピッチ抽出処理が不要であるので、より品質の高い歌音
声を得るための音声データを簡単な構成で実現でき、安
価な歌音声合成データの作成装置を提供することができ
るようになっている。
[Function] The present invention is configured as described above, and in a device for creating song speech synthesis data that is input to a speech synthesis circuit that performs rule synthesis of song speech, a character string that is phonetic information is extracted from an input musical score. Provided with musical score information extraction means for extracting data and height data as prosody information, and song voice information extraction means for extracting strength data and length data as prosody information from the input song voice, The character string data, height data, strength data, and length data extracted by both extraction means are output as audio data, and the strength data and length data are extracted based on the actual singing voice. , so that natural singing voice data can be obtained as song voice synthesis data that is input to the regular synthesis type voice synthesis circuit. In addition, since the height data is extracted from the musical score data, even if the pitch of the input singing voice deviates from the musical score, it is possible to synthesize a singing voice with an accurate pitch, and it does not require complicated processing. Since there is no need for pitch extraction processing, it is possible to create voice data for obtaining higher quality singing voices with a simple configuration, and it is now possible to provide an inexpensive device for creating singing voice synthesis data. .

[実施例] 第1図は本発明一実施例を示すもので、音韻情報および
韻律情報よりなる音声データに基づいて歌音声の規則合
成を行う音声合成回路Xに入力される歌音声合成データ
の作成装置Yにおいて、楽譜と歌音声とを入力とし、入
力される楽譜から音韻情報である文字列データと韻律情
報である高さデータとを抽出する楽譜情報抽出手段を設
けるとともに、入力される歌音声から韻律情報である強
さデータと長さデータとを抽出する歌音声情報抽出手段
を設け、両抽出手段にて抽出された文字列データ、高さ
データ、強さデータおよび長さデータを音声データとし
て出力するようにしたものである。ここに、楽譜情報抽
出手段は、楽譜の文字列データ、高さデータを入力する
キー人力装置あるいは光学的楽譜読み取り装置よりなる
楽譜入力部1にて形成され、音韻情報抽出手段は、マイ
クロフォンのような歌音声入力部2と、入力された歌音
声の特徴を抽出する特徴抽出部3と、特徴抽出された歌
音声を音韻毎に分割するセグメンテーション処理部4と
、分割された各音韻の強さデータおよび長さデータを抽
出する韻律情報抽出部5とで形成されている。また、抽
出された各データは符号化部6で符号化されて音声合成
回路Xの音声データとして出力されるよう番こなってい
る。
[Embodiment] FIG. 1 shows an embodiment of the present invention, in which song speech synthesis data input to a speech synthesis circuit X that performs rule synthesis of song speech based on speech data consisting of phonological information and prosody information The creation device Y is provided with a musical score information extraction means for inputting a musical score and a singing voice, and extracting character string data as phonological information and height data as prosody information from the input musical score. A song voice information extraction means for extracting strength data and length data, which are prosodic information, from voice is provided, and the character string data, height data, strength data, and length data extracted by both extraction means are extracted from the voice. It is designed to be output as data. Here, the musical score information extracting means is formed by the musical score input section 1 consisting of a manual key device or an optical musical score reading device that inputs the character string data and height data of the musical score, and the phonological information extracting means is formed by a musical score input unit 1 consisting of an optical musical score reading device. a song voice input section 2, a feature extraction section 3 that extracts features of the input song voice, a segmentation processing section 4 that divides the feature-extracted song voice into phonemes, and a strength of each divided phoneme. It is formed by a prosodic information extraction section 5 that extracts data and length data. Further, each extracted data is encoded by the encoding section 6 and outputted as voice data from the voice synthesis circuit X.

いま、本実施例にあっては、楽譜と歌音声を入力として
規則合成方式の音声合成回路Xに対する音声データ(音
韻情報と韻律情報)を出力とするようになっており、楽
譜からは文字列(音韻列)データと高さ(ピッチ)デー
タを抽出する(第2図参照)、このためには、人間が楽
譜を読取ってデータ化してキーボードから入力する方法
や、光学楽譜読取り装置により自動的に楽譜からデータ
を抽出する方法などが考えられる。
Now, in this embodiment, the musical score and singing voice are input, and the voice data (phonological information and prosody information) is output to the voice synthesis circuit X of the regular synthesis method, and the character string is To extract (phoneme sequence) data and height (pitch) data (see Figure 2), there are two ways to do this: a human reading the music score, converting it into data, and inputting it from a keyboard, or automatically using an optical music score reader. Another possible method is to extract data from musical scores.

一方、入力される歌音声からは強さデータと長さデータ
を抽出する(第2図参照)。このためには、歌音声を各
音韻毎に分割する(セグメンテーション)処理が必要と
なり、この際に、楽譜から入力した音韻列の情報を用い
ればセグメンテーションが容易に行える(日本音響学会
講演論文集(昭和63年3月)2−4−1rトツプダウ
ン音素セグメンテーシヨンによる音素辞書自動作成」)
On the other hand, intensity data and length data are extracted from the input singing voice (see Figure 2). For this purpose, it is necessary to perform segmentation processing to divide the singing voice into each phoneme, and segmentation can be easily performed by using information on the phoneme sequence input from the musical score (Proceedings of the Acoustical Society of Japan). (March 1988) 2-4-1r Automatic creation of phoneme dictionary using top-down phoneme segmentation”)
.

このセグメンテーション結果に基づき各モーラの強さデ
ータや各音韻の長さデータを抽出する。このようにして
得られたデータを符号化部6で符号化し、記憶媒体に記
憶させたり、伝送路に出力し、音声合成回路Xに対する
音声データとして使用する。以上のようにして、規則合
成方式の音声合成回路に入力される歌音声合成データと
して、自然な歌音声に対するデータが得られ、しかも二
複雑な処理を必要とするピッチ抽出処理が不要となるの
で、装置の構成が簡単になって安価なものが得られるこ
とになる。
Based on this segmentation result, strength data of each mora and length data of each phoneme are extracted. The data obtained in this manner is encoded by the encoding unit 6, stored in a storage medium, or output to a transmission path, and used as voice data for the voice synthesis circuit X. As described above, data for natural singing voices can be obtained as singing voice synthesis data input to the regular synthesis type voice synthesis circuit, and pitch extraction processing, which requires two complex processes, is not required. , the structure of the device becomes simple and inexpensive.

[発明の効果] 本発明は上述のように構成されており、歌音声の規則合
成を行う音声合成回路に入力される歌音声合成データの
作成装置において、入力される楽譜から音韻情報である
文字列データと韻律情報である高さデータとを抽出する
楽譜情報抽出手段を設けるとともに、入力される歌音声
から韻律情報である強さデータと長さデータとを抽出す
る歌音声情報抽出手段を設け、両抽出手段にて抽出され
た文字列データ、高さデータ、強さデータおよび長さデ
ータを音声データとして出力するようにしたものであり
、実際の歌音声に基づいて強さデータと長さデータを抽
出しているので、規則合成方式の音声合成回路に入力さ
れる歌音声合成データとして、自然な歌音声に対する音
声データが得られるという効果がある。また、高さデー
タを楽譜データから抽出しているので、入力される歌音
声の音程が楽譜からずれていても正確な音程の歌音声を
合成することができ、しかも、複雑な処理を必要とする
ピッチ抽出処理が不要であるので、より品質の高い歌音
声を得るための音声データを簡単な構成で実現でき、安
価な歌音声合成データの作成装置を提供することができ
るという効果がある。
[Effects of the Invention] The present invention is configured as described above, and in a device for creating singing speech synthesis data that is input to a speech synthesis circuit that performs regular synthesis of singing speech, characters that are phonetic information are extracted from an input musical score. Musical score information extraction means is provided for extracting column data and height data that is prosody information, and song voice information extraction means is provided that extracts strength data and length data that are prosody information from the input song voice. , the character string data, height data, strength data, and length data extracted by both extraction means are output as audio data, and the strength data and length data are extracted based on the actual singing voice. Since the data is extracted, there is an effect that voice data for natural song voices can be obtained as song voice synthesis data that is input to a rule synthesis type voice synthesis circuit. In addition, since the height data is extracted from the musical score data, even if the pitch of the input singing voice deviates from the musical score, it is possible to synthesize a singing voice with an accurate pitch, and it does not require complicated processing. Since pitch extraction processing is not necessary, it is possible to realize voice data for obtaining higher quality singing voices with a simple configuration, and it is possible to provide an inexpensive singing voice synthesis data creation device.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明一実施例のブロック回路図、第2図は同
上の動作説明図である。 Xは音声合成回路、Yは歌音声合成データの作成装置で
ある。
FIG. 1 is a block circuit diagram of an embodiment of the present invention, and FIG. 2 is an explanatory diagram of the same operation. X is a speech synthesis circuit, and Y is a generation device for song speech synthesis data.

Claims (1)

【特許請求の範囲】[Claims] (1)音韻情報および韻律情報よりなる音声データに基
づいて歌音声の規則合成を行う音声合成回路に入力され
る歌音声合成データの作成装置において、楽譜と歌音声
とを入力とし、入力される楽譜から音韻情報である文字
列データと韻律情報である高さデータとを抽出する楽譜
情報抽出手段を設けるとともに、入力される歌音声から
韻律情報である強さデータと長さデータとを抽出する歌
音声情報抽出手段を設け、両抽出手段にて抽出された文
字列データ、高さデータ、強さデータおよび長さデータ
を音声データとして出力するようにしたことを特徴とす
る歌音声合成データの作成装置。
(1) In a device for creating song speech synthesis data that is input to a speech synthesis circuit that performs regular synthesis of song speech based on speech data consisting of phonological information and prosody information, musical score and singing speech are input. A musical score information extraction means is provided for extracting character string data as phonological information and height data as prosody information from the musical score, and strength data and length data as prosody information are extracted from the input singing voice. Song voice synthesis data characterized in that a song voice information extraction means is provided, and character string data, height data, strength data and length data extracted by both extraction means are output as voice data. Creation device.
JP1142402A 1989-06-05 1989-06-05 Generating device for singing voice synthetic data Pending JPH037994A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1142402A JPH037994A (en) 1989-06-05 1989-06-05 Generating device for singing voice synthetic data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1142402A JPH037994A (en) 1989-06-05 1989-06-05 Generating device for singing voice synthetic data

Publications (1)

Publication Number Publication Date
JPH037994A true JPH037994A (en) 1991-01-16

Family

ID=15314513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1142402A Pending JPH037994A (en) 1989-06-05 1989-06-05 Generating device for singing voice synthetic data

Country Status (1)

Country Link
JP (1) JPH037994A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039961A (en) * 2001-11-15 2003-05-22 김종윤 Clip Locking Type Ear Ring
JP2010009034A (en) * 2008-05-28 2010-01-14 National Institute Of Advanced Industrial & Technology Singing voice synthesis parameter data estimation system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039961A (en) * 2001-11-15 2003-05-22 김종윤 Clip Locking Type Ear Ring
JP2010009034A (en) * 2008-05-28 2010-01-14 National Institute Of Advanced Industrial & Technology Singing voice synthesis parameter data estimation system
US8244546B2 (en) 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system

Similar Documents

Publication Publication Date Title
JP3361291B2 (en) Speech synthesis method, speech synthesis device, and computer-readable medium recording speech synthesis program
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
JP3587048B2 (en) Prosody control method and speech synthesizer
JP5198046B2 (en) Voice processing apparatus and program thereof
Chettri et al. Nepali text to speech synthesis system using esnola method of concatenation
JPH0887297A (en) Speech synthesis system
JPH08335096A (en) Text voice synthesizer
JP2000187495A (en) Method and device for synthesizing speech, and recording medium where speech synthesis program is recorded
JPH037995A (en) Generating device for singing voice synthetic data
JPH037994A (en) Generating device for singing voice synthetic data
JPH07200554A (en) Sentence read-aloud device
JPH06318094A (en) Speech rule synthesizing device
JPH037996A (en) Generating device for singing voice synthetic data
JP2703253B2 (en) Speech synthesizer
JPH05224688A (en) Text speech synthesizing device
JP3397406B2 (en) Voice synthesis device and voice synthesis method
JPH037999A (en) Voice output device
JPS62284398A (en) Sentence-voice conversion system
JP3314106B2 (en) Voice rule synthesizer
JP2003308084A (en) Method and device for synthesizing voices
JP2573585B2 (en) Speech spectrum pattern generator
JP2002333896A (en) Device, system and method for synthesizing voice
JPS626299A (en) Electronic singing apparatus
JPH06138894A (en) Device and method for voice synthesis
JPH055116B2 (en)