JPH0698319A - Voice tracing type camera focusing system - Google Patents
Voice tracing type camera focusing systemInfo
- Publication number
- JPH0698319A JPH0698319A JP4243865A JP24386592A JPH0698319A JP H0698319 A JPH0698319 A JP H0698319A JP 4243865 A JP4243865 A JP 4243865A JP 24386592 A JP24386592 A JP 24386592A JP H0698319 A JPH0698319 A JP H0698319A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- aiming
- camera
- position information
- axis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Closed-Circuit Television Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
(57)【要約】
【目的】 テレビ会議システムにおける音声追尾型カメ
ラ照準方式に関し、複数の出席者による討議の状況が忠
実に他室に表示可能とすることを目的とする。
【構成】 出席者100毎の発言を検出する音声検出手
段200と、音声検出手段が検出する各発声源の位置情
報を記憶する発声源位置情報記憶手段300と、音声検
出手段により検出される発言(に所定時間の停止遅延を
持たせる等)により、一乃至複数の同時発言者を識別す
る発声源識別手段400と、発声源識別手段の識別結果
と、発声源位置情報記憶手段に記憶済の位置情報とに基
づき、総ての発言者を包含して所定位置に設置されたテ
レビカメラ600により照準するに必要とする照準情報
を作成し、テレビカメラに伝達する照準情報作成手段5
00とを設ける様に構成する。
(57) [Summary] [Purpose] With regard to the audio tracking type camera aiming method in a video conference system, the purpose is to be able to faithfully display the status of discussions by multiple attendees in another room. [Structure] A voice detection unit 200 for detecting a speech of each attendant 100, a voice source position information storage unit 300 for storing position information of each voice source detected by the voice detection unit, and a voice detected by the voice detection unit. (By giving a stop delay of a predetermined time, etc.), the voice source identification means 400 for identifying one or a plurality of simultaneous speakers, the identification result of the voice source identification means, and the voice source position information storage means have already been stored. Based on the position information, aiming information creating means 5 for creating aiming information necessary for aiming by the TV camera 600 installed at a predetermined position including all speakers and transmitting the aiming information to the TV camera.
00 and 00 are provided.
Description
【0001】[0001]
【産業上の利用分野】本発明は、テレビ会議システムに
おける音声追尾型カメラ照準方式に関する。近年、複数
の会議室で行われる各会議の音声および映像を相互に転
送表示し、全員が参加した会議と同等の効果を発揮する
テレビ会議システムが実用されつつある。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice tracking type camera aiming system in a video conference system. 2. Description of the Related Art In recent years, a video conference system has been put into practical use, in which audio and video of each conference held in a plurality of conference rooms are mutually transferred and displayed, and an effect equivalent to that of a conference in which all members participate is exhibited.
【0002】この種のテレビ会議システムにおいては、
各会議室における複数の発言者による討議状況が、極力
忠実に他室にも表示されることが望まれる。In this type of video conference system,
It is desirable that the discussion status by multiple speakers in each conference room be displayed in the other room as faithfully as possible.
【0003】[0003]
【従来の技術】当初のテレビ会議システムにおいては、
会議室内の討議状況を極力忠実に撮影する為に、テレビ
カメラを専任のオペレータにより操作することが考慮さ
れていたが、近年、オペレータを不要とする目的で、音
声追尾型のテレビ会議システムが実用されている。2. Description of the Related Art In the original video conference system,
In order to capture the debate situation in the conference room as faithfully as possible, it was considered to operate the TV camera by a dedicated operator, but in recent years, a voice tracking type video conference system has been put to practical use for the purpose of eliminating the operator. Has been done.
【0004】従来ある音声追尾型のテレビ会議システム
においては、会議の出席者の発言をマイクロホン等で検
出し、発言を検出した一人の出席者にカメラを照準し、
当該発言者の映像を他室に転送表示していた。〔本文に
おいては、所定の目標物を含む所要の範囲の映像を撮影
する為に、カメラを制御することを「照準」と称す
る〕。In a conventional voice-tracking type video conference system, the utterance of a participant in a conference is detected by a microphone or the like, and one attendee who detects the utterance is aimed at the camera.
The video of the speaker was transferred to another room and displayed. [In the text, controlling a camera to capture an image of a required range including a predetermined target is referred to as "aiming"].
【0005】従って、複数の出席者が発言した場合に
は、検出した各発言の音量を比較し、音量の最も大きい
出席者一人を照準せざるを得なかった。Therefore, when a plurality of attendees speak, the volume of each detected speech must be compared and one attendee with the highest volume must be aimed at.
【0006】[0006]
【発明が解決しようとする課題】以上の説明から明らか
な如く、従来ある音声追尾型のテレビ会議システムにお
いては、複数の出席者が同時に発言して討議を行ってい
る場合にも、音量の最も大きい出席者一人の映像を他室
に転送表示していた為、複数の出席者による討議の状況
が忠実に他室に表示出来ぬ問題があった。As is clear from the above description, in the conventional voice-tracking type video conference system, even when a plurality of attendees speak at the same time for discussion, the volume of the volume is the highest. Since the video of one large attendee was transferred and displayed in another room, there was a problem that the situation of discussions by multiple attendees could not be faithfully displayed in another room.
【0007】本発明は、複数の出席者による討議の状況
が忠実に他室に表示可能とすることを目的とする。It is an object of the present invention to faithfully display the status of discussions by a plurality of attendees in another room.
【0008】[0008]
【課題を解決するための手段】図1は本発明の原理を示
す図である。図1において、100は会議への出席者、
600は会議室の所定位置に設置されたテレビカメラで
ある。FIG. 1 is a diagram showing the principle of the present invention. In FIG. 1, 100 is a participant in the conference,
Reference numeral 600 denotes a TV camera installed at a predetermined position in the conference room.
【0009】200は、本発明により設けられた音声検
出手段である。300は、本発明により設けられた発声
源位置情報記憶手段である。400は、本発明により設
けられた発声源識別手段である。500は、本発明によ
り設けられた照準情報作成手段である。Reference numeral 200 is a voice detecting means provided by the present invention. Reference numeral 300 is a voice source position information storage means provided by the present invention. Reference numeral 400 is a vocal source identifying means provided by the present invention. Reference numeral 500 is aiming information creating means provided by the present invention.
【0010】[0010]
【作用】音声検出手段200は、出席者100毎の発言
を検出する。発声源位置情報記憶手段300は、音声検
出手段200が検出する各発声源の位置情報を記憶す
る。The voice detecting means 200 detects the speech of each attendee 100. The utterance source position information storage unit 300 stores the position information of each utterance source detected by the voice detection unit 200.
【0011】発声源識別手段400は、音声検出手段2
00により検出される発言により、一乃至複数の同時発
言者を識別する。照準情報作成手段500は、発声源識
別手段400の識別結果と、発声源位置情報記憶手段3
00に記憶済の位置情報とに基づき、総ての発言者を包
含してテレビカメラ600により照準するに必要とする
照準情報を作成し、テレビカメラ600に伝達する。The voicing source identifying means 400 is a voice detecting means 2
The utterances detected by 00 identify one or more simultaneous speakers. The aiming information creating means 500 includes the identification result of the utterance source identifying means 400 and the utterance source position information storing means 3.
Based on the position information stored in 00, aiming information necessary for aiming by the TV camera 600 including all speakers is created and transmitted to the TV camera 600.
【0012】なお発声源識別手段400は、音声検出手
段200が検出した任意の出席者100の発言が停止し
た後、予め定められた期間が経過する迄、出席者100
を発言者と見做すことが考慮される。It should be noted that the voicing source identifying means 400 uses the attendees 100 until a predetermined period elapses after the speech of any of the attendees 100 detected by the voice detecting means 200 is stopped.
Considering as a speaker is considered.
【0013】従って、複数の出席者が発言している討議
状況が他室にも表示可能となり、当該テレビ会議システ
ムの利便性が大幅に向上する。Therefore, the discussion status in which a plurality of attendees are speaking can be displayed in another room, and the convenience of the video conference system is greatly improved.
【0014】[0014]
【実施例】以下、本発明の一実施例を図面により説明す
る。図2は本発明の一実施例によるテレビ会議システム
を示す図であり、図3は本発明の一実施例による照準情
報を説明する図であり、図4は図2における映像の一例
を示す図である。なお、全図を通じて同一符号は同一対
象物を示す。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. 2 is a diagram showing a video conference system according to an embodiment of the present invention, FIG. 3 is a diagram explaining aiming information according to an embodiment of the present invention, and FIG. 4 is a diagram showing an example of an image in FIG. Is. The same reference numerals denote the same objects throughout the drawings.
【0015】図2乃至図4においては、図1における出
席者100として出席者2が示され、また図1における
音声検出手段200としてマイクロホン(M)3および
中央制御装置5内の音声受信部51が設けられ、また図
1における発声源位置情報記憶手段300として基本情
報部61および個別情報部62が主記憶装置6内に設け
られ、また図1における発声源識別手段400として発
声源検出部52が中央制御装置5内に設けられ、また図
1における照準情報作成手段500として焦点演算部5
4、照準制御部55および姿勢制御部56が中央制御装
置5内に設けられ、更に図1におけるテレビカメラ60
0としてカメラ4およびカメラ駆動部41が設けられて
いる。2 to 4, the attendee 2 is shown as the attendee 100 in FIG. 1, and the microphone (M) 3 as the voice detecting means 200 in FIG. 1 and the voice receiving unit 51 in the central control unit 5 are shown. 1, the basic information section 61 and the individual information section 62 are provided in the main storage device 6 as the utterance source position information storage means 300 in FIG. 1, and the utterance source detection section 52 is provided as the utterance source identification means 400 in FIG. Is provided in the central controller 5, and the focus calculation section 5 is used as the aiming information creating means 500 in FIG.
4, a sighting control unit 55 and an attitude control unit 56 are provided in the central control unit 5, and the television camera 60 in FIG.
The camera 4 and the camera drive unit 41 are provided as 0.
【0016】図2においては、それぞれ遠隔のn箇所に
設置されたテレビ会議システム10(個々のテレビ会議
システムを101 乃至10n と称する)が、情報通信網
20により相互に接続されており、その内テレビ会議シ
ステム101 の構成のみが詳細に表示されており、他の
テレビ会議システム102 乃至10n の構成は省略され
ている。In FIG. 2, video conferencing systems 10 (individual video conferencing systems are referred to as 10 1 to 10 n ) respectively installed at n remote locations are interconnected by an information communication network 20, Among them, only the configuration of the video conference system 10 1 is displayed in detail, and the configurations of the other video conference systems 10 2 to 10 n are omitted.
【0017】テレビ会議システム101 が設置された会
議室内には、「コの字」形の会議机1の周辺に、9名の
出席者2(個々の出席者を21 乃至29 と称する、以下
同様)が着席し、会議を開催する。[0017] in a conference room with a TV conference system 10 1 has been installed, in the vicinity of the conference table 1 of the "U" shape, referred to as the 2 1 or 2 9 attendees 2 (individual attendees of 9 people , And so on) will sit down and hold a conference.
【0018】なお会議机1の上には、各出席者2に対応
してそれぞれ専用のマイクロホン(M)3が設置されて
おり、また会議机1の正面には、カメラ4が設置されて
いる。A dedicated microphone (M) 3 corresponding to each attendee 2 is installed on the conference desk 1, and a camera 4 is installed in front of the conference desk 1. .
【0019】なお各マイクロホン(M)3およびカメラ
4の位置は不変とする。また会議室内の各物体の位置
は、図3に示される如く、カメラ4(のレンズ)を原点
とし、床面に並行に設けられたx軸およびy軸と、床面
に垂直に設けられたz軸とによる三次元座標(x、y、
z)により表示される。The positions of the microphones (M) 3 and the camera 4 are unchanged. As shown in FIG. 3, the position of each object in the conference room is perpendicular to the floor with the x-axis and y-axis parallel to the floor, with the camera 4 (lens) as the origin. Three-dimensional coordinates (x, y,
z).
【0020】一方、主記憶装置6内には、基本情報部6
1、個別情報部62および照準記録部63が設けられ、
基本情報部61には、当該会議室および開催される会議
に関する基本的な情報、例えば当該テレビ会議システム
が対象する会議室の大きさを表す会議室寸法
(xmax )、(ymax )および(zmax )と、各マイク
ロホン(M)3の設置位置から対応する出席者2を包含
する範囲を表すx軸補正距離(Δx)およびz軸補正距
離(Δz)と、当該テレビ会議システムが音声信号とし
て認識する音量の範囲を示す最大音量値(Vmax )およ
び最小音量値(Vmin )とが格納されており、また個別
情報部62には、各マイクロホン(M)31 乃至3 9 の
設置位置を示す位置ベクトル(F1 〔x1 、y1 、
z1 〕)乃至(F9 〔x 9 、y9 、z9 〕)が格納され
ている。On the other hand, in the main storage device 6, the basic information section 6
1, the individual information section 62 and the aim recording section 63 are provided,
The basic information section 61 includes the conference room and the conference to be held.
Basic information about the video conferencing system, for example
Meeting room size that represents the size of the meeting room
(Xmax), (Ymax) And (zmax) And each microphone
Including attendees 2 from the installation position of Rohon (M) 3
X-axis corrected distance (Δx) and z-axis corrected distance
With the separation (Δz), the video conferencing system outputs an audio signal.
Maximum volume value (Vmax) And
And minimum volume value (Vmin) And are stored, and also individually
In the information section 62, each microphone (M) 31Through 3 9of
Position vector (F1[X1, Y1,
z1]) To (F9[X 9, Y9, Z9]) Is stored
ing.
【0021】なお照準記録部63には、当該テレビ会議
システムが前回作成した照準情報、即ちカメラ4の照準
現状を示す照準情報が格納されている。各マイクロホン
(M)3は、それぞれ対応する出席者2が発声する音声
信号(V)を受信し、それぞれ独立に中央制御装置5内
の音声受信部51に伝達する。The aiming recording section 63 stores aiming information previously created by the video conference system, that is, aiming information indicating the present aiming state of the camera 4. Each microphone (M) 3 receives the voice signal (V) uttered by the corresponding attendee 2 and independently transmits the voice signal (V) to the voice receiving unit 51 in the central control device 5.
【0022】音声受信部51は、各マイクロホン(M)
3から伝達される音声信号(V)を、それぞれ独立に発
声源検出部52に伝達すると共に、各音声信号を合成し
て入出力制御部53に伝達する。The voice receiving unit 51 includes microphones (M).
The voice signals (V) transmitted from the A. 3 are independently transmitted to the voicing source detection unit 52, and the respective voice signals are combined and transmitted to the input / output control unit 53.
【0023】ここで、出席者21 および27 が同時に発
言したとすると、マイクロホン(M)31 および37 が
共に音声信号(V1 )および(V7 )を受信してそれぞ
れ独立に音声受信部51に伝達し、また音声受信部51
が各音声信号(V1 )および(V7 )をそれぞれ独立に
発声源検出部52に伝達すると共に、各音声信号
(V 1 )および(V7 )を合成して入出力制御部53に
伝達する。Attendee 21And 27Are emitted at the same time
If you say, microphone (M) 31And 37But
Both are audio signals (V1) And (V7) Receive it
Independently transmitted to the voice receiving unit 51, and also transmitted to the voice receiving unit 51.
Each voice signal (V1) And (V7) Each independently
Each voice signal is transmitted to the voicing source detector 52.
(V 1) And (V7) Are synthesized into the input / output controller
introduce.
【0024】発声源検出部52は、音声受信部51から
伝達された音声信号(V1 )および(V7 )を、基本情
報部61に格納されている最大音量値(Vmax )および
最小音量値(Vmin )と比較し、何れも正常な音声信号
の範囲内に収まることを認識すると、出席者21 および
27 が同時に発言したと認識し、個別情報部62に格納
されているマイクロホン(M)31 およひ37 の位置ベ
クトル(F1 〔x1 、y1 、z1 〕)および(F7 〔x
7 、y7 、z7 〕)を抽出し、焦点演算部54に伝達す
る。The voicing source detection unit 52 uses the voice signals (V 1 ) and (V 7 ) transmitted from the voice receiving unit 51 as the maximum volume value (V max ) and the minimum volume value stored in the basic information unit 61. When comparing with the value (V min ) and recognizing that both are within the range of a normal audio signal, it is recognized that the attendees 2 1 and 2 7 simultaneously speak, and the microphones stored in the individual information section 62 are recognized. (M) 3 1 and 3 7 position vectors (F 1 [x 1 , y 1 , z 1 ]) and (F 7 [x
7 , y 7 , z 7 ]) are extracted and transmitted to the focus calculation unit 54.
【0025】最初に焦点演算部54は、発言中と認識さ
れた出席者21 および27 を同一映像内に収める為の、
カメラ4の焦点距離(Lf )を算出する。先ず焦点演算
部54は、発声源検出部52から伝達された二つの位置
ベクトル(F1 〔x1 、y1 、z1 〕)および(F
7 〔x7 、y7 、z7 〕)の、各x軸成分(x1 )およ
び(x7 )、y軸成分(y1 )および(y7 )、並びに
z軸成分(z1 )および(z7 )のそれぞれ平均値(x
f )、(yf )および(zf )を求め、各平均値
(xf )、(yf )および(zf )をそれぞれx軸成
分、y軸成分およびz軸成分とする位置ベクトル(Ff
〔xf 、yf 、zf 〕)により定まる点(P〔xf 、y
f 、zf 〕)を焦点(Pf )と定める。First, the focus calculation unit 54 stores the attendees 2 1 and 2 7 recognized as speaking in the same image.
The focal length (L f ) of the camera 4 is calculated. First, the focus calculation unit 54 receives the two position vectors (F 1 [x 1 , y 1 , z 1 ]) and (F 1 ) transmitted from the vocal source detection unit 52.
7 [x 7 , y 7 , z 7 ]), each x-axis component (x 1 ) and (x 7 ), y-axis component (y 1 ) and (y 7 ), and z-axis component (z 1 ) and The average value of each (z 7 ) (x
f ), (y f ) and (z f ) are calculated, and a position vector (x f ), (y f ) and (z f ) respectively having a mean value (x f ), a y axis component and a z axis component ( F f
[X f , y f , z f ]) defined by a point (P [x f , y
f , z f ]) is defined as the focal point (P f ).
【0026】続いて焦点演算部54は、カメラ4(座標
原点)から焦点(Pf )迄の焦点距離(Lf )、即ち位
置ベクトル(Ff 〔xf 、yf 、zf 〕)の長さを、各
成分(xf )、(yf )および(zf )を用いて算出す
る。[0026] Then the focus calculating section 54, the camera 4 of the focal length of the (coordinate origin) until the focus (P f) (L f), that is, the position vector (F f [x f, y f, z f]) the length, the components (x f), calculated using the (y f) and (z f).
【0027】次に焦点演算部54は、発言中と認識され
た出席者21 および27 を同一映像内に収める為の、カ
メラ4の照準方向を示すx軸角度(θx )およびz軸角
度(θz )と、カメラ4の照準範囲を示すx軸範囲角度
(Δθx )およびz軸範囲角度(Δθz )とを算出す
る。Next, the focus calculation section 54 sets the x-axis angle (θ x ) and the z-axis indicating the aiming direction of the camera 4 so that the attendees 2 1 and 2 7 recognized as speaking can be included in the same image. The angle (θ z ) and the x-axis range angle (Δθ x ) and the z-axis range angle (Δθ z ) indicating the aiming range of the camera 4 are calculated.
【0028】先ず焦点演算部54は、基本情報部61か
らx軸補正距離(Δx)を抽出し、抽出したx軸補正距
離(Δx)によりマイクロホン(M)31 および37 の
位置ベクトル(F1 )および(F7 )のx軸成分を補正
することにより、出席者21および27 を包含する位置
ベクトル(F1DX 〔x1 −Δx、y1 、z1 〕)および
(F7DX 〔x7 +Δx、y7 、z7 〕)を求め、求めら
れた各位置ベクトル(F1DX 〔x1 −Δx、y1 、
z1 〕)および(F7DX 〔x7 +Δx、y7 、z7〕)
のx軸角度(θx1)および(θx7)と、z軸角度
(θz1)および(θz7)とを求め、更に求められた二つ
のx軸角度(θx1)および(θx7)の平均値(θx)
と、二つのz軸角度(θz1)および(θz7)の平均値
(θz )とを求め、求められた平均値(θx )および
(θz )を、照準方向を示すx軸角度(θx )およびz
軸角度(θz )とする。First, the focus calculation unit 54 extracts the x-axis correction distance (Δx) from the basic information unit 61, and uses the extracted x-axis correction distance (Δx) to detect the position vector (F) of the microphones (M) 3 1 and 3 7. By correcting the x-axis components of ( 1 ) and (F 7 ), the position vectors (F 1DX [x 1 −Δx, y 1 , z 1 ]) and (F 7DX [including attendees 2 1 and 2 7] are corrected. x 7 + Δx, y 7 , z 7 ]), and the obtained position vectors (F 1DX [x 1 −Δx, y 1 ,
z 1 ]) and (F 7DX [x 7 + Δx, y 7 , z 7 ])
X-axis angles (θ x1 ) and (θ x7 ) and z-axis angles (θ z1 ) and (θ z7 ), and two further obtained x-axis angles (θ x1 ) and (θ x7 ). Average value (θ x )
And the average value (θ z ) of the two z-axis angles (θ z1 ) and (θ z7 ), and the calculated average values (θ x ) and (θ z ) are the x-axis angles indicating the sighting direction. (Θ x ) and z
Axial angle (θ z ).
【0029】続いて焦点演算部54は、照準方向を示す
x軸角度(θx )と、位置ベクトル(F1DX )のx軸角
度(θx1)または(F7DX )のx軸角度(θx7)との差
角(θx −θx1)または(θx7−θx )を求め、求めら
れた差角(θx −θx1)=(θx7−θx )をx軸範囲角
度(Δθx )とし、また照準方向を示すz軸角度
(θ z )と、位置ベクトル(F1Dz )のz軸角度
(θz1)または(F7Dz )のz軸角度(θz7)との差角
(θz −θz1)または(θz7−θz )を求め、求められ
た差角(θz1−θz )=(θz −θz7)を、z軸範囲角
度(Δθz )とする。Subsequently, the focus calculator 54 indicates the aiming direction.
x-axis angle (θx) And the position vector (F1DX) X-axis angle
Degree (θx1) Or (F7DX) X-axis angle (θx7) Difference
Angle (θx−θx1) Or (θx7−θx) Asked for
Difference angle (θx−θx1) = (Θx7−θx) Is the x-axis range angle
Degree (Δθx), And the z-axis angle indicating the aiming direction
(Θ z) And the position vector (F1Dz) Z-axis angle
(Θz1) Or (F7Dz) Z-axis angle (θz7) Difference angle
(Θz−θz1) Or (θz7−θz) Asked for
Difference angle (θz1−θz) = (Θz−θz7) Is the z-axis range angle
Degree (Δθz).
【0030】以上により焦点演算部54は、発言中と判
定された出席者21 および27 を同一映像内に収める為
に必要とする照準情報として、焦点距離(Lf )、x軸
角度(θx )、z軸角度(θz )、x軸範囲角度(Δθ
x )およびz軸範囲角度(Δθz )を算出終了する。As described above, the focus calculation section 54 uses the focal length (L f ) and the x-axis angle (L f ), as the aiming information necessary for keeping the attendees 2 1 and 2 7 determined to be speaking in the same image. θ x ), z-axis angle (θ z ), x-axis range angle (Δθ
x ) and the z-axis range angle (Δθ z ) are calculated.
【0031】焦点演算部54は、算出した焦点距離(L
f )、x軸範囲角度(Δθx )およびz軸範囲角度(Δ
θz )を照準制御部55に伝達し、またx軸角度
(θx )およびz軸角度(θz )を姿勢制御部56に伝
達する。The focus calculation unit 54 calculates the calculated focal length (L
f ), the x-axis range angle (Δθ x ) and the z-axis range angle (Δ
θ z ) is transmitted to the aiming control unit 55, and the x-axis angle (θ x ) and the z-axis angle (θ z ) are transmitted to the attitude control unit 56.
【0032】照準制御部55は、照準記録部63に格納
されている照準情報、即ちカメラ4の照準現状を示す照
準情報から焦点距離(Lf )、x軸範囲角度(Δθx )
およびz軸範囲角度(Δθz )を抽出し、焦点演算部5
4から伝達された焦点距離(Lf )、x軸範囲角度(Δ
θx )およびz軸範囲角度(Δθz )との差分を算出
し、カメラ駆動部41に伝達した後、照準記録部63に
格納されている焦点距離(Lf )、x軸範囲角度(Δθ
x )およびz軸範囲角度(Δθz )を、焦点演算部54
から伝達された焦点距離(Lf )、x軸範囲角度(Δθ
x )およびz軸範囲角度(Δθz )により更新し、また
姿勢制御部56は、照準記録部63に格納されている照
準情報、即ちカメラ4の照準現状を示す照準情報からx
軸角度(θ x )およびz軸角度(θz )を抽出し、焦点
演算部54から伝達されたx軸角度(θx )およびz軸
角度(θz )との差分を算出し、カメラ駆動部41に伝
達した後、照準記録部63に格納されているx軸角度
(θx )およびz軸角度(θz)を、焦点演算部54か
ら伝達されたx軸角度(θx )およびz軸角度(θz )
により更新する。The aiming control unit 55 is stored in the aiming recording unit 63.
The aiming information that is being provided, that is, the aiming status of the camera 4
From quasi information to focal length (Lf), X-axis range angle (Δθx)
And z-axis range angle (Δθz) Is extracted and the focus calculation unit 5
Focal length (Lf), X-axis range angle (Δ
θx) And the z-axis range angle (Δθz) With
Then, after transmitting it to the camera drive unit 41,
Stored focal length (Lf), X-axis range angle (Δθ
x) And the z-axis range angle (Δθz), The focus calculation unit 54
Focal length (Lf), X-axis range angle (Δθ
x) And the z-axis range angle (Δθz) Updated by
The attitude control unit 56 uses the aim recording unit 63 to store the aim
X from the aiming information, that is, aiming information indicating the present aiming state of the camera 4.
Axis angle (θ x) And the z-axis angle (θz) Extract and focus
The x-axis angle (θx) And z-axis
Angle (θz) Is calculated and transmitted to the camera drive unit 41.
After reaching, the x-axis angle stored in the aim recording unit 63
(Θx) And the z-axis angle (θz) From the focus calculation unit 54
X-axis angle (θx) And the z-axis angle (θz)
To update.
【0033】カメラ駆動部41は、照準制御部55から
伝達された焦点距離(Lf )、x軸範囲角度(Δθx )
およびz軸範囲角度(Δθz )の差分によりカメラ4の
焦点距離(Lf )および照準範囲を更新し、また姿勢制
御部56から伝達されたx軸角度(θx )およびz軸角
度(θz )の差分により、カメラ4の照準方向を更新す
る。The camera drive unit 41 has the focal length (L f ) and the x-axis range angle (Δθ x ) transmitted from the aiming control unit 55.
And the z-axis range angle (Δθ z ) are used to update the focal length (L f ) and aiming range of the camera 4, and the x-axis angle (θ x ) and the z-axis angle (θ) transmitted from the attitude control unit 56. The aiming direction of the camera 4 is updated based on the difference of z ).
【0034】照準状況を更新されたカメラ4は、図4に
示される如く、出席者21 および2 7 を包含する映像を
作成し、映像信号(I)として中央制御装置5内の映像
受信部57に伝達する。The camera 4 having the updated sighting condition is shown in FIG.
Attendee 2 as shown1And 2 7A video that includes
Image created in the central controller 5 as a video signal (I)
It is transmitted to the receiving unit 57.
【0035】映像受信部57は、カメラ4から伝達され
た映像信号(I)を、入出力制御部53に伝達される。
入出力制御部53は、音声受信部51から伝達された音
声信号(V1 )および(V7 )と、映像受信部57から
伝達された映像信号(I)とを結合し、情報通信網20
を経由して他のテレビ会議システム102 乃至10n に
伝達する。The image receiving unit 57 transmits the image signal (I) transmitted from the camera 4 to the input / output control unit 53.
The input / output control unit 53 combines the audio signals (V 1 ) and (V 7 ) transmitted from the audio receiving unit 51 with the video signal (I) transmitted from the video receiving unit 57, and connects the information communication network 20.
And is transmitted to other video conference systems 10 2 to 10 n via.
【0036】また入出力制御部53は、他のテレビ会議
システム102 乃至10n から情報通信網20を経由し
て伝達される音声信号(V)および映像信号(I)(結
合済)を受信すると、音声信号(V)および映像信号
(I)に分離し、音声信号(V)はスピーカ31に出力
して会議室内の各出席者2に聴取させ、映像信号(I)
はモニタ42に出力して各出席者2に表示する。The input / output control unit 53 also receives the audio signal (V) and the video signal (I) (combined) transmitted from the other video conference systems 10 2 to 10 n via the information communication network 20. Then, the audio signal (V) and the video signal (I) are separated, and the audio signal (V) is output to the speaker 31 so that each attendee 2 in the conference room can hear the video signal (I).
Is output to the monitor 42 and displayed to each attendee 2.
【0037】以上の説明から明らかな如く、本実施例に
よれば、テレビ会議システム101は発言者21 および
27 を検出し、両者を包含する映像を撮影する如き照準
情報を算出し、カメラ4を照準させる為、他のテレビ会
議システム102 乃至10nに対して発言者21 および
27 の討議状況が一つの画面で忠実に転送表示すること
となる。As is apparent from the above description, according to the present embodiment, the video conference system 10 1 detects the speakers 2 1 and 2 7 and calculates aiming information such that an image including both the speakers is photographed. Since the camera 4 is aimed at, the discussion status of the speakers 2 1 and 2 7 is faithfully transferred and displayed on one screen to the other video conference systems 10 2 to 10 n .
【0038】なお、図2はあく迄本発明の一実施例に過
ぎず、例えば発声源検出部52は音声信号(V)の有無
のみにより発言中の出席者2を識別するものに限定され
ることは無く、各出席者2の音声信号が停止した後、予
め定められた経過時間の間は発言者として扱うことによ
り、複数の出席者2が交互に発言する間も総ての発言者
を包含した映像を保持させる等、他に幾多の変形が考慮
されるが、何れの場合にも本発明の効果は変わらない。
また本発明の対象とするテレビ会議システムは、図示さ
れるものに限定されぬことは言う迄も無い。It is to be noted that FIG. 2 is merely an embodiment of the present invention, and for example, the voicing source detection unit 52 is limited to the one for identifying the attendee 2 who is speaking only by the presence or absence of the voice signal (V). However, after the voice signal of each attendee 2 is stopped, it is treated as a speaker for a predetermined elapsed time, so that all the speakers can be treated while a plurality of attendees 2 alternately speak. Many other modifications are considered, such as holding the included image, but the effect of the present invention does not change in any case.
It goes without saying that the video conference system to which the present invention is applied is not limited to the one shown in the figure.
【0039】[0039]
【発明の効果】以上、本発明によれば、前記テレビ会議
システムにおいて、複数の出席者が発言している討議状
況が他室にも表示可能となり、当該テレビ会議システム
の利便性が大幅に向上する。As described above, according to the present invention, in the video conference system, the discussion status in which a plurality of attendees are speaking can be displayed in another room, and the convenience of the video conference system is greatly improved. To do.
【図1】 本発明の原理を示す図FIG. 1 is a diagram showing the principle of the present invention.
【図2】 本発明の一実施例によるテレビ会議システム
を示す図FIG. 2 is a diagram showing a video conference system according to an embodiment of the present invention.
【図3】 本発明の一実施例による照準情報を説明する
図FIG. 3 is a diagram illustrating aiming information according to an embodiment of the present invention.
【図4】 図2における映像の一例を示す図FIG. 4 is a diagram showing an example of an image in FIG.
1 会議机 2、100 出席者 3 マイクロホン(M) 4 カメラ 5 中央制御装置 6 主記憶装置 10 テレビ会議システム 20 情報通信網 31 スピーカ 41 カメラ駆動部 42 モニタ 51 音声受信部 52 発声源検出部 53 入出力制御部 54 焦点演算部 55 照準制御部 56 姿勢制御部 57 映像受信部 61 基本情報部 62 個別情報部 63 照準記録部 200 音声検出手段 300 発声源位置情報記憶手段 400 発声源識別手段 500 照準情報作成手段 600 テレビカメラ 1 Conference Desk 2, 100 Attendees 3 Microphone (M) 4 Camera 5 Central Control Device 6 Main Storage Device 10 Video Conference System 20 Information Communication Network 31 Speaker 41 Camera Drive Unit 42 Monitor 51 Voice Receiver 52 Voice Source Detector 53 In Output control unit 54 Focus calculation unit 55 Aiming control unit 56 Posture control unit 57 Image receiving unit 61 Basic information unit 62 Individual information unit 63 Aiming recording unit 200 Voice detecting means 300 Vocal source position information storing means 400 Vocal source identifying means 500 Aiming information Creating means 600 TV camera
Claims (2)
ビ会議システムにおいて、 出席者(100)毎の発言を検出する音声検出手段(2
00)と、 前記音声検出手段(200)が検出する各発声源の位置
情報を記憶する発声源位置情報記憶手段(300)と、 前記音声検出手段(200)により検出される発言によ
り、一乃至複数の同時発言者を識別する発声源識別手段
(400)と、 前記発声源識別手段(400)の識別結果と、前記発声
源位置情報記憶手段(300)に記憶済の前記位置情報
とに基づき、総ての発言者を包含して所定位置に設置さ
れたテレビカメラ(600)により照準するに必要とす
る照準情報を作成し、前記テレビカメラ(600)に伝
達する照準情報作成手段(500)とを設けることを特
徴とする音声追尾型カメラ照準方式。1. In a video conference system for transferring and displaying an image of a conference room to another room, a voice detecting means (2) for detecting a speech of each attendant (100).
00), a voice source position information storage unit (300) that stores the position information of each voice source detected by the voice detection unit (200), and a speech detected by the voice detection unit (200). Based on a voice source identification unit (400) for identifying a plurality of simultaneous speakers, an identification result of the voice source identification unit (400), and the position information stored in the voice source position information storage unit (300). Aiming information creating means (500) for creating aiming information necessary for aiming by the TV camera (600) installed at a predetermined position including all speakers and transmitting the aiming information to the TV camera (600). A voice tracking type camera aiming system characterized by providing and.
音声検出手段(200)が検出した任意の出席者(10
0)の発言が停止した後、予め定められた期間が経過す
る迄、前記出席者(100)を発言者と見做すことを特
徴とする請求項1記載の音声追尾型カメラ照準方式。2. The voicing source identifying means (400) is any attendee (10) detected by the voice detecting means (200).
The voice tracking camera aiming system according to claim 1, wherein the attendant (100) is regarded as a speaker until a predetermined period of time elapses after the speech of (0) is stopped.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4243865A JPH0698319A (en) | 1992-09-14 | 1992-09-14 | Voice tracing type camera focusing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4243865A JPH0698319A (en) | 1992-09-14 | 1992-09-14 | Voice tracing type camera focusing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0698319A true JPH0698319A (en) | 1994-04-08 |
Family
ID=17110130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4243865A Withdrawn JPH0698319A (en) | 1992-09-14 | 1992-09-14 | Voice tracing type camera focusing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0698319A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831424B2 (en) | 2006-07-07 | 2010-11-09 | International Business Machines Corporation | Target specific data filter to speed processing |
-
1992
- 1992-09-14 JP JP4243865A patent/JPH0698319A/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831424B2 (en) | 2006-07-07 | 2010-11-09 | International Business Machines Corporation | Target specific data filter to speed processing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3422705B1 (en) | Optimal view selection method in a video conference | |
US5940118A (en) | System and method for steering directional microphones | |
US9633270B1 (en) | Using speaker clustering to switch between different camera views in a video conference system | |
US9883143B2 (en) | Automatic switching between dynamic and preset camera views in a video conference endpoint | |
US11128793B2 (en) | Speaker tracking in auditoriums | |
US10182208B2 (en) | Panoramic image placement to minimize full image interference | |
JP5857674B2 (en) | Image processing apparatus and image processing system | |
US10447970B1 (en) | Stereoscopic audio to visual sound stage matching in a teleconference | |
EP2538236B1 (en) | Automatic camera selection for videoconferencing | |
US20030160862A1 (en) | Apparatus having cooperating wide-angle digital camera system and microphone array | |
WO2010072075A1 (en) | Method, device and system of video communication | |
US11750925B1 (en) | Computer program product and method for auto-focusing a camera on an in-person attendee who is speaking into a microphone at a meeting | |
JPH11331827A (en) | Television camera | |
US11405584B1 (en) | Smart audio muting in a videoconferencing system | |
TWI826768B (en) | Video conferencing system and method thereof | |
WO2015198964A1 (en) | Imaging device provided with audio input/output function and videoconferencing system | |
JPH0698319A (en) | Voice tracing type camera focusing system | |
WO2016110047A1 (en) | Teleconference system and teleconferencing method | |
JP2009060220A (en) | Communication system and communication program | |
Maganti et al. | Speaker localization for microphone array-based asr: the effects of accuracy on overlapping speech | |
JP2717966B2 (en) | Camera control method | |
JPH06276514A (en) | Camera control method for video conference system | |
JPS62209985A (en) | Video conference equipment | |
JP2020053882A (en) | Communication device, communication program, and communication method | |
JPH05153582A (en) | Tv conference portrait camera turning system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 19991130 |