RU170249U1 - Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса - Google Patents
Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса Download PDFInfo
- Publication number
- RU170249U1 RU170249U1 RU2016135683U RU2016135683U RU170249U1 RU 170249 U1 RU170249 U1 RU 170249U1 RU 2016135683 U RU2016135683 U RU 2016135683U RU 2016135683 U RU2016135683 U RU 2016135683U RU 170249 U1 RU170249 U1 RU 170249U1
- Authority
- RU
- Russia
- Prior art keywords
- environmental parameter
- atmospheric environmental
- sound
- microphone array
- speed
- Prior art date
Links
- 230000004807 localization Effects 0.000 title claims abstract description 18
- 230000007613 environmental effect Effects 0.000 claims abstract description 28
- 230000010365 information processing Effects 0.000 claims abstract description 16
- 230000005855 radiation Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000003491 array Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Полезная модель относится к измерительной технике, в частности к устройствам локализации источников человеческой речи, и могут использоваться в системах распознавания речи или в системах видеоконференций, а также в охранных или робототехнических изделиях для контроля желаемых объектов или событий. Техническим результатом заявленного решения является повышение точности определения источников человеческой речи. Устройство локализации источника голоса содержит связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации. Указанный результат достигается за счет введения в устройство дополнительных программно-аппаратных средств, выполняющих акустическое сканирование только по диапазону азимутов и углов мест, соответствующих областям обнаружения лиц с учетом реального значения скорости звука в воздухе, зависящего от атмосферных параметров окружающей среды.
Description
Область техники
Полезная модель относится к измерительной технике, в частности к устройствам локализации источников человеческой речи, и могут использоваться в системах распознавания речи или в системах видеоконференций, а также в охранных или робототехнических изделиях для контроля желаемых объектов или событий.
Уровень техники
Из уровня техники известны различные устройства и системы, обеспечивающие локализацию источников человеческой речи, осуществляемую посредством микрофонных решеток.
Например, известна звуковая система локализации для телеконференций с помощью самоуправляемых микрофонных решеток, описанная в патенте № US 5335011 А, опубл. 12.01.1993. В данном решении для определения направления на источники звука область вокруг установки разделяется на зоны. Каждая зона сканируется высоконаправленным акустическим лучом, чтобы проверить там наличие источников звука. Такая система чувствительна к реверберациям, а также плохо различает близкорасположенные источники звука, т.к. сформированная диаграмма направленности имеет угловую ширину от нескольких, до десятков градусов. Кроме того, в случае использования плоских или линейных микрофонных решеток, система не сможет различать источники звука спереди и сзади нее, т.е. расположенные на смежных углах. Система при формировании диаграммы направленности учитывает скорость звука в воздухе, однако не имеет датчиков для оценки ее реального значения, что приводит к ухудшению качества локализации при несовпадении предполагаемой скорости и реальной. Данное решения является наиболее близким аналогом.
Известны способ и устройство для выбора активного говорящего с помощью микрофонных решеток и идентификация голоса, описанные в заявке № US 20090220065 А1, опубл. 03.03.2008. Описанная в данном документе система определяет направления на источники звука с помощью массива микрофонов и выделяет сигнал от говорящего. В дальнейшем он проходит через систему идентификации дикторов, которая служит дополнительным фильтром, отбрасывающим шумы и реверберации. Система опять же не имеет датчиков для оценки реальной скорости звука, необходимой для акустических расчетов, а также имеет проблемы с различением близко расположенных источников звука.
Известна система, обеспечивающая разделение источника звука с использованием пространственной фильтрации и регуляризацией фаз, описанная в патенте № US 8583428 В2, опубл. 15.06.2010. Данная система вычисляет направления на источники звука, используя разности фаз гармоник звуковых сигналов, приходящих на разные микрофоны микрофонной решетки. Система имеет проблемы с различением близкорасположенных источников звука. Также для ее работы необходимо знание реальной скорости звука, оценка которой в патенте отсутствует.
Сущность полезной модели
Заявленное техническое решение решает задачу локализации источников человеческой речи посредством средств аудио- и видеофиксации.
Техническим результатом заявленного решения является повышение точности определения источников человеческой речи.
Данный результат достигается за счет выполнения акустического сканирования только по диапазону азимутов и углов мест, соответствующих областям обнаружения лиц с учетом реального значения скорости звука в воздухе, зависящего от атмосферных параметров окружающей среды, причем акустическое сканирование выполняется посредством микрофонной решетки, состоящей из MEMS микрофонов.
Для обеспечения указанного технического результата было разработано устройство локализации источника голоса, содержащее связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации, причем блок обработки информации выполнен с возможностью:
обнаружения лиц на видео на основе сигнала, получаемого от устройства видеофиксации;
определения диапазонов азимутов и углов мест, соответствующих областям обнаруженных лиц, для формирования диаграммы направленности микрофонной решетки;
определения значения скорости звука в зависимости от значения атмосферного параметра окружающей среды;
акустического сканирования окружающей среды с помощью микрофонной решетки во множестве направлений, соответствующих областям обнаруженных лиц и определенных сформированной диаграммой направленности микрофонной решетки, с учетом определенного ранее значения скорости звука; и
локализации источников человеческой речи на основе данных акустического сканирования.
Краткое описание чертежей
Для лучшего понимания сущности полезной модели, и чтобы более ясно показать, каким образом она может быть осуществлена, далее будет сделана ссылка, лишь в качестве примера, на прилагаемые чертежи, на которых:
фиг. 1 - структурная схема устройства локализации источника голоса;
фиг. 2 - алгоритм работы устройства локализации источника голоса.
Осуществление полезной модели
На фиг. 1 изображена структурная схема устройства локализации источника голоса, в соответствии с которой устройство содержит связанные по общей шине данных: блок обработки информации 1; микрофонную решетку 2, состоящую из MEMS микрофонов; устройство видеофиксации 3, жестко закрепленную относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды 4; память 5 и интерфейс связи 6.
Далее алгоритм работы устройства локализации источника голоса будет описан в соответствии со схемой, отображенной на фиг. 2.
Видеосигнал от устройства видеофиксации 3 непрерывно поступает на блок обработки информации 1, который в соответствии с заложенными в него программно-аппаратными алгоритмами, выполняет обнаружение лиц на видео, а также их сопровождение в случае, если лица были обнаружены ранее, при этом в случае обнаружения лиц на видео дальнейшее акустическое сканирование будет осуществляться только по диапазону азимутов и углов мест, соответствующих областям обнаруженных лиц. Для достижения данной задачи блок обработки информации 1 определяет диапазоны азимутов и углов мест, соответствующих областям обнаруженных лиц, и формирует на их основе диаграмму направленности микрофонной решетки. Для определения блоком обработки информации значения скорости звука, используемой при акустическом сканировании, используется информация от блока определения атмосферного параметра окружающей среды 4 и таблица зависимости скорости звука в воздухе от значения атмосферного параметра окружающей среды, хранящейся в памяти устройства.
Атмосферный параметр окружающей среды может представляет собой параметр температуры, влажности, атмосферного давления и других атмосферных параметров, влияющих на изменение значения скорости звука в воздухе. Также блок определения атмосферного параметра окружающей среды 4 может определять по меньшей мере один дополнительный параметр окружающей среды, а блок обработки информации осуществляет корректировку значения скорости звука в зависимости по меньшей мере от одного значения дополнительного атмосферного параметра окружающей среды.
Далее с помощью микрофонной решетки 2 блок обработки информации 1 сканирует окружающую среду, используя диаграмму направленности микрофонной решетки из MEMS микрофонов, проверяя энергию звукового сигнала в заранее заданном множестве направлений, соответствующим областям обнаруженных лиц, с учетом определенного ранее значения скорости звука. Координаты (азимут и угол места) обнаруженных источников человеческой речи при акустическом сканировании обрабатываются блоком обработки информации с помощью методов пространственно-временной фильтрации для локализации источников человеческой речи. Соответственно в случае перемещения обнаруженных лиц, диапазоны азимутов и углов мест, соответствующим областям обнаруженных лиц, будут корректироваться блоком обработки информации 1, что в свою очередь приведет к корректировке в реальном времени множества направлений, в котором будет осуществляться акустическое сканирование согласно описанному выше алгоритму.
В качестве устройства видеофиксации 3 может быть использована видеокамера, инфракрасная камера или иное устройство для видеозаписи, а в качестве блока обработки информации 1 используется промышленный контроллер или плата на базе микроконтроллера.
Блок определения атмосферного параметра окружающей среды 4 представляет собой один или несколько датчиков, размещенных на единой печатной плате, и обеспечивающих измерение атмосферных параметров окружающей среды таких, как температура, влажность, атмосферное давление окружающей среды и тд.
Все составные элементы заявленного устройства выполнены в виде единой конструкции, например, посредством их размещения на единой печатной плате или другим образом.
Для обеспечения обмена данными с внешними устройствами, такими как настольный компьютер, ноутбук, планшетный компьютер, смартфон и др., заявленное устройство дополнительно содержит интерфейс связи 6.
Основное отличие заявленного устройства от аналогов заключается в наличии блока определения атмосферного параметра окружающей среды и использовании устройства видеофиксации перед акустическим сканированием. Благодаря блоку определения атмосферного параметра окружающей среды оценивается реальное значение скорости звука в воздухе, которое необходимо при акустическом сканировании, чтобы обеспечить более точную локализацию источников человеческой речи, например, в уличных условиях, где скорость звука изменяется от 318 м/с до 348 м/с в зависимости от температуры, влажности, атмосферного давления и прочих атмосферных параметров окружающей среды. Благодаря акустическому сканированию в областях обнаруженных лиц шумовые области никакого влияния на результат акустического сканирования не окажут, вследствие чего также повышается точность локализации источников человеческой речи. Кроме того, используемая микрофонная решетка из MEMS микрофонов также оказывает положительный эффект на точность локализации источников человеческой речи, поскольку в отличие от микрофонов других типов, MEMS микрофоны высоким соотношением сигнал/шум и максимальной дальностью локализации источников звука.
Таким образом, заявленное решение обладает более высокой точностью локализации источников человеческой речи, чем известные аналоги. Кроме того, поскольку объем данных, получаемых при акустическом сканировании только в областях обнаруженных лиц с учетом атмосферных параметров окружающей среды, занимает меньший объем, чем объем данных, получаемых при таком же акустическом сканировании во всех направлениях, и за счет использования именно MEMS микрофонов содержит меньшее количество шумов, то заявленное решение обладает более высокой скоростью локализации источников человеческой речи, поскольку не требуются дополнительных операций по фильтрации источников шума, а блок обработки информации будет быстрее обрабатывать меньший объем данных и определять источники человеческой речи согласно описанному выше алгоритму.
Claims (12)
1. Устройство локализации источника голоса, содержащее связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации, причем блок обработки информации выполнен с возможностью:
обнаружения лиц на видео на основе сигнала, получаемого от устройства видеофиксации;
определения диапазонов азимутов и углов мест, соответствующих областям обнаруженных лиц, для формирования диаграммы направленности микрофонной решетки;
определения значения скорости звука в зависимости от значения атмосферного параметра окружающей среды;
акустического сканирования окружающей среды с помощью упомянутой микрофонной решетки во множестве направлений, соответствующих областям обнаруженных лиц и определенных сформированной диаграммой направленности микрофонной решетки, с учетом определенного ранее значения скорости звука; и
локализации источников человеческой речи на основе данных акустического сканирования.
2. Устройство по п. 1, отличающееся тем, что блок обработки информации выполнен с возможностью сопровождения обнаруженных лиц на видео.
3. Устройство по любому из пп. 1 или 2, отличающееся тем, что содержит подключенный к общей шине данных интерфейс связи, обеспечивающий обмен данными с внешними устройствами.
4. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром температуры окружающей среды.
5. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром влажности окружающей среды.
6. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром атмосферного давления окружающей среды.
7. Устройство по любому из пп. 4-6, отличающееся тем, что блок определения атмосферного параметра окружающей среды выполнен с возможностью определения дополнительного атмосферного параметра окружающей среды, а блок обработки информации выполнен с возможностью корректировки значения скорости звука в зависимости от значения дополнительного атмосферного параметра окружающей среды.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016135683U RU170249U1 (ru) | 2016-09-02 | 2016-09-02 | Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016135683U RU170249U1 (ru) | 2016-09-02 | 2016-09-02 | Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса |
Publications (1)
Publication Number | Publication Date |
---|---|
RU170249U1 true RU170249U1 (ru) | 2017-04-18 |
Family
ID=58641518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016135683U RU170249U1 (ru) | 2016-09-02 | 2016-09-02 | Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU170249U1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU174044U1 (ru) * | 2017-05-29 | 2017-09-27 | Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) | Аудиовизуальный многоканальный детектор наличия голоса |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5335011A (en) * | 1993-01-12 | 1994-08-02 | Bell Communications Research, Inc. | Sound localization system for teleconferencing using self-steering microphone arrays |
US20090319260A1 (en) * | 2008-06-19 | 2009-12-24 | Hongwei Kong | Method and system for audio transmit processing in an audio codec |
US8583428B2 (en) * | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
CA2908606A1 (en) * | 2013-03-13 | 2014-10-02 | Aliphcom | Speech detection using low power microelectrical mechanical systems sensor |
-
2016
- 2016-09-02 RU RU2016135683U patent/RU170249U1/ru not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5335011A (en) * | 1993-01-12 | 1994-08-02 | Bell Communications Research, Inc. | Sound localization system for teleconferencing using self-steering microphone arrays |
US20090319260A1 (en) * | 2008-06-19 | 2009-12-24 | Hongwei Kong | Method and system for audio transmit processing in an audio codec |
US8583428B2 (en) * | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
CA2908606A1 (en) * | 2013-03-13 | 2014-10-02 | Aliphcom | Speech detection using low power microelectrical mechanical systems sensor |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU174044U1 (ru) * | 2017-05-29 | 2017-09-27 | Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) | Аудиовизуальный многоканальный детектор наличия голоса |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106653041B (zh) | 音频信号处理设备、方法和电子设备 | |
US11398235B2 (en) | Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array | |
Kotus et al. | Detection and localization of selected acoustic events in acoustic field for smart surveillance applications | |
CN104794894B (zh) | 一种汽车鸣笛噪声监视装置、系统及方法 | |
US9847082B2 (en) | System for modifying speech recognition and beamforming using a depth image | |
Zhao et al. | A real-time 3D sound localization system with miniature microphone array for virtual reality | |
JP7194897B2 (ja) | 信号処理装置及び信号処理方法 | |
JP2017067666A5 (ru) | ||
US8917878B2 (en) | Microphone inspection method | |
JP6977448B2 (ja) | 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム | |
KR101793942B1 (ko) | 음향 수신부를 이용한 음원 추적 장치 및 방법 | |
RU174044U1 (ru) | Аудиовизуальный многоканальный детектор наличия голоса | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
US20130148814A1 (en) | Audio acquisition systems and methods | |
Nakadai et al. | Sound source tracking with directivity pattern estimation using a 64 ch microphone array | |
Plinge et al. | Geometry calibration of distributed microphone arrays exploiting audio-visual correspondences | |
RU170249U1 (ru) | Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса | |
CN109286790B (zh) | 一种基于声源定位的定向监听系统及其监听方法 | |
KR20090128221A (ko) | 음원 위치 추정 방법 및 그 방법에 따른 시스템 | |
KR101442172B1 (ko) | 검색 공간 클러스터링 방법을 이용한 실시간srp-phat 음원 위치 탐색 시스템 및 제어방법 | |
KR101542647B1 (ko) | 화자 검출을 이용한 오디오 신호 처리 방법 및 장치 | |
WO2022042864A1 (en) | Method and apparatus for measuring directions of arrival of multiple sound sources | |
Goseki et al. | Combination of microphone array processing and camera image processing for visualizing sound pressure distribution | |
Pasha et al. | Informed source location and DOA estimation using acoustic room impulse response parameters | |
CN115375757A (zh) | 基于视频的声源定位角度标定方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM9K | Utility model has become invalid (non-payment of fees) |
Effective date: 20180903 |