RU170249U1 - Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса - Google Patents

Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса Download PDF

Info

Publication number
RU170249U1
RU170249U1 RU2016135683U RU2016135683U RU170249U1 RU 170249 U1 RU170249 U1 RU 170249U1 RU 2016135683 U RU2016135683 U RU 2016135683U RU 2016135683 U RU2016135683 U RU 2016135683U RU 170249 U1 RU170249 U1 RU 170249U1
Authority
RU
Russia
Prior art keywords
environmental parameter
atmospheric environmental
sound
microphone array
speed
Prior art date
Application number
RU2016135683U
Other languages
English (en)
Inventor
Дмитрий Андреевич Суворов
Роман Алексеевич Жуков
Антон Александрович Евмененко
Дмитрий Олегович Тетерюков
Original Assignee
Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) filed Critical Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ)
Priority to RU2016135683U priority Critical patent/RU170249U1/ru
Application granted granted Critical
Publication of RU170249U1 publication Critical patent/RU170249U1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

Полезная модель относится к измерительной технике, в частности к устройствам локализации источников человеческой речи, и могут использоваться в системах распознавания речи или в системах видеоконференций, а также в охранных или робототехнических изделиях для контроля желаемых объектов или событий. Техническим результатом заявленного решения является повышение точности определения источников человеческой речи. Устройство локализации источника голоса содержит связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации. Указанный результат достигается за счет введения в устройство дополнительных программно-аппаратных средств, выполняющих акустическое сканирование только по диапазону азимутов и углов мест, соответствующих областям обнаружения лиц с учетом реального значения скорости звука в воздухе, зависящего от атмосферных параметров окружающей среды.

Description

Область техники
Полезная модель относится к измерительной технике, в частности к устройствам локализации источников человеческой речи, и могут использоваться в системах распознавания речи или в системах видеоконференций, а также в охранных или робототехнических изделиях для контроля желаемых объектов или событий.
Уровень техники
Из уровня техники известны различные устройства и системы, обеспечивающие локализацию источников человеческой речи, осуществляемую посредством микрофонных решеток.
Например, известна звуковая система локализации для телеконференций с помощью самоуправляемых микрофонных решеток, описанная в патенте № US 5335011 А, опубл. 12.01.1993. В данном решении для определения направления на источники звука область вокруг установки разделяется на зоны. Каждая зона сканируется высоконаправленным акустическим лучом, чтобы проверить там наличие источников звука. Такая система чувствительна к реверберациям, а также плохо различает близкорасположенные источники звука, т.к. сформированная диаграмма направленности имеет угловую ширину от нескольких, до десятков градусов. Кроме того, в случае использования плоских или линейных микрофонных решеток, система не сможет различать источники звука спереди и сзади нее, т.е. расположенные на смежных углах. Система при формировании диаграммы направленности учитывает скорость звука в воздухе, однако не имеет датчиков для оценки ее реального значения, что приводит к ухудшению качества локализации при несовпадении предполагаемой скорости и реальной. Данное решения является наиболее близким аналогом.
Известны способ и устройство для выбора активного говорящего с помощью микрофонных решеток и идентификация голоса, описанные в заявке № US 20090220065 А1, опубл. 03.03.2008. Описанная в данном документе система определяет направления на источники звука с помощью массива микрофонов и выделяет сигнал от говорящего. В дальнейшем он проходит через систему идентификации дикторов, которая служит дополнительным фильтром, отбрасывающим шумы и реверберации. Система опять же не имеет датчиков для оценки реальной скорости звука, необходимой для акустических расчетов, а также имеет проблемы с различением близко расположенных источников звука.
Известна система, обеспечивающая разделение источника звука с использованием пространственной фильтрации и регуляризацией фаз, описанная в патенте № US 8583428 В2, опубл. 15.06.2010. Данная система вычисляет направления на источники звука, используя разности фаз гармоник звуковых сигналов, приходящих на разные микрофоны микрофонной решетки. Система имеет проблемы с различением близкорасположенных источников звука. Также для ее работы необходимо знание реальной скорости звука, оценка которой в патенте отсутствует.
Сущность полезной модели
Заявленное техническое решение решает задачу локализации источников человеческой речи посредством средств аудио- и видеофиксации.
Техническим результатом заявленного решения является повышение точности определения источников человеческой речи.
Данный результат достигается за счет выполнения акустического сканирования только по диапазону азимутов и углов мест, соответствующих областям обнаружения лиц с учетом реального значения скорости звука в воздухе, зависящего от атмосферных параметров окружающей среды, причем акустическое сканирование выполняется посредством микрофонной решетки, состоящей из MEMS микрофонов.
Для обеспечения указанного технического результата было разработано устройство локализации источника голоса, содержащее связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации, причем блок обработки информации выполнен с возможностью:
обнаружения лиц на видео на основе сигнала, получаемого от устройства видеофиксации;
определения диапазонов азимутов и углов мест, соответствующих областям обнаруженных лиц, для формирования диаграммы направленности микрофонной решетки;
определения значения скорости звука в зависимости от значения атмосферного параметра окружающей среды;
акустического сканирования окружающей среды с помощью микрофонной решетки во множестве направлений, соответствующих областям обнаруженных лиц и определенных сформированной диаграммой направленности микрофонной решетки, с учетом определенного ранее значения скорости звука; и
локализации источников человеческой речи на основе данных акустического сканирования.
Краткое описание чертежей
Для лучшего понимания сущности полезной модели, и чтобы более ясно показать, каким образом она может быть осуществлена, далее будет сделана ссылка, лишь в качестве примера, на прилагаемые чертежи, на которых:
фиг. 1 - структурная схема устройства локализации источника голоса;
фиг. 2 - алгоритм работы устройства локализации источника голоса.
Осуществление полезной модели
На фиг. 1 изображена структурная схема устройства локализации источника голоса, в соответствии с которой устройство содержит связанные по общей шине данных: блок обработки информации 1; микрофонную решетку 2, состоящую из MEMS микрофонов; устройство видеофиксации 3, жестко закрепленную относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды 4; память 5 и интерфейс связи 6.
Далее алгоритм работы устройства локализации источника голоса будет описан в соответствии со схемой, отображенной на фиг. 2.
Видеосигнал от устройства видеофиксации 3 непрерывно поступает на блок обработки информации 1, который в соответствии с заложенными в него программно-аппаратными алгоритмами, выполняет обнаружение лиц на видео, а также их сопровождение в случае, если лица были обнаружены ранее, при этом в случае обнаружения лиц на видео дальнейшее акустическое сканирование будет осуществляться только по диапазону азимутов и углов мест, соответствующих областям обнаруженных лиц. Для достижения данной задачи блок обработки информации 1 определяет диапазоны азимутов и углов мест, соответствующих областям обнаруженных лиц, и формирует на их основе диаграмму направленности микрофонной решетки. Для определения блоком обработки информации значения скорости звука, используемой при акустическом сканировании, используется информация от блока определения атмосферного параметра окружающей среды 4 и таблица зависимости скорости звука в воздухе от значения атмосферного параметра окружающей среды, хранящейся в памяти устройства.
Атмосферный параметр окружающей среды может представляет собой параметр температуры, влажности, атмосферного давления и других атмосферных параметров, влияющих на изменение значения скорости звука в воздухе. Также блок определения атмосферного параметра окружающей среды 4 может определять по меньшей мере один дополнительный параметр окружающей среды, а блок обработки информации осуществляет корректировку значения скорости звука в зависимости по меньшей мере от одного значения дополнительного атмосферного параметра окружающей среды.
Далее с помощью микрофонной решетки 2 блок обработки информации 1 сканирует окружающую среду, используя диаграмму направленности микрофонной решетки из MEMS микрофонов, проверяя энергию звукового сигнала в заранее заданном множестве направлений, соответствующим областям обнаруженных лиц, с учетом определенного ранее значения скорости звука. Координаты (азимут и угол места) обнаруженных источников человеческой речи при акустическом сканировании обрабатываются блоком обработки информации с помощью методов пространственно-временной фильтрации для локализации источников человеческой речи. Соответственно в случае перемещения обнаруженных лиц, диапазоны азимутов и углов мест, соответствующим областям обнаруженных лиц, будут корректироваться блоком обработки информации 1, что в свою очередь приведет к корректировке в реальном времени множества направлений, в котором будет осуществляться акустическое сканирование согласно описанному выше алгоритму.
В качестве устройства видеофиксации 3 может быть использована видеокамера, инфракрасная камера или иное устройство для видеозаписи, а в качестве блока обработки информации 1 используется промышленный контроллер или плата на базе микроконтроллера.
Блок определения атмосферного параметра окружающей среды 4 представляет собой один или несколько датчиков, размещенных на единой печатной плате, и обеспечивающих измерение атмосферных параметров окружающей среды таких, как температура, влажность, атмосферное давление окружающей среды и тд.
Все составные элементы заявленного устройства выполнены в виде единой конструкции, например, посредством их размещения на единой печатной плате или другим образом.
Для обеспечения обмена данными с внешними устройствами, такими как настольный компьютер, ноутбук, планшетный компьютер, смартфон и др., заявленное устройство дополнительно содержит интерфейс связи 6.
Основное отличие заявленного устройства от аналогов заключается в наличии блока определения атмосферного параметра окружающей среды и использовании устройства видеофиксации перед акустическим сканированием. Благодаря блоку определения атмосферного параметра окружающей среды оценивается реальное значение скорости звука в воздухе, которое необходимо при акустическом сканировании, чтобы обеспечить более точную локализацию источников человеческой речи, например, в уличных условиях, где скорость звука изменяется от 318 м/с до 348 м/с в зависимости от температуры, влажности, атмосферного давления и прочих атмосферных параметров окружающей среды. Благодаря акустическому сканированию в областях обнаруженных лиц шумовые области никакого влияния на результат акустического сканирования не окажут, вследствие чего также повышается точность локализации источников человеческой речи. Кроме того, используемая микрофонная решетка из MEMS микрофонов также оказывает положительный эффект на точность локализации источников человеческой речи, поскольку в отличие от микрофонов других типов, MEMS микрофоны высоким соотношением сигнал/шум и максимальной дальностью локализации источников звука.
Таким образом, заявленное решение обладает более высокой точностью локализации источников человеческой речи, чем известные аналоги. Кроме того, поскольку объем данных, получаемых при акустическом сканировании только в областях обнаруженных лиц с учетом атмосферных параметров окружающей среды, занимает меньший объем, чем объем данных, получаемых при таком же акустическом сканировании во всех направлениях, и за счет использования именно MEMS микрофонов содержит меньшее количество шумов, то заявленное решение обладает более высокой скоростью локализации источников человеческой речи, поскольку не требуются дополнительных операций по фильтрации источников шума, а блок обработки информации будет быстрее обрабатывать меньший объем данных и определять источники человеческой речи согласно описанному выше алгоритму.

Claims (12)

1. Устройство локализации источника голоса, содержащее связанные по общей шине данных: микрофонную решетку, состоящую из MEMS микрофонов; устройство видеофиксации, жестко закрепленное относительно микрофонной решетки; блок определения атмосферного параметра окружающей среды; память, хранящую таблицу зависимости значений скорости звука в воздухе от значений атмосферного параметра окружающей среды; и блок обработки информации, причем блок обработки информации выполнен с возможностью:
обнаружения лиц на видео на основе сигнала, получаемого от устройства видеофиксации;
определения диапазонов азимутов и углов мест, соответствующих областям обнаруженных лиц, для формирования диаграммы направленности микрофонной решетки;
определения значения скорости звука в зависимости от значения атмосферного параметра окружающей среды;
акустического сканирования окружающей среды с помощью упомянутой микрофонной решетки во множестве направлений, соответствующих областям обнаруженных лиц и определенных сформированной диаграммой направленности микрофонной решетки, с учетом определенного ранее значения скорости звука; и
локализации источников человеческой речи на основе данных акустического сканирования.
2. Устройство по п. 1, отличающееся тем, что блок обработки информации выполнен с возможностью сопровождения обнаруженных лиц на видео.
3. Устройство по любому из пп. 1 или 2, отличающееся тем, что содержит подключенный к общей шине данных интерфейс связи, обеспечивающий обмен данными с внешними устройствами.
4. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром температуры окружающей среды.
5. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром влажности окружающей среды.
6. Устройство по п. 1, отличающееся тем, что атмосферный параметр окружающей среды является параметром атмосферного давления окружающей среды.
7. Устройство по любому из пп. 4-6, отличающееся тем, что блок определения атмосферного параметра окружающей среды выполнен с возможностью определения дополнительного атмосферного параметра окружающей среды, а блок обработки информации выполнен с возможностью корректировки значения скорости звука в зависимости от значения дополнительного атмосферного параметра окружающей среды.
RU2016135683U 2016-09-02 2016-09-02 Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса RU170249U1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2016135683U RU170249U1 (ru) 2016-09-02 2016-09-02 Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016135683U RU170249U1 (ru) 2016-09-02 2016-09-02 Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса

Publications (1)

Publication Number Publication Date
RU170249U1 true RU170249U1 (ru) 2017-04-18

Family

ID=58641518

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016135683U RU170249U1 (ru) 2016-09-02 2016-09-02 Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса

Country Status (1)

Country Link
RU (1) RU170249U1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU174044U1 (ru) * 2017-05-29 2017-09-27 Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) Аудиовизуальный многоканальный детектор наличия голоса

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335011A (en) * 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
US20090319260A1 (en) * 2008-06-19 2009-12-24 Hongwei Kong Method and system for audio transmit processing in an audio codec
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
CA2908606A1 (en) * 2013-03-13 2014-10-02 Aliphcom Speech detection using low power microelectrical mechanical systems sensor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335011A (en) * 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
US20090319260A1 (en) * 2008-06-19 2009-12-24 Hongwei Kong Method and system for audio transmit processing in an audio codec
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
CA2908606A1 (en) * 2013-03-13 2014-10-02 Aliphcom Speech detection using low power microelectrical mechanical systems sensor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU174044U1 (ru) * 2017-05-29 2017-09-27 Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) Аудиовизуальный многоканальный детектор наличия голоса

Similar Documents

Publication Publication Date Title
CN106653041B (zh) 音频信号处理设备、方法和电子设备
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
Kotus et al. Detection and localization of selected acoustic events in acoustic field for smart surveillance applications
CN104794894B (zh) 一种汽车鸣笛噪声监视装置、系统及方法
US9847082B2 (en) System for modifying speech recognition and beamforming using a depth image
Zhao et al. A real-time 3D sound localization system with miniature microphone array for virtual reality
JP7194897B2 (ja) 信号処理装置及び信号処理方法
JP2017067666A5 (ru)
US8917878B2 (en) Microphone inspection method
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
KR101793942B1 (ko) 음향 수신부를 이용한 음원 추적 장치 및 방법
RU174044U1 (ru) Аудиовизуальный многоканальный детектор наличия голоса
CN107167770A (zh) 一种混响条件下的麦克风阵列声源定位装置
US20130148814A1 (en) Audio acquisition systems and methods
Nakadai et al. Sound source tracking with directivity pattern estimation using a 64 ch microphone array
Plinge et al. Geometry calibration of distributed microphone arrays exploiting audio-visual correspondences
RU170249U1 (ru) Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса
CN109286790B (zh) 一种基于声源定位的定向监听系统及其监听方法
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
KR101442172B1 (ko) 검색 공간 클러스터링 방법을 이용한 실시간srp-phat 음원 위치 탐색 시스템 및 제어방법
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
WO2022042864A1 (en) Method and apparatus for measuring directions of arrival of multiple sound sources
Goseki et al. Combination of microphone array processing and camera image processing for visualizing sound pressure distribution
Pasha et al. Informed source location and DOA estimation using acoustic room impulse response parameters
CN115375757A (zh) 基于视频的声源定位角度标定方法、系统、设备及介质

Legal Events

Date Code Title Description
MM9K Utility model has become invalid (non-payment of fees)

Effective date: 20180903