Интернет-журнал ТелеФото Техника           Главная    |    E-mail    |    18.04.2024      
Главная страница   |   О журнале   |   Авторам   |   Редколлегия   |   Контакты            

Научно-технический интернет-журнал        Свидетельство о регистрации Эл № ФС 77-31314      


   


 

Новости отрасли
На главную / Все новости / Все новости раздела

Дата   :   19 июня 2013 года  |  просмотров: 222

Создана камера, способная записывать голос человека без микрофона

В мире существуют различные программы, широко используемые всевозможными спецслужбами и правоохранительными органами, которые по движениям губ, челюстей и мышц лица человека могут распознать те слова, которые произносит этот человек. Наиболее сложные программы могут распознать речь человека на различных языках, но в любом случае, компьютер может с некоторой долей вероятности правильно воспроизвести только слова, чистый текст, не включающий в себя никаких интонаций и эмоциональной составляющей.




Используя высокоскоростную камеру, делающую тысячи кадров в секунду, исследователям из университета Васеда (Waseda University in Tokyo) в Токио удалось сделать запись даже самых мельчайших колебаний поверхности кожи лица и шеи человека, которыми сопровождаются звуки, исходящие от голосовых связок человека. После съемки специализированная компьютерная программа, основанная на сложнейших алгоритмах, превратила снятые колебания кожи в соответствующие им звуковые колебания, в голос человека.


«С помощью нашей технологии мы можем получить не только слова, произнесенные человеком, но и его голос с интонациями, несущими эмоциональную составляющую речи», – рассказал Ясухиро Оикоа (Yasuhiro Oikawa), руководитель научной группы, выступая на Международном конгрессе по акустике (International Congress on Acoustics), проходившем в начале июня в Токио.

Используя технологию высокоскоростной съемки, исследователи сделали запись того, как два добровольных участника произносили одно и то же слово на японском языке. Камера снимала с частотой 10 тысяч кадров в секунду (для сравнения, в обычном видео используется съемка с частотой 24 кадра в секунду, а особо качественное видео снимается с частотой 60-80 кадров в секунду). Помимо этого, голос добровольцев записывался с помощью обычного микрофона, а колебания кожи их лица и горла регистрировались с помощью датчиков-виброметров.

После того как компьютерная программы выдала рассчитанную ей на основе визуальных данных последовательность звуковых колебаний, исследователи сравнили их с реальными данными, записанными с помощью микрофона и виброметров. Оказалось, что рассчитанные звуки совпадали с реальными звуками, расходясь лишь в незначительных деталях. Проигрывая получившийся звуковой файл, исследователи смогли достаточно четко распознать отдельные произносимые слова и опознать голосовые интонации.

Технология реконструкции речи и голоса человека с помощью высокоскоростной камеры находится еще в экспериментальной стадии, только доказывающей работоспособность самой идеи. До конца этого года исследователи планируют довести эту технологию до уровня, когда она сможет работать в режиме реального времени, распознавая и воспроизводя не только короткие слова, фразы, а и достаточно длинные предложения. Для этого исследователи собираются серьезно переработать программное обеспечение системы и реализовать функцию анализа колебаний поверхности кожи некоторых других частей лица человека, к примеру, щек, что предоставит в их распоряжение большее количество информации, позволяющей более качественно реконструировать речь, голос и интонации человека.

www.russianelectronics.ru/developer-r/news/9318/doc/63702/