Главная | E-mail | 18.04.2024 | ||
Главная страница | О журнале | Авторам | Редколлегия | Контакты | ||
Научно-технический интернет-журнал Свидетельство о регистрации Эл № ФС 77-31314 |
|
Новости отрасли
Дата : 19 июня 2013 года | просмотров: 222
В мире существуют различные программы, широко используемые всевозможными спецслужбами и правоохранительными органами, которые по движениям губ, челюстей и мышц лица человека могут распознать те слова, которые произносит этот человек. Наиболее сложные программы могут распознать речь человека на различных языках, но в любом случае, компьютер может с некоторой долей вероятности правильно воспроизвести только слова, чистый текст, не включающий в себя никаких интонаций и эмоциональной составляющей.
Используя высокоскоростную камеру, делающую тысячи кадров в секунду, исследователям из университета Васеда (Waseda University in Tokyo) в Токио удалось сделать запись даже самых мельчайших колебаний поверхности кожи лица и шеи человека, которыми сопровождаются звуки, исходящие от голосовых связок человека. После съемки специализированная компьютерная программа, основанная на сложнейших алгоритмах, превратила снятые колебания кожи в соответствующие им звуковые колебания, в голос человека. «С помощью нашей технологии мы можем получить не только слова, произнесенные человеком, но и его голос с интонациями, несущими эмоциональную составляющую речи», – рассказал Ясухиро Оикоа (Yasuhiro Oikawa), руководитель научной группы, выступая на Международном конгрессе по акустике (International Congress on Acoustics), проходившем в начале июня в Токио. Используя технологию высокоскоростной съемки, исследователи сделали запись того, как два добровольных участника произносили одно и то же слово на японском языке. Камера снимала с частотой 10 тысяч кадров в секунду (для сравнения, в обычном видео используется съемка с частотой 24 кадра в секунду, а особо качественное видео снимается с частотой 60-80 кадров в секунду). Помимо этого, голос добровольцев записывался с помощью обычного микрофона, а колебания кожи их лица и горла регистрировались с помощью датчиков-виброметров. После того как компьютерная программы выдала рассчитанную ей на основе визуальных данных последовательность звуковых колебаний, исследователи сравнили их с реальными данными, записанными с помощью микрофона и виброметров. Оказалось, что рассчитанные звуки совпадали с реальными звуками, расходясь лишь в незначительных деталях. Проигрывая получившийся звуковой файл, исследователи смогли достаточно четко распознать отдельные произносимые слова и опознать голосовые интонации. Технология реконструкции речи и голоса человека с помощью высокоскоростной камеры находится еще в экспериментальной стадии, только доказывающей работоспособность самой идеи. До конца этого года исследователи планируют довести эту технологию до уровня, когда она сможет работать в режиме реального времени, распознавая и воспроизводя не только короткие слова, фразы, а и достаточно длинные предложения. Для этого исследователи собираются серьезно переработать программное обеспечение системы и реализовать функцию анализа колебаний поверхности кожи некоторых других частей лица человека, к примеру, щек, что предоставит в их распоряжение большее количество информации, позволяющей более качественно реконструировать речь, голос и интонации человека. www.russianelectronics.ru/developer-r/news/9318/doc/63702/
|
|