Инженеры обучили ИИ говорить человеческим звуком

07.03.2018 3:15

В столице Китая инженеры компании «Baidu» смогли воплотить технологию, благодаря которой искусственный интеллект может воссоздавать человеческий голос. Данная система оказалось необычайной, ведь она способна говорить человеческим звуком, при этом с точностью копируя его характеристики. Ученым удалось добиться необычайной похожести с оригиналом благодаря технологии Deep Voice. Обучение нейросети проходило при помощи аудиозаписи длительностью в 33 сутки, которая содержала не менее 2400 образцов человеческого голоса. Программе довелось рассмотреть аудиозапись длительностью не менее месяца. Работа нейросети могла осуществляться уже при 100 звуковых сигналах по 5 секунд, но система сумеет обмануть устройство распознавания голоса уже при наличии 10 пятисекундных записей.

Так, при помощи Deep Voice можно озвучивать книги и остальные программы, переводить фильмы, и самое главное — значительно облегчит жизнь людям, потерявшим способность издавать звуки. Это и персональные цифровые ассистенты, и сервисы синхронного перевода, озвучка аудиокниг, фильмов, игр и т. д. Однако самое главное, что Deep Voice сумеет облегчить жизнь тем, кто потерял возможность говорить. Также одинокие люди могут пообщаться с собственными родными, которых они когда-то потеряли либо временно не могут с ними связаться.

«Это настоящий прорыв с технической точки зрения», — говорит один из создателей разработки Лео Зу (Leo Zou). Инженерам и программистам удалось сделать то, что еще никому не удавалось, другими словами синтезировать живую речь со всеми акцентами, интонациями и произношениями. Это и корпорация Google, и канадская компания Lyrebird.

Источник