polishchuk 0 232 17.05.2019
Google представила Translatotron — технологию синхронного перевода устной речи
Google представила Translatotron — технологию синхронного перевода устной речи.
В Google говорят, что современные технологии по переводу устной речи обычно состоят из трех этапов:
- распознавание текста
- перевод текста
- синтез текста в голос.
Такая система хорошо себя зарекомендовала во многих продуктах, в том числе в Google Translate, говорят в компании.
Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.
Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.
В Google выделяют несколько преимуществ Translatotron. Технология может быстрее совершать перевод (по сравнению с «каскадными» системами), избавляется от возможных ошибок при распознавании текста и может лучше справляться со словами, которые не нуждаются в переводе (например, названия и имена собственные).
Сейчас Translatotron выдает перевод хуже, чем системы с распознаванием текста, но в Google уверены, что создать рабочую технологию прямого перевода устной речи возможно: «Насколько нам известно, Translatotron — первая модель, которая может напрямую переводить речь с одного языка на речь на другом языке. Мы надеемся, что эта работа послужит отправной точкой для будущих исследований подобных систем».
Посмотреть примеры работы алгоритма можно на странице Google на Github.