Яндекс и его Искусственный Голос: Теперь с Тембром и Интонациями!
Осень 2021 года могла показаться не самой примечательной, но для Яндекса это было началом настоящей революции в мире видео. Они, как настоящие волшебники, представили функцию закадрового перевода, погрузив нас в мир, где двуязычное видео стало привычным делом.
Ушли в историю стандартные голоса
Сначала на сцену вышли традиционные мужской и женский голоса, будто бы из учебника. Но времена меняются, и теперь Яндекс предлагает что-то действительно замечательное. Вы только подумайте: новая система перевода способна не просто звучать, как робот, а сохранять задор и интонации оригинального оратора. Теперь перевод действительно может звучать как разговор с другом, а не как вещание откуда-то из глубин Вселенной!
Как же это работает?
В основе этого чуда лежит модифицированная версия Tortoise-TTS. Наверняка, вы слышали о ней раньше, но Яндекс добавил немного магии в этот процесс. Давайте разберемся, что же они изменили:
-
Качество говорит само за себя
-
Здесь Яндекс не стал плыть по течению. Они создали уникальный фонемный алфавит, в котором каждая буква и звук точно соответствуют как английскому, так и русскому языкам. Произношение заимствованных слов стало таким точным, что на уроках английского языка вам, вероятно, позавидуют!
-
Интеграция биометрических эмбеддингов – это звучит сложно, но на деле Яндекс добавил нечто вроде зеркала для голоса. Теперь даже если вы меняете язык, ваш голос остается вашим, а не случайно подобранным худшим дублером из подпольного фильма.
-
А высокая метрика UTMOS позволяет удерживать звучание естественным. Вы не услышите никакого роботизированного акцента, разве что ниτών, когда будете ловить его в инстаграмных видео – но это уже совсем другая история.
-
-
Проблема акцента? Не существует!
- Вы даже себе представить не можете, как Яндекс справился с возникшим акцентом. Они создали синтетический датасет, что принесло невероятные результаты – процент синтеза с акцентом упал с 50% до жалких 5%! Это не просто улучшение, это настоящий подъем на пьедестал победителя!
-
Скорость – это не просто слово
- Сократив количество гипотез в языковой модели с 512 до 16, Яндекс достиг действительно фантастических результатов. Словно вы нажали на турбо-режим в своем любимом спорткаре, и вдруг скорость обработки возросла до RTF ≈ 0.18. А что это для нас,? Пожалуйста, миллионы пользователей могут в реальном времени наслаждаться переводом!
-
Аудиопромпты как из Лас-Вегаса
- Разработчики чистят свои аудиопромпты, как это делают стилисты на красной дорожке. Дальше, с использованием автоматического выбора, вы получаете максимально естественный тембр, который звучит так, будто он только что вернулся из музыкального тура.
Запускаем фанфары!
Итак, что же у нас теперь? Перевод звучит так естественно, что вы можете забыть, что это вообще синтез! Интонации и тембр обеспечивают идеальное восприятие, а скорость обработки позволяет одновременно принимать миллионы пользователей.
- При оценках качества, новый перевод оказывается предпочтительнее старой версии в 72% случаев. Так что вы можете смело сказать друзьям: «Эй, забудьте о старьях, я здесь с Яндексом!».
Где все это доступно? Причем на платформах, которые все мы любим: YouTube, VK Видео, Дзен... Выбирайте перевод в панели управления браузера — и вперед к новым свершениям!
Куда движется Яндекс?
Еще больше фишек на горизонте! Команда Яндекса не останавливается на достигнутом. В планах — синхронизация движений губ с закадровым переводом, чтобы все выглядело еще более реалистично.
Итак, Яндекс создал настоящую передовую систему мультиязычного генеративного синт
Вам также может понравиться






















