Яндекс и его Искусственный Голос: Теперь с Тембром и Интонациями!

Осень 2021 года могла показаться не самой примечательной, но для Яндекса это было началом настоящей революции в мире видео. Они, как настоящие волшебники, представили функцию закадрового перевода, погрузив нас в мир, где двуязычное видео стало привычным делом.

Ушли в историю стандартные голоса

Сначала на сцену вышли традиционные мужской и женский голоса, будто бы из учебника. Но времена меняются, и теперь Яндекс предлагает что-то действительно замечательное. Вы только подумайте: новая система перевода способна не просто звучать, как робот, а сохранять задор и интонации оригинального оратора. Теперь перевод действительно может звучать как разговор с другом, а не как вещание откуда-то из глубин Вселенной!

Как же это работает?

В основе этого чуда лежит модифицированная версия Tortoise-TTS. Наверняка, вы слышали о ней раньше, но Яндекс добавил немного магии в этот процесс. Давайте разберемся, что же они изменили:

  1. Качество говорит само за себя

    • Здесь Яндекс не стал плыть по течению. Они создали уникальный фонемный алфавит, в котором каждая буква и звук точно соответствуют как английскому, так и русскому языкам. Произношение заимствованных слов стало таким точным, что на уроках английского языка вам, вероятно, позавидуют!

    • Интеграция биометрических эмбеддингов – это звучит сложно, но на деле Яндекс добавил нечто вроде зеркала для голоса. Теперь даже если вы меняете язык, ваш голос остается вашим, а не случайно подобранным худшим дублером из подпольного фильма.

    • А высокая метрика UTMOS позволяет удерживать звучание естественным. Вы не услышите никакого роботизированного акцента, разве что ниτών, когда будете ловить его в инстаграмных видео – но это уже совсем другая история.

  2. Проблема акцента? Не существует!

    • Вы даже себе представить не можете, как Яндекс справился с возникшим акцентом. Они создали синтетический датасет, что принесло невероятные результаты – процент синтеза с акцентом упал с 50% до жалких 5%! Это не просто улучшение, это настоящий подъем на пьедестал победителя!
  3. Скорость – это не просто слово

    • Сократив количество гипотез в языковой модели с 512 до 16, Яндекс достиг действительно фантастических результатов. Словно вы нажали на турбо-режим в своем любимом спорткаре, и вдруг скорость обработки возросла до RTF ≈ 0.18. А что это для нас,? Пожалуйста, миллионы пользователей могут в реальном времени наслаждаться переводом!
  4. Аудиопромпты как из Лас-Вегаса

    • Разработчики чистят свои аудиопромпты, как это делают стилисты на красной дорожке. Дальше, с использованием автоматического выбора, вы получаете максимально естественный тембр, который звучит так, будто он только что вернулся из музыкального тура.

Запускаем фанфары!

Итак, что же у нас теперь? Перевод звучит так естественно, что вы можете забыть, что это вообще синтез! Интонации и тембр обеспечивают идеальное восприятие, а скорость обработки позволяет одновременно принимать миллионы пользователей.

  • При оценках качества, новый перевод оказывается предпочтительнее старой версии в 72% случаев. Так что вы можете смело сказать друзьям: «Эй, забудьте о старьях, я здесь с Яндексом!».

Где все это доступно? Причем на платформах, которые все мы любим: YouTube, VK Видео, Дзен... Выбирайте перевод в панели управления браузера — и вперед к новым свершениям!

Куда движется Яндекс?

Еще больше фишек на горизонте! Команда Яндекса не останавливается на достигнутом. В планах — синхронизация движений губ с закадровым переводом, чтобы все выглядело еще более реалистично.

Итак, Яндекс создал настоящую передовую систему мультиязычного генеративного синт


Яндекс запускает инновационный закадровый перевод видео! ver 0
Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Михаил
Почему датасет DUMB500 — это просто находка! Этот набор данных – настоящий бриллиант среди прочих! Он полон уникальной информации и предлагает возможности, которые сложно переоценить. В мире, где данные кажутся повседневностью, DUMB500 выделяется своей структурированной подачей и актуальностью. Это не просто цифры – это шанс получи... Читать далее