Сбер представил GigaChat Audio — новую эпоху в распознавании аудио
Сбер продолжает удивлять своим прогрессом в области искусственного интеллекта, представляя новую мультимодальную модель GigaChat Audio. Эта модель вызывает интерес своей отличительной чертой — вместо привычного подхода, где звук сначала преобразуется в текст с помощью ASR (Automatic Speech Recognition), а затем обрабатывается LLM (Language Model), GigaChat Audio функционирует по принципу end-to-end. Это значит, что модель понимает аудиосигналы напрямую, что значительно повышает её эффективность и точность.
Эффективность и сравнение с предыдущими моделями
По результатам сравнения на 1200 диалогах, GigaChat Audio продемонстрировала впечатляющие результаты. Ее точность распознавания речи составила 0.68, что вдвое превышает показатели старой схемы (ASR → GigaChat), где этот показатель оказался на уровне 0.32. Это сразу делает GigaChat Audio предпочтительным выбором для тех, кто ищет надежные решения в области распознавания речи.
Уникальные возможности GigaChat Audio
Интересно отметить, что GigaChat Audio не просто распознает речь, но и умеет пересказывать, резюмировать и предоставлять ответы на вопросы по длинным аудиозаписям. Это особенно полезно для студентов, исследователей и любых людей, которые активно используют аудио-контент, будь то лекции или подкасты. И хотя многие передовые LLM с аудиовходом могут предложить аналогичные функции, GigaChat Audio выделяется своей надежностью и точностью, особенно в контексте русского языка.
Мультиязычная поддержка
Разработчики GigaChat Audio также позаботились о мультиязычности модели. Она свободно работает как на русском, так и на английском языках, справляясь с задачами на других языках. Это открывает новые горизонты для использования модели в разных странах, что в свою очередь увеличивает её рынковую ценность.
Доступность
Изучить все возможности GigaChat Audio можно прямо сейчас — доступ к ней открыт через веб-версию giga.chat и бота в Telegram @gigachat_bot. Это отличная возможность для всех заинтересованных пользователей протестировать эту революционную технологию и оценить ее преимущества.
GigaChat Audio — это не просто новая модель от Сбера, это шаг в будущее, который подчеркивает, как быстро развиваются технологии распознавания речи и какие горизонты они открывают для пользователей. Неудивительно, что такие разработки становятся все более актуальными в нашем стремительно меняющемся мире.

Сбер презентовал GigaChat Audio: революция в распознавании звука ver 0
Ширина: 1280 px
Высота: 910 px
Соотношение сторон.: 128:91
Скачать

Сбер презентовал GigaChat Audio: революция в распознавании звука ver 1
Ширина: 1280 px
Высота: 343 px
Соотношение сторон.: 1280:343
Скачать

Сбер презентовал GigaChat Audio: революция в распознавании звука ver 2
Ширина: 1280 px
Высота: 1071 px
Соотношение сторон.: 1280:1071
Скачать
Вам также может понравиться
















