Сбер представил GigaChat Audio — новую эпоху в распознавании аудио

Сбер продолжает удивлять своим прогрессом в области искусственного интеллекта, представляя новую мультимодальную модель GigaChat Audio. Эта модель вызывает интерес своей отличительной чертой — вместо привычного подхода, где звук сначала преобразуется в текст с помощью ASR (Automatic Speech Recognition), а затем обрабатывается LLM (Language Model), GigaChat Audio функционирует по принципу end-to-end. Это значит, что модель понимает аудиосигналы напрямую, что значительно повышает её эффективность и точность.

Эффективность и сравнение с предыдущими моделями

По результатам сравнения на 1200 диалогах, GigaChat Audio продемонстрировала впечатляющие результаты. Ее точность распознавания речи составила 0.68, что вдвое превышает показатели старой схемы (ASR → GigaChat), где этот показатель оказался на уровне 0.32. Это сразу делает GigaChat Audio предпочтительным выбором для тех, кто ищет надежные решения в области распознавания речи.

Уникальные возможности GigaChat Audio

Интересно отметить, что GigaChat Audio не просто распознает речь, но и умеет пересказывать, резюмировать и предоставлять ответы на вопросы по длинным аудиозаписям. Это особенно полезно для студентов, исследователей и любых людей, которые активно используют аудио-контент, будь то лекции или подкасты. И хотя многие передовые LLM с аудиовходом могут предложить аналогичные функции, GigaChat Audio выделяется своей надежностью и точностью, особенно в контексте русского языка.

Мультиязычная поддержка

Разработчики GigaChat Audio также позаботились о мультиязычности модели. Она свободно работает как на русском, так и на английском языках, справляясь с задачами на других языках. Это открывает новые горизонты для использования модели в разных странах, что в свою очередь увеличивает её рынковую ценность.

Доступность

Изучить все возможности GigaChat Audio можно прямо сейчас — доступ к ней открыт через веб-версию giga.chat и бота в Telegram @gigachat_bot. Это отличная возможность для всех заинтересованных пользователей протестировать эту революционную технологию и оценить ее преимущества.

GigaChat Audio — это не просто новая модель от Сбера, это шаг в будущее, который подчеркивает, как быстро развиваются технологии распознавания речи и какие горизонты они открывают для пользователей. Неудивительно, что такие разработки становятся все более актуальными в нашем стремительно меняющемся мире.

Сбер презентовал GigaChat Audio: революция в распознавании звука ver 0
Сбер презентовал GigaChat Audio: революция в распознавании звука ver 0
Ширина: 1280 px
Высота: 910 px
Соотношение сторон.: 128:91

Скачать
Сбер презентовал GigaChat Audio: революция в распознавании звука ver 1
Сбер презентовал GigaChat Audio: революция в распознавании звука ver 1
Ширина: 1280 px
Высота: 343 px
Соотношение сторон.: 1280:343

Скачать
Сбер презентовал GigaChat Audio: революция в распознавании звука ver 2
Сбер презентовал GigaChat Audio: революция в распознавании звука ver 2
Ширина: 1280 px
Высота: 1071 px
Соотношение сторон.: 1280:1071

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Михаил
Qwen3 модели удивляют! Теперь они поддерживают 119 языков и диалектов, открывая перед пользователями практически весь мир коммуникации. Это не просто цифра — это реальная возможность общаться, работать и понимать людей из разных культур. Отличный инструмент для бизнеса, путешествий или изучения языков. Все это под рукой! Так что, е... Читать далее
Анна
Если вы хотите оставаться на передовой разработки и быть в курсе всех новинок в мире программирования, подписывайтесь на наши обновления. Мы предлагаем вам лучшие каналы и ресурсы, такие как Telegram, где экспертные мнения и актуальные темы встречаются на каждом шагу. Получайте свежие идеи, обучающие материалы и аналитику, чтобы не... Читать далее
Максим
Премия CDO/CDTO Awards 2025 в Москве – это не просто событие, а настоящая магия цифр и данных! Лучшие умы в сфере Data Science собрались, чтобы отпраздновать достижения, которые помогут диву дать даже самим скептикам. Мероприятие стало ареной для обмена идеями и вдохновения, а столица России вновь подтвердила, что здесь рождаются н... Читать далее
Анна
Первый день конференции ICLR 2025 стал настоящим прорывом в области искусственного интеллекта. Делегация Яндекса с интересом следила за представленными исследованиями и инновациями. Среди ключевых достижений – улучшение алгоритмов обучения, новые подходы к обработке естественного языка и значительные шаги в области этики AI. Конфер... Читать далее
Михаил
Muon — это новый оптимизатор, который становится настоящим спасением для гроккинга. Сложные научные концепции, представленные Амундом Твеитом и его командой, обещают ускорить обучение моделей до неузнаваемости. Гроккинг — это не просто очередное модное слово, это прорыв, который поднимет машинное обучение на новый уровень. Если вы... Читать далее
Анна
На международной конференции ICLR 2025 были представлены работы, которые выделяются своим вкладом в область глубокого обучения. Эти исследования не только демонстрируют передовые идеи, но и открывают новые горизонты для применения нейронных сетей. Обладатели премии за выдающиеся статьи исследуют актуальные проблемы и предлагают инн... Читать далее
Елена
Эффективность подхода Coconut в решении математических и логических задач — это как найти золотую рыбку в океане неопределенности! Представьте себе: вместо того, чтобы биться головой об стену, вы бросаете кокос и ждете, пока он вернется с правильным ответом. Этот способ позволяет моделям не только быстро генерировать решения, но и... Читать далее