🌟 Deep Cogito анонсировала новую серию языковых моделей с открытым исходным кодом

На фоне стремительного роста интереса к языковым моделям, компания Deep Cogito представила впечатляющее семейство моделей, разбросанных по мощности от 3B до 70B параметров. Это означает, что теперь у разработчиков и исследователей есть возможность использовать мощные инструменты для обработки языка, которые абсолютно бесплатны и доступны для загрузки.

Лидеры в бенчмарках

По утверждениям команды Deep Cogito, их модели не просто соперничают, а превосходят открытые решения, такие как LLaMA, DeepSeek и Qwen. Особенно примечателен тот факт, что 70B-версия модели обходит новую 109B MoE-модель Llama 4. Это свидетельствует о том, что размер не всегда является определяющим фактором в производительности языковых моделей — важны алгоритмы и процесс обучения.

Метод Iterated Distillation and Amplification (IDA)

Одна из ключевых особенностей этих моделей заключается в том, что они обучены с использованием метода Iterated Distillation and Amplification (IDA). Этот подход сочетает в себе итеративное саморазвитие и "сжатие" знаний, позволяя моделям эффективно преодолевать ограничения человеческого контроля.

Метод IDA основан на цикле, где модель сначала «усиливает» свои способности, предоставляя больше вычислительных ресурсов для поиска решений, а потом «дистиллирует» эти улучшения в свои параметры. Такой подход, по мнению разработчиков, не только масштабируем, но и более быстрый в сравнении с традиционными методами, такими как RLHF.

Режимы работы и оптимизация

Модели Deep Cogito предоставляют два режима работы: стандартный, который отвечает на запросы напрямую, и "рефлексивный" режим, в котором модель изначально обдумывает запрос. Это интересно — в "рефлексивном" режиме она функционирует аналогично тому, как это происходит в Claude 3.7. Разработчики подчеркивают, что модели оптимизированы для задач программирования и работы с агентами. Тем не менее, они делают акцент на эффективности коротких шагов, поскольку это может лучше соответствовать реальным задачам.

Будущее языковых моделей

Скоро ожидаются еще более мощные версии с 109B, 400B и 671B параметров, а также вариации с архитектурой MoE. Это создает захватывающие перспективы для будущего языковых технологий, и нельзя не отметить, что индустрия уже на пороге новых прорывов.

Доступность

Модели уже доступны на платформах, таких как Hugging Face, Ollama, и через API Fireworks AI/Together AI, что дает возможность большему числу разработчиков и исследователей использовать их в своих проектах.

В заключение, Deep Cogito делает еще один шаг вперед в области языковых моделей. Эти новшества открывают большие возможности для использования AI в самых различных сферах — от разработки программного обеспечения до создания контента. Я с нетерпением жду, чем порадуют нас разработчики в будущем!

Deep Cogito запускает открытые языковые модели 3B-70B ver 0
Deep Cogito запускает открытые языковые модели 3B-70B ver 0
Ширина: 1200 px
Высота: 648 px
Соотношение сторон.: 50:27

Скачать
Deep Cogito запускает открытые языковые модели 3B-70B ver 1
Deep Cogito запускает открытые языковые модели 3B-70B ver 1
Ширина: 1834 px
Высота: 962 px
Соотношение сторон.: 917:481

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться