🌟 Deep Cogito анонсировала новую серию языковых моделей с открытым исходным кодом
На фоне стремительного роста интереса к языковым моделям, компания Deep Cogito представила впечатляющее семейство моделей, разбросанных по мощности от 3B до 70B параметров. Это означает, что теперь у разработчиков и исследователей есть возможность использовать мощные инструменты для обработки языка, которые абсолютно бесплатны и доступны для загрузки.
Лидеры в бенчмарках
По утверждениям команды Deep Cogito, их модели не просто соперничают, а превосходят открытые решения, такие как LLaMA, DeepSeek и Qwen. Особенно примечателен тот факт, что 70B-версия модели обходит новую 109B MoE-модель Llama 4. Это свидетельствует о том, что размер не всегда является определяющим фактором в производительности языковых моделей — важны алгоритмы и процесс обучения.
Метод Iterated Distillation and Amplification (IDA)
Одна из ключевых особенностей этих моделей заключается в том, что они обучены с использованием метода Iterated Distillation and Amplification (IDA). Этот подход сочетает в себе итеративное саморазвитие и "сжатие" знаний, позволяя моделям эффективно преодолевать ограничения человеческого контроля.
Метод IDA основан на цикле, где модель сначала «усиливает» свои способности, предоставляя больше вычислительных ресурсов для поиска решений, а потом «дистиллирует» эти улучшения в свои параметры. Такой подход, по мнению разработчиков, не только масштабируем, но и более быстрый в сравнении с традиционными методами, такими как RLHF.
Режимы работы и оптимизация
Модели Deep Cogito предоставляют два режима работы: стандартный, который отвечает на запросы напрямую, и "рефлексивный" режим, в котором модель изначально обдумывает запрос. Это интересно — в "рефлексивном" режиме она функционирует аналогично тому, как это происходит в Claude 3.7. Разработчики подчеркивают, что модели оптимизированы для задач программирования и работы с агентами. Тем не менее, они делают акцент на эффективности коротких шагов, поскольку это может лучше соответствовать реальным задачам.
Будущее языковых моделей
Скоро ожидаются еще более мощные версии с 109B, 400B и 671B параметров, а также вариации с архитектурой MoE. Это создает захватывающие перспективы для будущего языковых технологий, и нельзя не отметить, что индустрия уже на пороге новых прорывов.
Доступность
Модели уже доступны на платформах, таких как Hugging Face, Ollama, и через API Fireworks AI/Together AI, что дает возможность большему числу разработчиков и исследователей использовать их в своих проектах.
В заключение, Deep Cogito делает еще один шаг вперед в области языковых моделей. Эти новшества открывают большие возможности для использования AI в самых различных сферах — от разработки программного обеспечения до создания контента. Я с нетерпением жду, чем порадуют нас разработчики в будущем!

Deep Cogito запускает открытые языковые модели 3B-70B ver 0
Ширина: 1200 px
Высота: 648 px
Соотношение сторон.: 50:27
Скачать

Deep Cogito запускает открытые языковые модели 3B-70B ver 1
Ширина: 1834 px
Высота: 962 px
Соотношение сторон.: 917:481
Скачать