Открытые модели T-Lite и T-Pro: все о данных и экспериментах

Открытые модели T-Lite и T-Pro: от подготовки данных до финальных экспериментов

Когда речь заходит об открытом доступе к языковым моделям, становится очевидным, что выбор на самом деле невелик. Многие крупные компании, словно хищные птицы, охраняют свои модели с мрачными лицензионными ограничениями или представляют лишь бледные копии своих шедевров. Но вот здесь на сцену выходят T-Lite и T-Pro от Т-Банка – настоящие драгоценности для русскоязычного опенсорс-сообщества. Эти модели с 7 и 32 миллиардами параметров соответственно стали доступными в конце 2024 года, и можно сказать, что это настоящая находка!

В T-Банке решились на смелый шаг, используя гибридный подход Continual Pretraining. Если простыми словами, они взяли мощную открытую модель Qwen2.5 за основу и не стали мучить её с нуля, а вместо этого добавили слой адаптации. Это позволило не только сократить время на обучение, но и значительно снизить затраты! Век живи, век учись – особенно, когда есть возможность учиться у лучших!

Обучение LLM, как настоящий процесс, можно разбить на шесть вкусных этапов: выбор идеальной базовой модели, опциональный шаг по расширению токенизатора, два этапа continual pretraining (на первом добавляем общие данные, на втором – инстуктивные), и завершаем всё на SFT (Supervised Fine-Tuning) и DPO (Data-driven Policy Optimization). Фактически, это как кулинарный рецепт, где каждое действие влияет на конечный результат, и важно не перепутать последовательность ингредиентов!

Основная фишка заключается в дообучении мощных открытых моделей. Согласитесь, это как наложение лака на уже готовую работу: меньше ресурсов уходит, а результат при этом на высоте! Но как именно выбрать нужную модель? Как проходит этот волшебный процесс дообучения? И почему важность кодовых датасетов и их связь с рассуждениями просто нельзя недооценивать? Все подробности на эти вопросы разжеваны в статье от MLE о создании фундаментальных моделей.

Так что, кто сказал, что обучать языковые модели — это сложная задача? Просто вспомните полную версию увлекательного кулинарного шоу, где готовится не просто блюдо, а настоящая шедевральная LLM!

🟡 Ознакомьтесь с полной статьёй

@ai_machinelearning_big_data

#AI #ML #LLM

Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 0
Ширина: 1280 px
Высота: 422 px
Соотношение сторон.: 640:211

Скачать

Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 1
Ширина: 800 px
Высота: 446 px
Соотношение сторон.: 400:223

Скачать

Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 2
Ширина: 638 px
Высота: 453 px
Соотношение сторон.: 638:453

Скачать

Теги.: T-Lite T-Pro языковые модели Continual Pretraining опенсорс

61 2 месяца назад

Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!

Максим

Предыдущая статья

Архитектура Gemma 3: визуальный обзор и интересные детали

Следующая статья

Два года прогресса в мире диффузионок: ключевые события и новшества

Вам также может понравиться

Большие языковые модели: будущее бизнеса уже настало

07 Jun

Анна

Большие языковые модели: будущее бизнеса уже настало

Машины учатся языку биологии: следующий уровень анализа клеток

03 Jun

Михаил

Машины учатся языку биологии: следующий уровень анализа клеток

Гибридные модели Nemotron-H от NVIDIA: новый уровень AI

06 Jun

Михаил

Гибридные модели Nemotron-H от NVIDIA: новый уровень AI

NVIDIA открывает PhysX: новая эра для игр и разработчиков!

06 Jun

Елена

NVIDIA открывает PhysX: новая эра для игр и разработчиков!

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM

06 Jun

Михаил

DeepSeek-GRM: Прорыв в моделировании вознаграждений для LLM

ECLECTIC: Как Google тестирует LLM на межъязыковом переносе знаний

06 Jun

Максим

ECLECTIC: Как Google тестирует LLM на межъязыковом переносе знаний

Курс по большим языковым моделям: изучаем вместе!

06 Jun

Анна

Курс по большим языковым моделям: изучаем вместе!

Как исследование Anthropic раскрывает мысли ИИ моделей

06 Jun

Михаил

Как исследование Anthropic раскрывает мысли ИИ моделей

Factorio: новый бенчмарк для искусственного интеллекта

06 Jun

Михаил

Factorio: новый бенчмарк для искусственного интеллекта

Мультиязычность модели: 140 языков в обучении!

07 Jun

Анна

Мультиязычность модели — настоящий прорыв в коммуникациях! Наша новая версия поддерживает 140 языков, что открывает безграничные возможности для пользователей по всему миру. Это значит, что вы можете общаться с людьми, несмотря на языковые барьеры, расширяя горизонты взаимодействия и сотрудничества. Возможность общения на различных... Читать далее

AMD Instella: Прорывная Опенсорсная Модель с 3 млрд Параметров

06 Jun

Елена

AMD Instella: Прорывная Опенсорсная Модель с 3 млрд Параметров