Открытые модели T-Lite и T-Pro: от подготовки данных до финальных экспериментов

Когда речь заходит об открытом доступе к языковым моделям, становится очевидным, что выбор на самом деле невелик. Многие крупные компании, словно хищные птицы, охраняют свои модели с мрачными лицензионными ограничениями или представляют лишь бледные копии своих шедевров. Но вот здесь на сцену выходят T-Lite и T-Pro от Т-Банка – настоящие драгоценности для русскоязычного опенсорс-сообщества. Эти модели с 7 и 32 миллиардами параметров соответственно стали доступными в конце 2024 года, и можно сказать, что это настоящая находка!

В T-Банке решились на смелый шаг, используя гибридный подход Continual Pretraining. Если простыми словами, они взяли мощную открытую модель Qwen2.5 за основу и не стали мучить её с нуля, а вместо этого добавили слой адаптации. Это позволило не только сократить время на обучение, но и значительно снизить затраты! Век живи, век учись – особенно, когда есть возможность учиться у лучших!

Обучение LLM, как настоящий процесс, можно разбить на шесть вкусных этапов: выбор идеальной базовой модели, опциональный шаг по расширению токенизатора, два этапа continual pretraining (на первом добавляем общие данные, на втором – инстуктивные), и завершаем всё на SFT (Supervised Fine-Tuning) и DPO (Data-driven Policy Optimization). Фактически, это как кулинарный рецепт, где каждое действие влияет на конечный результат, и важно не перепутать последовательность ингредиентов!

Основная фишка заключается в дообучении мощных открытых моделей. Согласитесь, это как наложение лака на уже готовую работу: меньше ресурсов уходит, а результат при этом на высоте! Но как именно выбрать нужную модель? Как проходит этот волшебный процесс дообучения? И почему важность кодовых датасетов и их связь с рассуждениями просто нельзя недооценивать? Все подробности на эти вопросы разжеваны в статье от MLE о создании фундаментальных моделей.

Так что, кто сказал, что обучать языковые модели — это сложная задача? Просто вспомните полную версию увлекательного кулинарного шоу, где готовится не просто блюдо, а настоящая шедевральная LLM!

🟡 Ознакомьтесь с полной статьёй

@ai_machinelearning_big_data

#AI #ML #LLM

Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 0
Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 0
Ширина: 1280 px
Высота: 422 px
Соотношение сторон.: 640:211

Скачать
Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 1
Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 1
Ширина: 800 px
Высота: 446 px
Соотношение сторон.: 400:223

Скачать
Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 2
Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 2
Ширина: 638 px
Высота: 453 px
Соотношение сторон.: 638:453

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Анна
Мультиязычность модели — настоящий прорыв в коммуникациях! Наша новая версия поддерживает 140 языков, что открывает безграничные возможности для пользователей по всему миру. Это значит, что вы можете общаться с людьми, несмотря на языковые барьеры, расширяя горизонты взаимодействия и сотрудничества. Возможность общения на различных... Читать далее