Открытые модели T-Lite и T-Pro: от подготовки данных до финальных экспериментов
Когда речь заходит об открытом доступе к языковым моделям, становится очевидным, что выбор на самом деле невелик. Многие крупные компании, словно хищные птицы, охраняют свои модели с мрачными лицензионными ограничениями или представляют лишь бледные копии своих шедевров. Но вот здесь на сцену выходят T-Lite и T-Pro от Т-Банка – настоящие драгоценности для русскоязычного опенсорс-сообщества. Эти модели с 7 и 32 миллиардами параметров соответственно стали доступными в конце 2024 года, и можно сказать, что это настоящая находка!
В T-Банке решились на смелый шаг, используя гибридный подход Continual Pretraining. Если простыми словами, они взяли мощную открытую модель Qwen2.5 за основу и не стали мучить её с нуля, а вместо этого добавили слой адаптации. Это позволило не только сократить время на обучение, но и значительно снизить затраты! Век живи, век учись – особенно, когда есть возможность учиться у лучших!
Обучение LLM, как настоящий процесс, можно разбить на шесть вкусных этапов: выбор идеальной базовой модели, опциональный шаг по расширению токенизатора, два этапа continual pretraining (на первом добавляем общие данные, на втором – инстуктивные), и завершаем всё на SFT (Supervised Fine-Tuning) и DPO (Data-driven Policy Optimization). Фактически, это как кулинарный рецепт, где каждое действие влияет на конечный результат, и важно не перепутать последовательность ингредиентов!
Основная фишка заключается в дообучении мощных открытых моделей. Согласитесь, это как наложение лака на уже готовую работу: меньше ресурсов уходит, а результат при этом на высоте! Но как именно выбрать нужную модель? Как проходит этот волшебный процесс дообучения? И почему важность кодовых датасетов и их связь с рассуждениями просто нельзя недооценивать? Все подробности на эти вопросы разжеваны в статье от MLE о создании фундаментальных моделей.
Так что, кто сказал, что обучать языковые модели — это сложная задача? Просто вспомните полную версию увлекательного кулинарного шоу, где готовится не просто блюдо, а настоящая шедевральная LLM!
🟡 Ознакомьтесь с полной статьёй
@ai_machinelearning_big_data
#AI #ML #LLM

Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 0
Ширина: 1280 px
Высота: 422 px
Соотношение сторон.: 640:211
Скачать

Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 1
Ширина: 800 px
Высота: 446 px
Соотношение сторон.: 400:223
Скачать

Опенсорс-модели T-Lite и T-Pro: от данных до экспериментов ver 2
Ширина: 638 px
Высота: 453 px
Соотношение сторон.: 638:453
Скачать
Вам также может понравиться





