AMD Instella: открытая языковая модель с 3 миллиардами параметров!

🌟 AMD Instella: открытая языковая модель с амбициями!

Привет, ребята! Сегодня у меня для вас не просто очередная новость из мира технологий. Это настоящий взрыв мозга! AMD представила Instella – взрывную, полностью опенсорсную языковую модель, в которой спрятаны 3 миллиарда параметров, обученных на мощнейшей (да-да, именно мощнейшей!) графике AMD Instinct MI300X. И вы даже не представляете, как она крутится, когда дело доходит до производительности!

Почему Instella – это круто?

Слушайте, Instella не просто очередной пони, который пытается пробежать в круге. Она реально переворачивает старые представления о языковых моделях! У неё не только шикарные 3 миллиарда параметров, но и производительность, способная соперничать с такими тяжеловесами, как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B. Вы понимаете, о чем я? Эта модель не просто идет в ногу со временем – она возглавляет этот модный парад!

Как же все это было сделано?

Создание Instella – это как приготовление идеального торта: нужно правильно подобрать ингредиенты и знать, в какой последовательности их смешивать. Этим тортом стал опыт AMD с OLMo, который продемонстрировал, что обучение LLM на оборудовании AMD – это не просто мечта, это реальность!

Для стартового этапа обучения использовались невероятные 4,15 трлн. токенов, на чем мы и распекли эту красоту. Очень крутые методы, такие как FlashAttention-2, Torch Compile и FSDP с гибридным шардированием, добавили к этому всему изюминку на выходе.

Итак, весь процесс делится на четыре этапа:

Первый этап – это основа. Мы взяли 4 трлн. токенов из OLMoE-mix-0924, включая все: от кода до общих знаний. Кто знал, что даже математика может быть интересной!
Второй этап – тут мы собрали 57 миллиардов токенов из шикарного меню Dolmino-Mix-1124 и SmolLM-Corpus (чувствуете, как во рту вкусно?!).
Третий этап тягал за собой SFT с 8,9 миллиарда токенов пар "инструкция-ответ". Это сейчас просто заменит привычный Google на постоянной основе!
Наконец, на четвертом этапе у нас была DPO модель с 0,76 миллиарда токенов, что делает Instella настоящей «умницей» и позволяет ей более чутко следовать предпочтениям пользователей.

Харизма и возможности

Instella не только техникой, она наделена настоящей харизмой! С 36 слоями и 32 heads на каждом слое, модель поддерживает длину последовательности до 4096 токенов. Круто, верно? Кто бы мог подумать, что вся эта мощь будет доступна в опенсорсе.

По итогам, финальная версия Instella-3B превышает существующие открытые модели в среднем на 8,08%! Если это не повод порадоваться, то я не знаю, что еще и порадовало бы меня!