🌟 AMD Instella: открытая языковая модель с амбициями!
Привет, ребята! Сегодня у меня для вас не просто очередная новость из мира технологий. Это настоящий взрыв мозга! AMD представила Instella – взрывную, полностью опенсорсную языковую модель, в которой спрятаны 3 миллиарда параметров, обученных на мощнейшей (да-да, именно мощнейшей!) графике AMD Instinct MI300X. И вы даже не представляете, как она крутится, когда дело доходит до производительности!
Почему Instella – это круто?
Слушайте, Instella не просто очередной пони, который пытается пробежать в круге. Она реально переворачивает старые представления о языковых моделях! У неё не только шикарные 3 миллиарда параметров, но и производительность, способная соперничать с такими тяжеловесами, как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B. Вы понимаете, о чем я? Эта модель не просто идет в ногу со временем – она возглавляет этот модный парад!
Как же все это было сделано?
Создание Instella – это как приготовление идеального торта: нужно правильно подобрать ингредиенты и знать, в какой последовательности их смешивать. Этим тортом стал опыт AMD с OLMo, который продемонстрировал, что обучение LLM на оборудовании AMD – это не просто мечта, это реальность!
Для стартового этапа обучения использовались невероятные 4,15 трлн. токенов, на чем мы и распекли эту красоту. Очень крутые методы, такие как FlashAttention-2, Torch Compile и FSDP с гибридным шардированием, добавили к этому всему изюминку на выходе.
Итак, весь процесс делится на четыре этапа:
Первый этап – это основа. Мы взяли 4 трлн. токенов из OLMoE-mix-0924, включая все: от кода до общих знаний. Кто знал, что даже математика может быть интересной!
Второй этап – тут мы собрали 57 миллиардов токенов из шикарного меню Dolmino-Mix-1124 и SmolLM-Corpus (чувствуете, как во рту вкусно?!).
Третий этап тягал за собой SFT с 8,9 миллиарда токенов пар "инструкция-ответ". Это сейчас просто заменит привычный Google на постоянной основе!
Наконец, на четвертом этапе у нас была DPO модель с 0,76 миллиарда токенов, что делает Instella настоящей «умницей» и позволяет ей более чутко следовать предпочтениям пользователей.
Харизма и возможности
Instella не только техникой, она наделена настоящей харизмой! С 36 слоями и 32 heads на каждом слое, модель поддерживает длину последовательности до 4096 токенов. Круто, верно? Кто бы мог подумать, что вся эта мощь будет доступна в опенсорсе.
По итогам, финальная версия Instella-3B превышает существующие открытые модели в среднем на 8,08%! Если это не повод порадоваться, то я не знаю, что еще и порадовало бы меня!
Что в коробке?
А теперь давайте взглянем, что же входит в чудесный пакет под названием релиз Instella:
- 🟢 Instella-3B-Stage1 – первая стадия, после претрейна.
- 🟢 Instella-3B – вторая стадия, чекпоинт после второго этапа.
- 🟢 Instella-3B-SFT – здесь у нас уже работа после SFT!
- 🟢 Instella-3B-Instruct – финальная версия после DPO.
- 🟠 Instella-GSM8K-synthetic – сырье, использованное на втором этапе.
- 🟠 Код для трейна и инференса (всегда полезно, не правда ли?).
Лицензия и источники
Поддержите open-source движ, дамы и господа! Под лицензией ResearchRAIL License

AMD Instella: Прорывная Опенсорсная Модель с 3 млрд Параметров ver 0
Ширина: 1205 px
Высота: 964 px
Соотношение сторон.: 5:4
Скачать
Вам также может понравиться






















