🌟 AMD Instella: открытая языковая модель с амбициями!

Привет, ребята! Сегодня у меня для вас не просто очередная новость из мира технологий. Это настоящий взрыв мозга! AMD представила Instella – взрывную, полностью опенсорсную языковую модель, в которой спрятаны 3 миллиарда параметров, обученных на мощнейшей (да-да, именно мощнейшей!) графике AMD Instinct MI300X. И вы даже не представляете, как она крутится, когда дело доходит до производительности!

Почему Instella – это круто?

Слушайте, Instella не просто очередной пони, который пытается пробежать в круге. Она реально переворачивает старые представления о языковых моделях! У неё не только шикарные 3 миллиарда параметров, но и производительность, способная соперничать с такими тяжеловесами, как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B. Вы понимаете, о чем я? Эта модель не просто идет в ногу со временем – она возглавляет этот модный парад!

Как же все это было сделано?

Создание Instella – это как приготовление идеального торта: нужно правильно подобрать ингредиенты и знать, в какой последовательности их смешивать. Этим тортом стал опыт AMD с OLMo, который продемонстрировал, что обучение LLM на оборудовании AMD – это не просто мечта, это реальность!

Для стартового этапа обучения использовались невероятные 4,15 трлн. токенов, на чем мы и распекли эту красоту. Очень крутые методы, такие как FlashAttention-2, Torch Compile и FSDP с гибридным шардированием, добавили к этому всему изюминку на выходе.

Итак, весь процесс делится на четыре этапа:

  1. Первый этап – это основа. Мы взяли 4 трлн. токенов из OLMoE-mix-0924, включая все: от кода до общих знаний. Кто знал, что даже математика может быть интересной!

  2. Второй этап – тут мы собрали 57 миллиардов токенов из шикарного меню Dolmino-Mix-1124 и SmolLM-Corpus (чувствуете, как во рту вкусно?!).

  3. Третий этап тягал за собой SFT с 8,9 миллиарда токенов пар "инструкция-ответ". Это сейчас просто заменит привычный Google на постоянной основе!

  4. Наконец, на четвертом этапе у нас была DPO модель с 0,76 миллиарда токенов, что делает Instella настоящей «умницей» и позволяет ей более чутко следовать предпочтениям пользователей.

Харизма и возможности

Instella не только техникой, она наделена настоящей харизмой! С 36 слоями и 32 heads на каждом слое, модель поддерживает длину последовательности до 4096 токенов. Круто, верно? Кто бы мог подумать, что вся эта мощь будет доступна в опенсорсе.

По итогам, финальная версия Instella-3B превышает существующие открытые модели в среднем на 8,08%! Если это не повод порадоваться, то я не знаю, что еще и порадовало бы меня!

Что в коробке?

А теперь давайте взглянем, что же входит в чудесный пакет под названием релиз Instella:

  • 🟢 Instella-3B-Stage1 – первая стадия, после претрейна.
  • 🟢 Instella-3B – вторая стадия, чекпоинт после второго этапа.
  • 🟢 Instella-3B-SFT – здесь у нас уже работа после SFT!
  • 🟢 Instella-3B-Instruct – финальная версия после DPO.
  • 🟠 Instella-GSM8K-synthetic – сырье, использованное на втором этапе.
  • 🟠 Код для трейна и инференса (всегда полезно, не правда ли?).

Лицензия и источники

Поддержите open-source движ, дамы и господа! Под лицензией ResearchRAIL License

AMD Instella: Прорывная Опенсорсная Модель с 3 млрд Параметров ver 0
AMD Instella: Прорывная Опенсорсная Модель с 3 млрд Параметров ver 0
Ширина: 1205 px
Высота: 964 px
Соотношение сторон.: 5:4

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

V-JEPA – это настоящий прорыв в мире видеомоделей! Представьте себе, что ваш компьютер стал бы проявлять видеопонимание на уровне человеческого восприятия. Этот магический инструмент не просто анализирует видео, а предсказывает события, словно гадалка с хрустальным шаром, только без фартука и с почти нулевой погрешностью! Он изучае... Читать далее