Гибридные модели Nemotron-H от NVIDIA: революция в AI!

Немного о гибридных моделях Nemotron-H от NVIDIA

Давайте разберемся с новейшим творением NVIDIA — гибридными моделями языка Nemotron-H. Эти малышки делают то, что раньше было трудно себе представить: они объединяют в себе архитектуры Mamba и Transformer. Поверите или нет, но эти модели обещают до трехкратного ускорения инференса по сравнению с обычными Transformer'ами того же размера, как, например, Qwen или Llama. Это уже звучит как настоящая революция в мире языкового моделирования!

Многоязычная поддержка — круто!

И вот вам интересный факт: Nemotron-H поддерживает множество языков, включая английский, немецкий, испанский, французский, итальянский, корейский, португальский, русский, японский и китайский. Это сделано не просто так — в мире, где языков множество, такая поддержка открывает огромные возможности для пользователей по всему миру.

Эффективность и интеллект — найдены идеальный баланс

Однако основное внимание разработчиков сосредоточено на балансе между эффективностью и интеллектом. При меньшем количестве параметров (47–56 миллиардов) эти модели показывают точность, приближенную к DeepSeek-V3-671B. Звучит многообещающе, не правда ли? Это значит, что вы получаете мощную модель без слишком большого замедления.

Что нового в технологии?

Теперь давайте поговорим о том, что делает Nemotron-H уникальными. Они используют FP8 для претрейна, и 56B-версия обучалась на огромном массиве данных — целых 20 триллионов токенов! И вот тут начинается настоящая магия: сжатую в FP4 модель с 47B можно запускать на обычной RTX 5090 с поддержкой контекста до 1 миллиона токенов. Однако за этот успех разработчикам пришлось пожертвовать частью слоев самовнимания, заменив их на более легкие Mamba-блоки — это позволило ускорить генерацию, и, на мой взгляд, это оправданный компромисс.

Дистилляция вместо с нуля

V NVIDIA были мудрыми и решили не обучать компактные версии с нуля, а использовать дистилляцию. То есть, 47B-модель была получена из 56B, путем удаления половины "тяжелых" слоев и дообучения на 63 миллиардах токенов. Результат? Почти такая же точность, но на 1.2 раза быстрее. Это же прямо мечта, а не технология!

Бенчмарки на высоте

Что касается тестирования, то здесь Nemotron-H демонстрирует выдающиеся результаты в задачах на математику и программирование. Например, на GSM8k 56B-версия показывает 93.7% успеха против 90.9% у Qwen-72B. Даже 8B-модель, хоть и немного уступает в MMLU, творит чудеса в HumanEval+ с результатом 56.1%. Явно видно, что ее оптимизация для инструкций сработала на 100%.

Доступность и дальнейшие перспективы

На данный момент модели доступны на Hugging Face как базовые, но NVIDIA не останавливается и обещает выпустить инструктивные и мультимодальные версии. Надеюсь, это действительно произойдет, потому что такие модели могут стать настоящим прорывом в области AI.

В открытый доступ уже выпустили чекпоинты с контекстом 8 тыс. токенов:

Nemotron-H-56B-Base-8K
Nemotron-H-47B-Base-8K
Nemotron-H-8B-Base-8K

При этом лицензирование происходит по модели NVIDIA Internal Scientific Research and Development Model License.

А если у вас возникло желание погрузиться глубже в тему, вы можете ознакомиться со страницей проекта, коллекцией на Hugging Face и материалами на Arxiv.

Таким образом, Nemotron-H от NVIDIA, безусловно, глоток свежего воздуха в мире AI, и я с нетерпением жду, как эта технология будет развиваться дальше!