Немного о гибридных моделях Nemotron-H от NVIDIA
Давайте разберемся с новейшим творением NVIDIA — гибридными моделями языка Nemotron-H. Эти малышки делают то, что раньше было трудно себе представить: они объединяют в себе архитектуры Mamba и Transformer. Поверите или нет, но эти модели обещают до трехкратного ускорения инференса по сравнению с обычными Transformer'ами того же размера, как, например, Qwen или Llama. Это уже звучит как настоящая революция в мире языкового моделирования!
Многоязычная поддержка — круто!
И вот вам интересный факт: Nemotron-H поддерживает множество языков, включая английский, немецкий, испанский, французский, итальянский, корейский, португальский, русский, японский и китайский. Это сделано не просто так — в мире, где языков множество, такая поддержка открывает огромные возможности для пользователей по всему миру.
Эффективность и интеллект — найдены идеальный баланс
Однако основное внимание разработчиков сосредоточено на балансе между эффективностью и интеллектом. При меньшем количестве параметров (47–56 миллиардов) эти модели показывают точность, приближенную к DeepSeek-V3-671B. Звучит многообещающе, не правда ли? Это значит, что вы получаете мощную модель без слишком большого замедления.
Что нового в технологии?
Теперь давайте поговорим о том, что делает Nemotron-H уникальными. Они используют FP8 для претрейна, и 56B-версия обучалась на огромном массиве данных — целых 20 триллионов токенов! И вот тут начинается настоящая магия: сжатую в FP4 модель с 47B можно запускать на обычной RTX 5090 с поддержкой контекста до 1 миллиона токенов. Однако за этот успех разработчикам пришлось пожертвовать частью слоев самовнимания, заменив их на более легкие Mamba-блоки — это позволило ускорить генерацию, и, на мой взгляд, это оправданный компромисс.
Дистилляция вместо с нуля
V NVIDIA были мудрыми и решили не обучать компактные версии с нуля, а использовать дистилляцию. То есть, 47B-модель была получена из 56B, путем удаления половины "тяжелых" слоев и дообучения на 63 миллиардах токенов. Результат? Почти такая же точность, но на 1.2 раза быстрее. Это же прямо мечта, а не технология!
Бенчмарки на высоте
Что касается тестирования, то здесь Nemotron-H демонстрирует выдающиеся результаты в задачах на математику и программирование. Например, на GSM8k 56B-версия показывает 93.7% успеха против 90.9% у Qwen-72B. Даже 8B-модель, хоть и немного уступает в MMLU, творит чудеса в HumanEval+ с результатом 56.1%. Явно видно, что ее оптимизация для инструкций сработала на 100%.
Доступность и дальнейшие перспективы
На данный момент модели доступны на Hugging Face как базовые, но NVIDIA не останавливается и обещает выпустить инструктивные и мультимодальные версии. Надеюсь, это действительно произойдет, потому что такие модели могут стать настоящим прорывом в области AI.
В открытый доступ уже выпустили чекпоинты с контекстом 8 тыс. токенов:
- Nemotron-H-56B-Base-8K
- Nemotron-H-47B-Base-8K
- Nemotron-H-8B-Base-8K
При этом лицензирование происходит по модели NVIDIA Internal Scientific Research and Development Model License.
А если у вас возникло желание погрузиться глубже в тему, вы можете ознакомиться со страницей проекта, коллекцией на Hugging Face и материалами на Arxiv.
Таким образом, Nemotron-H от NVIDIA, безусловно, глоток свежего воздуха в мире AI, и я с нетерпением жду, как эта технология будет развиваться дальше!

Гибридные модели Nemotron-H от NVIDIA: новый уровень AI ver 0
Ширина: 1200 px
Высота: 648 px
Соотношение сторон.: 50:27
Скачать

Гибридные модели Nemotron-H от NVIDIA: новый уровень AI ver 1
Ширина: 1226 px
Высота: 667 px
Соотношение сторон.: 1226:667
Скачать

Гибридные модели Nemotron-H от NVIDIA: новый уровень AI ver 2
Ширина: 1277 px
Высота: 837 px
Соотношение сторон.: 1277:837
Скачать