Muon Optimizer: Ускорение Гроккинга — Что за Чёрт?!

Объёмная научная статья на arXiv, написанная такими персонажами как Амунд Твеит, Бьёрн Ремсет и Арве Скогвольд, поднимает невероятно интересную тему — гроккинг. Неужели мы снова на пороге величайшего прорыва в мире машинного обучения? Давайте разбираться!

Гроккинг: Упс, Снова Выучили!

Если вы ещё не в курсе, гроккинг — это своего рода парадокс в обучении моделей. Сначала мы получаем результаты на обучающей выборке, которые зашкаливают (почти под 100%), но валидационные метрики летают где-то около нуля. Но при продолжении обучения... БАХ! Как будто включили рубильник, и модель начинает выдавать не просто осмысленные предсказания, а настоящие шедевры. Статья определяет гроккинг как первую эпоху, когда валидируемая точность достигает 95%, после того как обучающая точность застревает у 100%. Полезно, правда? Всякие важные штуки кажутся менее значительными, когда дело касается такого эффекта.

Встречайте Muon — Ваш Новый Оптимизатор

В этой работе рассматривается переход от AdamW к новому оптимизатору под названием Muon (MomentUm Orthogonalized by Newton-Schulz). Этот свежий подход показал себя как способ разогнать гроккинг до невероятных скоростей. Для всех, кто не умеет пользоваться GitHub (почему вы вообще тут?), почитайте описание по ссылке выше. Muon прекрасно работает с 2D+ матрицами параметров. Однако не стоит забывать, что AdamW всё ещё хорош для векторов и скаляров, так что смешивать их в одну кучу не стоит.

Но, подождите, как же этот Муон работает? Он берет градиенты из стандартного SGD с Нестеровой инерцией (чем быстрее, тем лучше) и выполняет постпроцессинг с помощью итерации Ньютон-Шульца, что приводит к ортогонализации обновлений. Бионические термины, но этот подход действительно работает!

Первые Результаты: Muon Рулит

Что касается экспериментов, авторы использовали несколько датасетов, чтобы проверить, как Muon работает по сравнению с AdamW. Среди них данные для гроккинга и арифметика по модулю 97, на которых наблюдается наилучший эффект. И добротно включили разнообразные варианты софтмакса — от классического до Stablemax и Sparsemax.

И вот здесь начинается самое интересное: результаты показали, что Muon не только быстрее приводит к гроккингу (примерно на 100-й эпохе вместо 150-й!), но и делает это более стабильно. Ура, хоть какой-то прогресс! Кроме того, авторы отметили, что применение Муона ограничивает спектральные нормы и способствует поиску настоящих паттернов вместо тупого запоминания. Это должно вам нравиться — меньше тривиальности, больше интеллекта.

Что Дальше?

Но подождите, у нас ещё не всё. Авторы подметили, что нужно больше исследований на более крупных моделях и в разных задачах, чтобы действительно оценить все преимущества Муона. Лично я же надеюсь, что это не всё, и мы увидим, как этот оптимизатор будет усовершенствован в будущем.

В итоге, если хотите разогнать свой гроккинг, Muon — это то, что вам нужно! Загляните в эти очаровательные научные работы, пока не поздно!



Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Анна
На международной конференции ICLR 2025 были представлены работы, которые выделяются своим вкладом в область глубокого обучения. Эти исследования не только демонстрируют передовые идеи, но и открывают новые горизонты для применения нейронных сетей. Обладатели премии за выдающиеся статьи исследуют актуальные проблемы и предлагают инн... Читать далее