Мозговые штурмы: За кулисами тестирования нового подхода

В мире машинного обучения и нейронных сетей есть много увлекательных вещей, но когда дело доходит до обучения моделей, иногда заглядываешь в такие глубины, что кажется, будто летаешь в пространстве! Как говорится, "научиться чему-то новому — это как оседлать дракона". Так что, давайте разберёмся, как исследователи пробуют новый подход на трех интересных датасетах!

Раздели и властвуй!

В поле боевых испытаний у нас есть три отважных картины: математический (GSM8k) и логический риск-ридинг (ProntoQA и новейший ProsQA). И тут на арене появляется наш герой — предобученная модель GPT-2 с «латентными мыслями», которые нагло пускаются в путешествие по страницам данных.

  • Для математики: два латентных шага на каждое действие, три этапа в процессе обучения… будто готовят к выпускному экзамену по математике!
  • Для логики: одна латентная мысль на шаг и шесть этапов. Тут всё звучит как идеальная структура для ума! Шесть эпох на каждом этапе даруют модели возможность разгуляться.

Сравнительные бенчмарки — кто на пьедестале?

Исследователи готовят свои модели к соревнованию и выбирают несколько бейзлайнов:

  1. Обычный CoT с финтюнингом на примерах — классика жанра!
  2. No-CoT, где модель получает возможность сразу выдавать ответ, избавляясь от лишнего «второго букета» размышлений. Логично, не так ли?
  3. iCoT — implicit CoT, который начинает черпать мудрость из промежуточных шагов и делает это через последовательный финтюнинг. Умно до нельзя!
  4. Pause token — специальный токен между вопросами и ответами, который вроде как позволяет модели «вздохнуть» перед выдачей ответа. Возможно, это шанс на рефлексию!

Непревзойденный Coconut в трёх режимах

Наш любимый Coconut в этом контексте тоже играет на три карты:

  1. Без curriculum — как тестовый заяц, метит сразу на финиш, не дожидаясь экстра подсказок.
  2. Без мыслей — с многогранной обучающей процедурой, которая постепенно убирает языковые размышления, оставляя лишь основные факты. Это как выстраивание логического ряда без “лишнего шлака”.
  3. Pause as thought — когда постоянные мысли заменяются на временные токены-паузы, не теряя при этом многоступенчатую структуру.

Идём к результатам, друзья!

Coconut демонстрирует свои куда более устойчивые результаты по сравнению с LLM, когда речь идет о задачах логики. На GSM8k обычный CoT всё же пока что впереди, но Coconut показывает, что с увеличением «латентного мышления» качество работы только возрастает. Хотя, к сожалению, после трех латентных мыслей наблюдаются не самые удачные результаты. Может, проблема в перегреве?

Но это ещё не всё. Так как токенов у Coconut заметно меньше, он становится как раз-таки оптимальным выбором!

Coconut в режиме pause as thought тоже выдает неплохие результаты, но на текущий момент — мы вдруг понимаем, что классический Coconut лучше. На датасете ProsQA, где предсказание следующего шага не очень хорошо подходит под нужды, классический CoT не выдает никаких прорывных результатов, но Coconut, тем не менее, либо iCoT существенно повышает эффективность!

Окно в мозг модели 🔍

Разработчики не ограничиваются простыми тестами на точность и ищут пути, как сделать свои модели еще умнее! В каждом эксперименте на ProsQA команда меняла количество латентных мыслей и никак не могла упустить его интригующее влияние на время инференса.

Они даже углубились в «латентный риск-ридинг», проверяя работу модели с различным числом латентных шагов. И кстати, как вам идея сортировки результатов по качеству ответа? Теперь у нас есть не просто правильный ответ, но и целых шесть типов: от кратчайшего пути



Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Qwen3 модели удивляют! Теперь они поддерживают 119 языков и диалектов, открывая перед пользователями практически весь мир коммуникации. Это не просто цифра — это реальная возможность общаться, работать и понимать людей из разных культур. Отличный инструмент для бизнеса, путешествий или изучения языков. Все это под рукой! Так что, е... Читать далее
Оптимизация успеха в стохастических системах — это ключ к выживанию в мире неопределенности. Когда каждый эксперимент может стать как удачей, так и фиаско, нужна стратегическая грамотность. Это практическое руководство позволит вам уменьшить риски и повысить вероятность успеха. Узнайте, как грамотно анализировать данные, принимать... Читать далее
Анна
Если вы хотите оставаться на передовой разработки и быть в курсе всех новинок в мире программирования, подписывайтесь на наши обновления. Мы предлагаем вам лучшие каналы и ресурсы, такие как Telegram, где экспертные мнения и актуальные темы встречаются на каждом шагу. Получайте свежие идеи, обучающие материалы и аналитику, чтобы не... Читать далее
Премия CDO/CDTO Awards 2025 в Москве – это не просто событие, а настоящая магия цифр и данных! Лучшие умы в сфере Data Science собрались, чтобы отпраздновать достижения, которые помогут диву дать даже самим скептикам. Мероприятие стало ареной для обмена идеями и вдохновения, а столица России вновь подтвердила, что здесь рождаются н... Читать далее
Анна
Первый день конференции ICLR 2025 стал настоящим прорывом в области искусственного интеллекта. Делегация Яндекса с интересом следила за представленными исследованиями и инновациями. Среди ключевых достижений – улучшение алгоритмов обучения, новые подходы к обработке естественного языка и значительные шаги в области этики AI. Конфер... Читать далее
Muon — это новый оптимизатор, который становится настоящим спасением для гроккинга. Сложные научные концепции, представленные Амундом Твеитом и его командой, обещают ускорить обучение моделей до неузнаваемости. Гроккинг — это не просто очередное модное слово, это прорыв, который поднимет машинное обучение на новый уровень. Если вы... Читать далее
Анна
На международной конференции ICLR 2025 были представлены работы, которые выделяются своим вкладом в область глубокого обучения. Эти исследования не только демонстрируют передовые идеи, но и открывают новые горизонты для применения нейронных сетей. Обладатели премии за выдающиеся статьи исследуют актуальные проблемы и предлагают инн... Читать далее