Мозговые штурмы: За кулисами тестирования нового подхода
В мире машинного обучения и нейронных сетей есть много увлекательных вещей, но когда дело доходит до обучения моделей, иногда заглядываешь в такие глубины, что кажется, будто летаешь в пространстве! Как говорится, "научиться чему-то новому — это как оседлать дракона". Так что, давайте разберёмся, как исследователи пробуют новый подход на трех интересных датасетах!
Раздели и властвуй!
В поле боевых испытаний у нас есть три отважных картины: математический (GSM8k) и логический риск-ридинг (ProntoQA и новейший ProsQA). И тут на арене появляется наш герой — предобученная модель GPT-2 с «латентными мыслями», которые нагло пускаются в путешествие по страницам данных.
- Для математики: два латентных шага на каждое действие, три этапа в процессе обучения… будто готовят к выпускному экзамену по математике!
- Для логики: одна латентная мысль на шаг и шесть этапов. Тут всё звучит как идеальная структура для ума! Шесть эпох на каждом этапе даруют модели возможность разгуляться.
Сравнительные бенчмарки — кто на пьедестале?
Исследователи готовят свои модели к соревнованию и выбирают несколько бейзлайнов:
- Обычный CoT с финтюнингом на примерах — классика жанра!
- No-CoT, где модель получает возможность сразу выдавать ответ, избавляясь от лишнего «второго букета» размышлений. Логично, не так ли?
- iCoT — implicit CoT, который начинает черпать мудрость из промежуточных шагов и делает это через последовательный финтюнинг. Умно до нельзя!
- Pause token — специальный токен
между вопросами и ответами, который вроде как позволяет модели «вздохнуть» перед выдачей ответа. Возможно, это шанс на рефлексию!
Непревзойденный Coconut в трёх режимах
Наш любимый Coconut в этом контексте тоже играет на три карты:
- Без curriculum — как тестовый заяц, метит сразу на финиш, не дожидаясь экстра подсказок.
- Без мыслей — с многогранной обучающей процедурой, которая постепенно убирает языковые размышления, оставляя лишь основные факты. Это как выстраивание логического ряда без “лишнего шлака”.
- Pause as thought — когда постоянные мысли заменяются на временные токены-паузы, не теряя при этом многоступенчатую структуру.
Идём к результатам, друзья!
Coconut демонстрирует свои куда более устойчивые результаты по сравнению с LLM, когда речь идет о задачах логики. На GSM8k обычный CoT всё же пока что впереди, но Coconut показывает, что с увеличением «латентного мышления» качество работы только возрастает. Хотя, к сожалению, после трех латентных мыслей наблюдаются не самые удачные результаты. Может, проблема в перегреве?
Но это ещё не всё. Так как токенов у Coconut заметно меньше, он становится как раз-таки оптимальным выбором!
Coconut в режиме pause as thought тоже выдает неплохие результаты, но на текущий момент — мы вдруг понимаем, что классический Coconut лучше. На датасете ProsQA, где предсказание следующего шага не очень хорошо подходит под нужды, классический CoT не выдает никаких прорывных результатов, но Coconut, тем не менее, либо iCoT существенно повышает эффективность!
Окно в мозг модели 🔍
Разработчики не ограничиваются простыми тестами на точность и ищут пути, как сделать свои модели еще умнее! В каждом эксперименте на ProsQA команда меняла количество латентных мыслей и никак не могла упустить его интригующее влияние на время инференса.
Они даже углубились в «латентный риск-ридинг», проверяя работу модели с различным числом латентных шагов. И кстати, как вам идея сортировки результатов по качеству ответа? Теперь у нас есть не просто правильный ответ, но и целых шесть типов: от кратчайшего пути