Многоцелевое Внимание (Multi-Token Attention)

Представляю вам новую эру в архитектурах внимания, о которой идет речь в статье "Multi-Token Attention" авторов Ольги Головневой, Тянлу Вана, Джейсона Уэстона и Сайнбаяра Сухбаатара. Вы можете ознакомиться с полным текстом работы по ссылке. Это исследование вносит значительные изменения в понимание и использование механизма внимания, и я уверен, что его стоит подробно разобрать.

Переосмысленный Механизм Внимания

Как известное в сообществе, в классическом механизме внимания распределение весов происходит на основании одного вектора запросов (query) и одного вектора ключей (key). Такой подход, известный как "одиночное внимание" (single token attention), создает определённые ограничения в выделении значимых элементов на фоне остальных. Но вот появился новый метод — Многоцелевое Внимание (Multi-Token Attention, MTA) — который позволяет избавиться от этого узкого места, задавая веса внимания на основе нескольких векторов запросов и ключей одновременно.

Для лучшего понимания, давайте вспомним, как веса определяются в традиционном механизме. Важно отметить, что они вычисляются по формуле softmax(QK/sqrt(d)). Здесь каждый токен имеет свой эмбеддинг, который проецируется в три вектора: Q, K и V. Скалярное произведение векторов Q и K разных токенов показывает их "сходство" или "важность". После нормализации по корню от размерности эмбеддинга и применения софтмакса, мы получаем веса внимания A. Эти веса затем используются для взвешивания и суммирования векторов V, что позволяет генерировать новые эмбеддинги.

Разумеется, в данном механизме можно вносить множество модификаций. Мы уже рассматривали разные аспекты, такие как температура в софтмаксе, примеры разреженного внимания, а также другие специальные подходы, как например Reformer. Эта новая работа также входит в число таких модификаций.

Применение Многоцелевого Внимания

Теперь давайте представим, что мы хотим выделить определённые элементы в предложении, например, "Где Алиса увидела кролика?". При этом нам нужны векторы запросов q_a и q_r для Алисы и кролика соответственно. Традиционный механизм будет определять веса внимания, описанным ранее способом. Однако задача заключается в том, чтобы убедиться, что эти сущности находятся рядом Ближе всего в контексте. Стандартный механизм внимания, к сожалению, не способен это сделать на одном слое, так как отсутствует взаимодействие между различными картами внимания. Хотя использование нескольких слоев может помочь, хотелось бы избежать подобной нагрузки.

В MTA это взаимодействие становится возможным благодаря новым блокам, которые включают:

  1. Свертка key-query: объединяет несколько ключей и запросов внутри одной головы.
  2. Свертка смешивания голов: обменивает важную информацию между разными головами внимания.
  3. Групповая нормализация с масштабированием по глубине: улучшает поток градиентов, что существенно повышает эффективность модели.

Первый блок: Свертка key-query

Свертка key-query является важным новшеством, которое помогает "перемешивать" веса внимания от различных временных шагов. Она применяется к логитам внимания до софтмакса (то есть к QK/sqrt(d)), используя двумерную обучаемую свертку по измерениям запросов и ключей, оставаясь при этом неизменной для батча и голов. Каждая голова внимания учит собственную свертку, и в ней используется маска, чтобы избежать перетасовки с будущими значениями. Это можно считать предварительной сверткой (pre-softmax convolution). Так же возможно применение свертки после софтмакса, что делает взаимодействия между весами аддитивными, а не мультипликативными. Само по себе это изменение вызывает у меня неудовлетворенность в объяснении: остается незавершённым вопрос, почему же до софтмакса оно понимается именно как мультипликативное.

Итоги

Multi-Token Attention является значительным шагом вперёд в области машинного обучения и обработки естественного языка.



Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Михаил
Qwen3 модели удивляют! Теперь они поддерживают 119 языков и диалектов, открывая перед пользователями практически весь мир коммуникации. Это не просто цифра — это реальная возможность общаться, работать и понимать людей из разных культур. Отличный инструмент для бизнеса, путешествий или изучения языков. Все это под рукой! Так что, е... Читать далее
Анна
Если вы хотите оставаться на передовой разработки и быть в курсе всех новинок в мире программирования, подписывайтесь на наши обновления. Мы предлагаем вам лучшие каналы и ресурсы, такие как Telegram, где экспертные мнения и актуальные темы встречаются на каждом шагу. Получайте свежие идеи, обучающие материалы и аналитику, чтобы не... Читать далее
Максим
Премия CDO/CDTO Awards 2025 в Москве – это не просто событие, а настоящая магия цифр и данных! Лучшие умы в сфере Data Science собрались, чтобы отпраздновать достижения, которые помогут диву дать даже самим скептикам. Мероприятие стало ареной для обмена идеями и вдохновения, а столица России вновь подтвердила, что здесь рождаются н... Читать далее
Анна
Первый день конференции ICLR 2025 стал настоящим прорывом в области искусственного интеллекта. Делегация Яндекса с интересом следила за представленными исследованиями и инновациями. Среди ключевых достижений – улучшение алгоритмов обучения, новые подходы к обработке естественного языка и значительные шаги в области этики AI. Конфер... Читать далее
Михаил
Muon — это новый оптимизатор, который становится настоящим спасением для гроккинга. Сложные научные концепции, представленные Амундом Твеитом и его командой, обещают ускорить обучение моделей до неузнаваемости. Гроккинг — это не просто очередное модное слово, это прорыв, который поднимет машинное обучение на новый уровень. Если вы... Читать далее
Анна
На международной конференции ICLR 2025 были представлены работы, которые выделяются своим вкладом в область глубокого обучения. Эти исследования не только демонстрируют передовые идеи, но и открывают новые горизонты для применения нейронных сетей. Обладатели премии за выдающиеся статьи исследуют актуальные проблемы и предлагают инн... Читать далее