II-Thought-RL-v0: Датасет для RL, который может изменить правила игры

Ребята, давайте поговорим о том, как долго мы с вами играли в игру «догадайся, какой из датасетов не отстой». Мир Reinforcement Learning (RL) – это не просто магия и взрывы из мозговых клеток, это еще и постоянная охота за качественными данными. Но, как оказалось, большинство существующих датасетов - клаптики, которые уже побывали в мусорной ведре, воняют и мешают эффективности поиска, как непрошеный гость на вечеринке.

Проблема в том, что многие датасеты полны дублирующихся задач и низкокачественных вопросов. Признайтесь, вы об этом уже слышали, но поверьте, цифры говорят сами за себя. В последнем исследовании OpenR1 выявили аж 20 дублирующихся задач из Math-500! А про General Reasoning - не хочу даже начинать. Эта каша из краудсорсинга просто затмевает все вокруг и ведет к тому, что модели начинают «угадывать» ответы, а не использовать логику. Ребята, где же тут интеллект?!

Но, о чудо! Intelligent Internet с его новым творением II-Thought-RL-v0 решили поднять планку и запустили датасет с 340 тысячами задач. Вот это я понимаю, дерзкая попытка решить все проблемы! Основные акценты в работе над датасетом – это масштаб, качество и чистота данных. Не будем забывать, что это не просто очередная раскраска, это серьезная работа над ошибками!

Каждый вопрос здесь проходит многоступенчатую проверку. Сначала дубликаты и хлам удаляются с того света, а потом в дело вступают такие инструменты, как Gemini 2.0 Flash и Qwen-2.5-32B. Звучит как название супергероев, не правда ли? Они фильтруют все неоднозначные или просто безобразные задачи. Ошибки в формулировках, зависимость от изображений или открытые ответы - всё это быстро уходит в небытие.

И вот что реально круто: важен акцент на верификацию. Математические задачи проверяются через Math-Verify (кто даже знал, что такие вещи существуют?), код запускается в безопасном окружении Sandbox Fusion, а для медицинских вопросов предоставляется LLM-судья. Это значит, что «взлом наград» - это не про нас, ребята! Мы хотим, чтобы наши модели использовали разум, а не шли на пролом, как, знаете ли, некоторые лемминги.

Немного статистики: об этом датасете мечтали не зря! Модель с 1,5 миллиарда параметров, обученная на II-Thought-RL-v0, уже побила DeepSeek-R1 на 3-5% в тестах AIME и LiveCodeBench. Это впечатляет, не так ли? Но среди этой радости остаётся вопрос: в датасете 70% данных связаны с математикой и программированием, а другие сферы – медицина, финансы и инженерия – почти не представлены. Печально, но ожидаемо. Создатели II-Thought-RL-v0, как видно, планируют расширить его в будущем, чтобы делать модели более универсальными и готовыми к реальным жизненным сценариям.

Так что, если вы все еще сидите на старых, заплесневелых, бесполезных датасетах, пора мне с вами поговорить. II-Thought-RL-v0 – это то, что нужно, чтобы RL стал потихоньку шевелиться! #AI #ML #LLM #RL #Dataset

II-Thought-RL-v0: Революционный датасет для обучения RL ver 0
II-Thought-RL-v0: Революционный датасет для обучения RL ver 0
Ширина: 2282 px
Высота: 768 px
Соотношение сторон.: 1141:384

Скачать
II-Thought-RL-v0: Революционный датасет для обучения RL ver 1
II-Thought-RL-v0: Революционный датасет для обучения RL ver 1
Ширина: 1000 px
Высота: 525 px
Соотношение сторон.: 40:21

Скачать
II-Thought-RL-v0: Революционный датасет для обучения RL ver 2
II-Thought-RL-v0: Революционный датасет для обучения RL ver 2
Ширина: 2560 px
Высота: 1920 px
Соотношение сторон.: 4:3

Скачать
Теги.: AIMLRLDatasetMachineLearning
6 1 неделю назад


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

MWS запускает Container Platform — это не просто продукт, это настоящая революция в управлении Kubernetes! Забудьте о бесконечных конфигурациях и головной боли при масштабировании. MWS предлагает интуитивно понятный интерфейс и мощные инструменты, которые упростят вашу жизнь. Готовьтесь к новому уровню автоматизации и гибкости! С M... Читать далее