OpenAI запускает BrowseComp: новый бенчмарк AI!

OpenAI выпустил BrowseComp: новый взгляд на бенчмаркинг AI!

Вот это поворот! OpenAI вновь на коне и выпустили новый бенчмарк под названием BrowseComp. И знаете что? Этот прибор не просто замеряет, как быстро ваша модель может выдавать ответы из Google, а ставит ее перед настоящими вызовами – нахождением редкой, сложной и, честно говоря, извращенной информации в сети. И это, друзья мои, глоток свежего воздуха в мир AI.

О чем, собственно, речь?

BrowseComp включает в себя целых 1,266 задач! Да-да, вы не ослышались – цифры неподкупные! Но неужели это просто очередной набор глупых вопросов? Нет! Каждая из этих задач заставляет модели по-настоящему вникать в контекст. Эти задачи требуют не только системного мышления, но и глубокой аналитики.

Интересные особенности

К сожалению, "первый попавшийся ответ" не пройдет. В отличие от других бенчмарков, например, SimpleQA, которые иногда просто тестируют на скорости, BrowseComp заставляет модели искать ответы на вопросы, которые не так уж просто найти. Пример: “Найдите мне статью из EMNLP 2018–2023, где первый автор учился в бакалавриате в Dartmouth, а четвёртый — в UPenn.” Будьте уверены, такие вопросы действительно проверяют на прочность!
Четкие ответы. Каждый вопрос в этом бенчмарке имеет краткий и однозначный ответ. Это не просто удобно для оценки – это прямо-таки шедевр по сравнению с другими бенчмарками, где многозначность ответов может свести на нет все усилия.
Разнообразие тем. Вопросы охватывают все возможные области, заставляя модели связывать разные факты и информацию – прямо как в реальной жизни. Это шаг вперед в эру, где "скопировать и вставить" можно на каждом шагу.

Заключение? Да ни о чем подобном!

Если вы думали, что старые добрые одним вопросом за раз покажут нам весь спектр возможностей AI, вы сильно заблуждаетесь. BrowseComp – это как CodeForces для программирования: проверка не только на теорию, но и на практику. Надеюсь, этот бенчмарк станет стандартом для оценки AI в будущем.

На сайте OpenAI можно прочитать больше об этом удивительном новшестве, если вам, конечно, не лень пролистать.

Ссылка на BrowseComp