PaperBench: Новая Эра Оценки ИИ-Агентов

🎉 Друзья, у нас на горизонте зажглась новая звезда! Познакомьтесь с PaperBench — свежим бенчмарком от OpenAI, который обещает революцию в оценивании ИИ-агентов. Этот проект не просто очередной тест на соответствие стандартам — это настоящая проверка на вшивость.

Что же такое PaperBench? В рамках этого проекта умные машинки должны воспроизвести 20 статей из конференции ICML 2024, которые попали в категории Spotlight и Oral. То есть, всё самое интересное!

Но это еще не всё! Каждый из этих 20 шедевров разбит на более мелкие задачи с четкими критериями оценки. Какой же умный подход — ведь у кого не возникнет сложностей перед лицом 8 316 индивидуально оцениваемых задач? Чувствуете, как ваше сердце замирает от волнения? Я вот чувствую!

А чтобы не оставлять камня на камне, в проекте предусмотрен судья — мощнейшая LLM, которая будет автоматически оценивать попытки воспроизведения. Забудьте о субъективизме! Этот судья сравнивает работы с заранее установленными рубриками и проверяет их успехи с помощью отдельного бенчмарка. Здесь на выходе получается максимально объективная оценка.

Кстати, для программистов, мечтающих внести свои лепты в развитие ИИ, код проекта доступен на GitHub! Да-да, в открытом доступе, так что смело берите в руки клавиатуру!

Теперь о результатах тестирования. Согласно последним данным, среди протестированных моделей лучшим признан Claude 3.5 Sonnet (New), который взял символический барьер в 21,0% среднего показателя воспроизведения! Но, увы, до уровня человеческих гениев с университетских скамей все еще далеко. Нельзя не отметить, что за его спиной стоят настоящие гуру машинного обучения.

В общем, PaperBench — это не просто тест, это целая эпоха в мире оценки ИИ! И кто знает, может, именно ваша креативность поможет продвинуть технологии на следующий уровень. Кто хочет попробовать свои силы? 🚀

🟡 GitHub
🟡 Paper

#openai #Benchmark #PaperBench

PaperBench: Новый Бенчмарк для ИИ-Исследований от OpenAI ver 0
PaperBench: Новый Бенчмарк для ИИ-Исследований от OpenAI ver 0
Ширина: 1280 px
Высота: 600 px
Соотношение сторон.: 32:15

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!