Новые датасеты от Hugging Face: Погружаемся в программирование

Не в бровь, а в глаз! Hugging Face, видимо, решил взять всех за горло своим недавним анонсом. Модель OlympicCoder, раздавила Sonnet 3.7 в LiveCodeBench и на Международной олимпиаде по информатике в 2024 году, и теперь компания щедро делится свежими датасетами для обучения и тонкой настройки языковых моделей. Зачем нам это? Чтобы подкинуть новый бензин в огонь программирования и автоматизированного кода!

Вот что они нам насыпали в этот раз:

  • 🟢 Stack-Edu — 125 миллиардов токенов образовательного кода на 15 языках. Это не просто набор строк, а настоящая сокровищница знаний, отфильтрованных из The Stack v2. Учитесь, не покладая лап!
  • 🟢 GitHub Issues — 11 миллиардов токенов, вытянутых из Issues на GitHub. Если вы еще не знали, это целая вселенная задач и решений от кода до копирования, который можно изучать бесконечно.
  • 🟢 Kaggle Notebooks — 2 миллиарда токенов из ноутбуков Kaggle. Для тех, кто решил заняться анализом данных, это золотая жила — практикуйтесь, мырзевы!
  • 🟢 CodeForces problems — 10 тысяч уникальных задач. Все эти задачи разложены по полочкам, 3 тысячи из них даже не попали в обучение DeepMind. Это не просто тренировка мозга, это настоящий вызов!
  • 🟢 CodeForces problems DeepSeek-R1 — 8.69 Гб отфильтрованных трассировок рассуждений по задачам. Этот объем информации просто огромен, как ваша целеустремленность!
  • 🟢 International Olympiad in Informatics: Problem statements dataset (2020 - 2024) — уникальный набор заданий с разбивкой на подзадачи. Все для вашего удобства, чтобы прямо у вас под носом были задачи, соответствующие решениям.
  • 🟢 International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) — 11 тысяч трассировок рассуждений, выполненных DeepSeek-R1. Это настоящая сокровищница, идеальная для глубокого анализа.

Вот такими перебежками к вершинам технологий идут ребята из Hugging Face! Подобные инициативы не только продвигают развитие искусственного интеллекта, но и дают возможность каждому, кто хочет прикоснуться к программированию, учиться быстрее и эффективнее. Так что, вперед к новым вершинам!

#AI #ML #LLM #Dataset #HuggingFace

HF выпустил новые датасеты по программированию! ver 0
HF выпустил новые датасеты по программированию! ver 0
Ширина: 2030 px
Высота: 1016 px
Соотношение сторон.: 1015:508

Скачать
Теги.: AIMLHuggingFaceDatasetProgramming
10 1 неделю назад


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

MWS запускает Container Platform — это не просто продукт, это настоящая революция в управлении Kubernetes! Забудьте о бесконечных конфигурациях и головной боли при масштабировании. MWS предлагает интуитивно понятный интерфейс и мощные инструменты, которые упростят вашу жизнь. Готовьтесь к новому уровню автоматизации и гибкости! С M... Читать далее