Новые датасеты от Hugging Face: Погружаемся в программирование
Не в бровь, а в глаз! Hugging Face, видимо, решил взять всех за горло своим недавним анонсом. Модель OlympicCoder, раздавила Sonnet 3.7 в LiveCodeBench и на Международной олимпиаде по информатике в 2024 году, и теперь компания щедро делится свежими датасетами для обучения и тонкой настройки языковых моделей. Зачем нам это? Чтобы подкинуть новый бензин в огонь программирования и автоматизированного кода!
Вот что они нам насыпали в этот раз:
- 🟢 Stack-Edu — 125 миллиардов токенов образовательного кода на 15 языках. Это не просто набор строк, а настоящая сокровищница знаний, отфильтрованных из The Stack v2. Учитесь, не покладая лап!
- 🟢 GitHub Issues — 11 миллиардов токенов, вытянутых из Issues на GitHub. Если вы еще не знали, это целая вселенная задач и решений от кода до копирования, который можно изучать бесконечно.
- 🟢 Kaggle Notebooks — 2 миллиарда токенов из ноутбуков Kaggle. Для тех, кто решил заняться анализом данных, это золотая жила — практикуйтесь, мырзевы!
- 🟢 CodeForces problems — 10 тысяч уникальных задач. Все эти задачи разложены по полочкам, 3 тысячи из них даже не попали в обучение DeepMind. Это не просто тренировка мозга, это настоящий вызов!
- 🟢 CodeForces problems DeepSeek-R1 — 8.69 Гб отфильтрованных трассировок рассуждений по задачам. Этот объем информации просто огромен, как ваша целеустремленность!
- 🟢 International Olympiad in Informatics: Problem statements dataset (2020 - 2024) — уникальный набор заданий с разбивкой на подзадачи. Все для вашего удобства, чтобы прямо у вас под носом были задачи, соответствующие решениям.
- 🟢 International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) — 11 тысяч трассировок рассуждений, выполненных DeepSeek-R1. Это настоящая сокровищница, идеальная для глубокого анализа.
Вот такими перебежками к вершинам технологий идут ребята из Hugging Face! Подобные инициативы не только продвигают развитие искусственного интеллекта, но и дают возможность каждому, кто хочет прикоснуться к программированию, учиться быстрее и эффективнее. Так что, вперед к новым вершинам!
#AI #ML #LLM #Dataset #HuggingFace

HF выпустил новые датасеты по программированию! ver 0
Ширина: 2030 px
Высота: 1016 px
Соотношение сторон.: 1015:508
Скачать
Вам также может понравиться






















