Обновление huggingface_hub до версии 0.30.0: анализ новшеств

Огромное обновление библиотеки huggingface_hub: версия 0.30.0

🔥 Hugging Face, одна из ведущих платформ в области машинного обучения и обработки естественного языка, анонсировала выпуск новой версии своей библиотеки huggingface_hub — 0.30.0. Это обновление стало самым значительным за последние два года и включает в себя целый ряд улучшений, которые стоит внимательно изучить.

Главное новшество: Интеграция с Xet

В центре внимания этого обновления — интеграция с Xet, новым продвинутым протоколом для хранения крупных объектов в Git-репозиториях. Xet призван стать заменой Git LFS, и это, безусловно, важный шаг вперед.

Что же отличает Xet от его предшественника? В то время как Git LFS выполняет дедупликацию на уровне целых файлов, Xet работает на уровне данных, дробя их на более мелкие фрагменты. Это особенно полезно для разработчиков, которые работают с огромными моделями и датасетами, поскольку фрагментирование данных позволяет значительно более эффективно управлять большими объемами информации.

Для интеграции с Python теперь предлагается пакет xet-core, написанный на Rust, который берет на себя все низкоуровневые операции. Это, безусловно, делает процесс работы более удобным и быстрым. Чтобы начать использовать Xet, вам необходимо установить дополнительную зависимость, выполнив следующую команду:

pip install -U huggingface_hub[hf_xet]

После этого вы сможете загружать файлы из репозиториев, которые поддерживают Xet, что откроет новые горизонты для работы с вашими проектами.

Дополнительные улучшения

В обновлении версии 0.30.0 значительное внимание уделено также расширению InferenceClient. Теперь в нем добавлена поддержка новых провайдеров для инференса, таких как Cerebras и Cohere. Это означает, что пользователи получают доступ к более широкому спектру инструментов и возможностей для выполнения своих задач.

Асинхронные вызовы для задач инференса, таких как text-to-video, сделали работу более надежной и эффективной. Упрощение CLI также приятно удивляет: команда huggingface-cli upload теперь поддерживает различные шаблоны в путях к файлам, что значительно упрощает загрузку моделей и данных. Например, теперь вы можете использовать:

huggingface-cli upload my-model *.safetensors

Кроме того, добавленная опция --sort для команды huggingface-cli delete-cache позволяет пользователям сортировать кэшированные репозитории, что способствует более удобному управлению. Например, вы можете выполнить команду:

huggingface-cli delete-cache --sort=size

Это делает процесс взаимодействия с кэшом более интуитивным и наглядным.

Что дальше?

Вы можете ознакомиться с полным списком обновлений в релизе, а также посчитать неполную документацию по новым функциям и интеграциям через блоги Hugging Face. Индустрия машинного обучения постоянно прогрессирует, и такие обновления, как это, подчеркивают стремление команд лучше удовлетворять потребности своих пользователей и адаптироваться к современным вызовам.

Подводя итог, нельзя не отметить, насколько эти нововведения изменят подход разработчиков к работе с большими данными и моделями. Это обновление не только улучшает функционал, но и открывает двери для еще более амбициозных проектов в будущем. Я с нетерпением жду, как сообщество будет использовать эти новшества на практике!

#huggingface #release #xet