Hugging Face превратил Spaces в App Store для AI-агентов

Короче, пока мы все копались в MCP и пытались прикрутить к Claude Code очередную интерацию, Жюльен Шомон (CTO Hugging Face) выкатил штуку которая может поменять правила игры. Теперь кодинг-агенты умеют вызывать HF Spaces напрямую и чейнить их между собой. Без настройки, без API-клея, без "а где тут документация".

Что вообще произошло

Если коротко: Hugging Face Spaces — это каталог из более чем миллиона AI-демок. Генерация картинок, видео, 3D-моделей, классификация, распознавание речи, музыка, да что угодно. Раньше, чтобы подключить такое к своему агенту, надо было писать обёртки, разбираться с Gradio API, настраивать аутентификацию. Классическая история с "integration tax" о которой в комментариях справедливо пишут.

Теперь схема другая: заходите на Space, жмёте "copy instructions", вставляете в Claude Code (или другой агент), и он сам понимает как этим пользоваться.

Важно: агент читает инструкции прямо из Space и вызывает его как обычный инструмент. Это не плагин и не маркетплейс в классическом понимании, а именно паттерн "агент разбирается на лету".

Почему это интереснее чем кажется на первый взгляд

Вот тут и начинается магия композиции. Один Space генерирует картинку, второй превращает её в 3D-модель, третий добавляет текстуры, четвёртый делает видео-превью. Раньше это был бы пайплайн на пару дней работы — сейчас агент оркестрирует всё сам, получив несколько блоков инструкций.

Комментатор Nikita Sklyarov в ветке неплохо сформулировал суть: специализированные модели уже существуют и хостятся, теперь их можно вызывать по смыслу задачи а не по имени API.

Интересно: паттерн "copy instructions" похож на то, как люди работают с README. Только теперь README читает не человек, а агент, и сразу превращает его в действия. Это логичное развитие идеи MCP но с гораздо меньшим порогом входа.

Цена вопроса

HF Pro стоит 9 долларов в месяц и даёт 25 минут в день ZeroGPU на H200. Для контекста: H200 это топовая карта от Nvidia, аренда которой на облаке стоит совсем других денег. Для одиночного разработчика или небольшой команды которая хочет погонять тяжёлые модели (видео, 3D, большие диффузионки), это, честно говоря, просто подарок.

Devhack: 25 минут в день звучит немного, но на H200 это реально много. Большинство запросов к image/video-моделям укладывается в секунды. Хватит на десятки прогонов в день.

Где подводные камни

Теперь к неудобным вопросам, потому что без них картинка неполная.

Задержка при чейнинге. Один из комментаторов (Gowrisankar Nallamothu) правильно замечает: если цепочка из пяти Spaces, каждый со своей холодной загрузкой модели — суммарная латентность может быть болезненной. Для прототипов нормально, для продакшена надо думать.

Надёжность цепочки. Марк Шмеер в комментариях бросает важную мысль: скопировать инструкции легко а понять, что цепочка пошла не туда — намного сложнее. Агент может уверенно выдать мусор, и без нормального observability поверх этого будет сложно отлаживать.

Зависимость от одного провайдера. Hugging Face становится всё более критичной инфраструктурой для AI-разработки. Это удобно, но напоминает ранние дни GitHub: все любят, пока всё работает.

Внимание: для серьёзных продуктовых задач стоит закладывать fallback-логику и не полагаться на Spaces как на единственный источник функциональности. Для экспериментов и прототипов ограничений практически нет.

Что делать прямо сейчас

Если работаете с Claude Code или подобным агентом, стоит попробовать сценарий "агент как оркестратор мультимодальных задач". Пара конкретных идей:

  • Пайплайн генерации контента: текст с помощью основной модели, картинка через Flux или SDXL Space, озвучка через TTS Space, склейка в видео через отдельный Space
  • Автоматический препроцессинг: OCR из скана, классификация документа, извлечение сущностей, всё цепочкой
  • Быстрая оценка моделей: прогнать один и тот же промпт через несколько Spaces и сравнить резултаты без написания кода

Просто зайти на huggingface.co/spaces, найти нужный Space, скопировать инструкции в агента и посмотреть что получится.

Что это значит в более широком смысле

Мы последние пару лет жили в парадигме "одна большая модель делает всё". GPT-4, Claude, Gemini соревнуются в универсальности. А параллельно копился слой специализированных моделей: лучшая OCR, лучший TTS, лучшая сегментация. Эти миры жили отдельно потому что связать их было дорого.

То что сейчас делает Hugging Face — это попытка превратить фрагментированный мир специализированных моделей в единый исполнительный слой для агентов. Универсальная модель становится дирижёром, а специализированные модели оркестром.

Получится ли это в продакшене на длинной дистанции — пока вопрос открытый. Но сам сдвиг архитектурный и, на мой взгляд, довольно красивый. Если интересно, залетайте на Spaces и попробуйте пособирать свой первый пайплан. Самый быстрый способ понять работает оно или нет — самому покрутить руками.

2
Начать дискуссию