Open-weights: вход пока бесплатный
Где-то за МКАДом, помимо чата ГПТ и Клауда (в лучших его вариациях), есть ещё ЛЛМ.
Понятно, что под задачи разработчиков, где главенствуют Cursor, Windsurf, GitHub Copilot или расширения типа Continue и Aider, не всё подойдёт, но разработчиками мир и не ограничивается. Короче, пост не для девелоперов, а для тех, кто хочет расширить свой кругозор в мире AI.
Тесты на старте (API): 0 рублей
Важно: здесь речь пойдет именно о подключении через API - быстром и бесплатном. Почему бесплатном? Потому что маркетинг. Провайдеры специализированного инференса сейчас воюют за энтузиастов, раздавая мощности на избытках своих чипов.
Groq и Cerebras. Используют мощности LPU и CS-3 чипов. Скорость генерации от 500 до 2000 токенов в секунду на Free Tier. Для теста логики Llama 3.3 или Qwen 3 этого более чем достаточно. На Лламе у меня работают ассистенты - справляются отлично.
Mistral AI. У французов есть своя La Plateforme. Дают бесплатный уровень доступа для тестов. Их модели типа Mistral Small или NeMo - это (имхо) эталон эффективности, когда не хочется кормить OpenAI за каждый токен. Лаконичные, быстрые и почти без цензурных заскоков.
Раньше я бы здесь еще про Gemini написал, но с конца 2025 года он перестал быть доступным. Тем не менее оставшееся это отличный полигон, чтобы пощупать нейронки через API руками, не потратив на них ни копейки.
Свой сервер
API - это удобно, пока тебя не замедлили, или не задрали ценник, или еще чего нехорошего не сделали. Если проект перерастает стадию поиграться, часто единственный путь это self-hosted. Разворачивая ту же Llama или Mistral у себя, ты вычеркиваешь Pserver из уравнения, что хорошо.
Но вот требования к железу... кхм. Смотрите сами.
Модели уровня 70B - это база для нормальной логики. Чтобы запустить их в качестве Q4 (4 бита), нужно 48 ГБ видеопамяти.
Золотой стандарт: связка 2x RTX 3090/4090. Это даёт те самые 48 ГБ и позволяет крутить модель без потерь в интеллекте.
Вариант Blackwell: одиночная RTX 5090 (32 ГБ). Быстрая, но памяти на 70B впритык. Придется юзать IQ-Quantization (IQ3_M), что немного подрезает логику, но даёт хорошую скорость.
Софт. Кажется, придется забыть про Ollama, если планируете что-то серьезнее чат-бота для одного человека. Для серьезных агентских систем в Docker нужен vLLM. За счёт алгоритма PagedAttention он выдает в 10–25 раз большую пропускную способность. Он управляет памятью как виртуалкой в ОС, устраняя фрагментацию.
Читал где-то на просторах интернета, что на слабеньких серверах слабые модели могут пару минут отвечать на вопрос "Как называется столица Франции?".
А что юзаете вы? Уже пробовали подключать ИИ по апи на свои проекты?