Локальные LLM в 2026: запустил на ноутбуке, сравнил с GPT-5. Честно рассказываю
Рано или поздно каждый пользователь ChatGPT задаёт себе вопрос: а что, если запустить нейросеть прямо на своём ноутбуке? Без подписки, без VPN, без того чувства, что твои клиентские данные улетают куда-то в облако.
Я попробовал. Вот что получилось – без маркетинга и без «вау, это как GPT-5 у тебя дома». Потому что нет, это не как GPT-5 у тебя дома.
Три причины, по которым это вообще имеет смысл
Давайте начистоту. Облачные LLM работают отлично – до тех пор, пока не натыкаешься на три стены:
Конфиденциальность. Прогоняешь клиентскую переписку через ChatGPT – и уже не уверен, не попадёт ли это в обучающую выборку. Для менеджера с NDA это не паранойя, а реальный риск.
Доступность. ChatGPT падает в часы пик. Claude в России без VPN не работает. Вчера всё было – сегодня «сервис временно недоступен».
Стоимость. Если ты используешь ИИ десятки раз в день, $20/месяц за ChatGPT Plus – это ещё нормально. Но API-запросы для агентов и автоматизации съедают бюджет быстро.
Локальная модель решает все три разом: данные не уходят с компьютера, работает офлайн, после загрузки не стоит ничего. Вопрос – какой ценой в плане железа и качества.
Что значат все эти «7B», «14B», «70B»
Быстрый ликбез для тех, кого пугают буквы.
B – миллиарды параметров. Чем больше – тем умнее модель, но тем больше памяти ей нужно.
Простое правило: на каждый миллиард параметров нужно примерно 1,5 ГБ памяти (при сжатии). То есть:
- 7B-модель – около 5 ГБ. Влезает в любой ноутбук
- 14B – около 9 ГБ. Впритык для 16 ГБ RAM
- 32B – около 20 ГБ. Нужен Mac с 32 ГБ или видеокарта
- 70B – около 48 ГБ. Нужна Mac Studio или серверное железо
Для масштаба: облачные GPT-5.4 и Claude Sonnet – это сотни миллиардов параметров, которые крутятся в датацентрах. Локальная 8B-модель – примерно 1% от этого масштаба. Отсюда и разрыв в качестве. Не потому что разработчики плохие – просто физика.
Какие модели ставить в 2026
Ландшафт обновляется каждый месяц, поэтому без конкретики.
DeepSeek V4 – свежий лидер среди открытых моделей. Полноразмерный V4-Pro на 1,6T параметров – это для датацентров, но V4-Flash на 284B (13B активных) уже интереснее. Дистилляты предыдущего V3.2 на 7B и 14B по-прежнему доступны через Ollama и заметно сильнее конкурентов того же размера.
Qwen 3.6 от Alibaba – самое свежее поколение. Открытые веса: 27B dense и 35B-A3B (35 миллиардов параметров, но активных всего 3 – летает на 8 ГБ видеопамяти). Отлично работает с русским языком. Для тех, кто пишет и на русском, и на английском – реально важный параметр. Предыдущее поколение Qwen 3.5 тоже доступно: 9B-версия – хороший баланс размера и качества для ноутбука.
Gemma 4 26B MoE от Google – хитрая штука. 26 миллиардов параметров, но активных на каждый запрос – всего 4 миллиарда. Поэтому запускается на ноутбуке с 16 ГБ памяти и работает быстрее, чем «честные» модели того же размера. Есть и 31B Dense для тех, у кого побольше памяти.
gpt-oss от OpenAI – да, OpenAI выложили открытые веса под Apache 2.0. Модель gpt-oss-20b (21B параметров, 3,6B активных) запускается на 16 ГБ видеопамяти – реальный вариант для ноутбука. Старшая gpt-oss-120b требует 80 ГБ – это уже серверное железо или Mac Studio с запасом.
Железо: три уровня входа
Уровень 1. Ноутбук с 16 ГБ RAM – «попробовать»
Запускаете Ollama, скачиваете модель на 8B. Работает на процессоре, без видеокарты.
Скорость: 3–8 токенов в секунду. ChatGPT выдаёт 40–80. Ощущения – как будто собеседник очень… задумчивый. Для резюмирования текста сойдёт. Для диалога – быстро надоест.
Уровень 2. Mac M3/M4 или RTX 3060 – «нормальный инструмент»
Вот тут начинается настоящая работа.
Mac на M-серии – лучшая платформа для локальных LLM прямо сейчас. CPU и GPU делят одну память, Apple оптимизировала свой фреймворк MLX, и Ollama с версии 0.19 перешла на MLX для Apple Silicon – ускорение до 2x по сравнению с предыдущим бэкендом. Результат: Qwen 3.5 9B на M3 Pro – 25–35 токенов в секунду. Gemma 4 на M4 Max – 30–45. Уже комфортно.
RTX 3060 12 ГБ – путь для Windows. Б/у карта стоит 15–20 тысяч рублей. Qwen 3.5 9B выдаёт на ней 20–40 токенов в секунду. Сопоставимо с Mac.
Уровень 3. Mac Studio 64 ГБ или двойная видеокарта – «замена облака»
70B-модели, 8–15 токенов в секунду, качество близко к GPT-5 Mini. Вход – от 150–200 тысяч рублей. Это уже осознанная инвестиция, а не эксперимент.
20 токенов в секунду – это вообще как?
Вот этот вопрос почему-то никто не объясняет нормально.
20 токенов – это примерно 15 слов в секунду. Человек читает 200–300 слов в минуту. То есть модель печатает втрое быстрее, чем вы читаете. Приятно.
8 токенов – уже чувствуется пауза. Как собеседник, который подбирает слова.
3 токена – построчный вывод. Работать можно, но только на фоновых задачах.
Проверьте сами: 20 т/с, 8 т/с, 3 т/с – симулятор Дениса Ширяева показывает текст в реальном времени. Минута на эксперимент даёт больше, чем любое описание.
Важный нюанс: у reasoning-моделей перед ответом бывает долгое «обдумывание». Локальная модель может 5–10 минут молчать и думать, прежде чем начать печатать. В облаке то же самое занимает 10–30 секунд.
Установить модель – 10 минут. Но между «установил» и «получаю пользу» есть расстояние. Какую модель выбрать под задачу? Как формулировать запросы, чтобы даже маленькая модель выдавала полезный результат? Как отличить галлюцинацию от правды? Это те навыки, которые работают и в облаке, и локально – и именно их мы разбираем в бесплатном модуле курса mysummit на 9 реальных задачах для менеджеров.
Качество. Вот тут – без иллюзий
Самая частая ошибка: скачать модель на 8B, задать сложный вопрос, разочароваться и удалить всё.
В нашем бенчмарке AI моделей на управленческих задачах:
- GPT-5.4 – 4,80 из 5
- Claude Sonnet 4.5 – 4,78
- Локальные 8B – попадают в диапазон 2,8–3,3
Это не плохо – это другой класс. Примерно уровень GigaChat Ultra.
Модели покрупнее уже интереснее: Qwen3 32B набрал 3,67, Gemma 3 27B – 3,75. Это уровень Alice AI от Яндекса.
А вот Phi-4 (3,8B) от Microsoft, которую хвалят за «умность» в синтетических тестах – набрала 2,27. Последнее место из всех моделей. Синтетические бенчмарки врут – проверяйте на реальных задачах.
Где локальная 8B справится:
- Резюмирование документов
- Черновики писем по шаблону
- Простые вопросы по загруженному файлу
- Форматирование и структурирование текста
Где лучше вернуться в облако:
- Сложный анализ с неочевидными выводами
- Конкурирующие гипотезы
- Точность фактов
- Многошаговые инструкции с условиями
Заметьте: разница между «справится» и «лучше в облако» – это не про железо. Это про умение ставить задачу так, чтобы модель любого размера выдала максимум. Локальная 8B с хорошим промптом обойдёт GPT-5 с плохим. Если хотите разобраться, как это работает на практике – 9 бесплатных уроков на mysummit построены именно вокруг этого навыка.
Нейросеть на телефоне – да, это уже работает
Gemma 4 E4B от Google (8B параметров, 4,5B активных) запускается через AI Edge Gallery на iPhone и Android. Скачивается один раз (~3,6 ГБ), работает полностью офлайн. На iPhone 15 Pro и новее – комфортная скорость. Есть ещё более компактная E2B (~2,5 ГБ) для старых устройств.
Qwen 3.5 4B – через PocketPal. Нужно минимум 8 ГБ памяти в телефоне.
Для чего годится: проанализировать документ без интернета, быстрый черновик, демонстрация на встрече. Для ежедневной работы экран маловат. Но как возможность – уже не эксперимент.
Что устанавливать
Ollama – старт за 5 минут. Ставите программу, пишете в терминале ollama pull qwen3.5:9b – всё. Рекомендую начинать с него.
LM Studio – то же самое, но с красивым интерфейсом. Если терминал вызывает аллергию.
Jan – для параноиков. Open-source, никакой телеметрии, полностью офлайн.
Агент на локальной модели: самый интересный сценарий
А вот это уже действительно круто для менеджеров с конфиденциальными данными.
OpenCode умеет подключаться к локальной модели через Ollama вместо облачного Claude. Схема простая: Ollama поднимает модель локально, OpenCode к ней подключается. Агент читает ваши файлы, анализирует, пишет результаты – и ни один байт не уходит наружу.
С 8B-моделью для простых задач хватает. С 32B на Mac Studio – уже полноценная замена облака для большинства рабочих сценариев.
Итого: что покупать и чего ожидать
Уже есть Mac M3/M4 с 16 ГБ? У вас всё готово. Ollama + Qwen 3.6 27B или Qwen 3.5 9B – через 10 минут будете разговаривать с локальной нейросетью.
Хотите нормальный опыт на Windows? RTX 3060 12 ГБ, 15–20 тысяч рублей б/у. Самый дешёвый вход.
Хотите заменить облако? Mac Studio 64 ГБ или две видеокарты. ~3000 USD. Это уже для тех, кто понимает, зачем.
Честный ответ для большинства: локальные модели – это не замена облаку, а дополнение. Облако – для сложных задач. Локально – для конфиденциальных данных, работы офлайн и случаев, когда платить за простое резюмирование текста через API нет смысла.
Пара вещей, которые узнаёшь после установки
Первый запуск модели – 30–60 секунд ожидания. Не пугайтесь, это загрузка в память. Дальше – быстро.
Модели хранятся в системной папке и занимают место. 8B – 5 ГБ, 32B – 20 ГБ. На маленьком диске это может стать сюрпризом.
Добавляйте «отвечай на русском» в системный промпт. Большинство моделей обучены на смешанных данных и без этого указания периодически переключаются на английский.
Сравнить качество конкретных моделей на менеджерских задачах можно в публичном бенчмарке – там модели с реальными, а не синтетическими оценками.
И последнее: умение выбрать правильный инструмент – облако или локально, 8B или 70B, агент или чат – это ровно тот же навык, что и умение правильно формулировать задачи для ИИ. Инструменты меняются каждые пару месяцев. Навык остаётся.
Инструмент есть. Теперь – навык
Вы теперь знаете, какое железо нужно, какие модели ставить и чего от них ожидать. Но между «поставил Ollama» и «получаю предсказуемый результат каждый день» – целая дистанция. Формулировка задач, проверка фактов, работа с контекстом – это то, что превращает модель из игрушки в инструмент.
Полная программа курса mysummit.school – от бесплатного модуля с 9 практическими задачами до продвинутых техник промптинга. Всё на реальных управленческих кейсах, не на синтетических примерах.
Станислав Беляев – автор бенчмарка AI моделей и курса по ИИ для менеджеров mysummit.school. Разборы инструментов – в блоге и Telegram-канале.