Локальные LLM в 2026: запустил на ноутбуке, сравнил с GPT-5. Честно рассказываю

Рано или поздно каждый пользователь ChatGPT задаёт себе вопрос: а что, если запустить нейросеть прямо на своём ноутбуке? Без подписки, без VPN, без того чувства, что твои клиентские данные улетают куда-то в облако.

Я попробовал. Вот что получилось – без маркетинга и без «вау, это как GPT-5 у тебя дома». Потому что нет, это не как GPT-5 у тебя дома.

Давайте начистоту. Облачные LLM работают отлично – до тех пор, пока не натыкаешься на три стены:

Конфиденциальность. Прогоняешь клиентскую переписку через ChatGPT – и уже не уверен, не попадёт ли это в обучающую выборку. Для менеджера с NDA это не паранойя, а реальный риск.

Доступность. ChatGPT падает в часы пик. Claude в России без VPN не работает. Вчера всё было – сегодня «сервис временно недоступен».

Стоимость. Если ты используешь ИИ десятки раз в день, $20/месяц за ChatGPT Plus – это ещё нормально. Но API-запросы для агентов и автоматизации съедают бюджет быстро.

Локальная модель решает все три разом: данные не уходят с компьютера, работает офлайн, после загрузки не стоит ничего. Вопрос – какой ценой в плане железа и качества.

Локальные LLM в 2026: запустил на ноутбуке, сравнил с GPT-5. Честно рассказываю

Быстрый ликбез для тех, кого пугают буквы.

B – миллиарды параметров. Чем больше – тем умнее модель, но тем больше памяти ей нужно.

Простое правило: на каждый миллиард параметров нужно примерно 1,5 ГБ памяти (при сжатии). То есть:

7B-модель – около 5 ГБ. Влезает в любой ноутбук
14B – около 9 ГБ. Впритык для 16 ГБ RAM
32B – около 20 ГБ. Нужен Mac с 32 ГБ или видеокарта
70B – около 48 ГБ. Нужна Mac Studio или серверное железо

Для масштаба: облачные GPT-5.4 и Claude Sonnet – это сотни миллиардов параметров, которые крутятся в датацентрах. Локальная 8B-модель – примерно 1% от этого масштаба. Отсюда и разрыв в качестве. Не потому что разработчики плохие – просто физика.

Ландшафт обновляется каждый месяц, поэтому без конкретики.

DeepSeek V4 – свежий лидер среди открытых моделей. Полноразмерный V4-Pro на 1,6T параметров – это для датацентров, но V4-Flash на 284B (13B активных) уже интереснее. Дистилляты предыдущего V3.2 на 7B и 14B по-прежнему доступны через Ollama и заметно сильнее конкурентов того же размера.

Qwen 3.6 от Alibaba – самое свежее поколение. Открытые веса: 27B dense и 35B-A3B (35 миллиардов параметров, но активных всего 3 – летает на 8 ГБ видеопамяти). Отлично работает с русским языком. Для тех, кто пишет и на русском, и на английском – реально важный параметр. Предыдущее поколение Qwen 3.5 тоже доступно: 9B-версия – хороший баланс размера и качества для ноутбука.

Gemma 4 26B MoE от Google – хитрая штука. 26 миллиардов параметров, но активных на каждый запрос – всего 4 миллиарда. Поэтому запускается на ноутбуке с 16 ГБ памяти и работает быстрее, чем «честные» модели того же размера. Есть и 31B Dense для тех, у кого побольше памяти.

gpt-oss от OpenAI – да, OpenAI выложили открытые веса под Apache 2.0. Модель gpt-oss-20b (21B параметров, 3,6B активных) запускается на 16 ГБ видеопамяти – реальный вариант для ноутбука. Старшая gpt-oss-120b требует 80 ГБ – это уже серверное железо или Mac Studio с запасом.

Запускаете Ollama, скачиваете модель на 8B. Работает на процессоре, без видеокарты.

Скорость: 3–8 токенов в секунду. ChatGPT выдаёт 40–80. Ощущения – как будто собеседник очень… задумчивый. Для резюмирования текста сойдёт. Для диалога – быстро надоест.

Вот тут начинается настоящая работа.

Mac на M-серии – лучшая платформа для локальных LLM прямо сейчас. CPU и GPU делят одну память, Apple оптимизировала свой фреймворк MLX, и Ollama с версии 0.19 перешла на MLX для Apple Silicon – ускорение до 2x по сравнению с предыдущим бэкендом. Результат: Qwen 3.5 9B на M3 Pro – 25–35 токенов в секунду. Gemma 4 на M4 Max – 30–45. Уже комфортно.

RTX 3060 12 ГБ – путь для Windows. Б/у карта стоит 15–20 тысяч рублей. Qwen 3.5 9B выдаёт на ней 20–40 токенов в секунду. Сопоставимо с Mac.

70B-модели, 8–15 токенов в секунду, качество близко к GPT-5 Mini. Вход – от 150–200 тысяч рублей. Это уже осознанная инвестиция, а не эксперимент.

Вот этот вопрос почему-то никто не объясняет нормально.

20 токенов – это примерно 15 слов в секунду. Человек читает 200–300 слов в минуту. То есть модель печатает втрое быстрее, чем вы читаете. Приятно.

8 токенов – уже чувствуется пауза. Как собеседник, который подбирает слова.

3 токена – построчный вывод. Работать можно, но только на фоновых задачах.

Проверьте сами: 20 т/с, 8 т/с, 3 т/с – симулятор Дениса Ширяева показывает текст в реальном времени. Минута на эксперимент даёт больше, чем любое описание.

Важный нюанс: у reasoning-моделей перед ответом бывает долгое «обдумывание». Локальная модель может 5–10 минут молчать и думать, прежде чем начать печатать. В облаке то же самое занимает 10–30 секунд.

Установить модель – 10 минут. Но между «установил» и «получаю пользу» есть расстояние. Какую модель выбрать под задачу? Как формулировать запросы, чтобы даже маленькая модель выдавала полезный результат? Как отличить галлюцинацию от правды? Это те навыки, которые работают и в облаке, и локально – и именно их мы разбираем в бесплатном модуле курса mysummit на 9 реальных задачах для менеджеров.

Самая частая ошибка: скачать модель на 8B, задать сложный вопрос, разочароваться и удалить всё.

В нашем бенчмарке AI моделей на управленческих задачах:

GPT-5.4 – 4,80 из 5
Claude Sonnet 4.5 – 4,78
Локальные 8B – попадают в диапазон 2,8–3,3

Это не плохо – это другой класс. Примерно уровень GigaChat Ultra.

Модели покрупнее уже интереснее: Qwen3 32B набрал 3,67, Gemma 3 27B – 3,75. Это уровень Alice AI от Яндекса.

А вот Phi-4 (3,8B) от Microsoft, которую хвалят за «умность» в синтетических тестах – набрала 2,27. Последнее место из всех моделей. Синтетические бенчмарки врут – проверяйте на реальных задачах.

Где локальная 8B справится:

Резюмирование документов
Черновики писем по шаблону
Простые вопросы по загруженному файлу
Форматирование и структурирование текста

Где лучше вернуться в облако:

Сложный анализ с неочевидными выводами
Конкурирующие гипотезы
Точность фактов
Многошаговые инструкции с условиями

Заметьте: разница между «справится» и «лучше в облако» – это не про железо. Это про умение ставить задачу так, чтобы модель любого размера выдала максимум. Локальная 8B с хорошим промптом обойдёт GPT-5 с плохим. Если хотите разобраться, как это работает на практике – 9 бесплатных уроков на mysummit построены именно вокруг этого навыка.

Gemma 4 E4B от Google (8B параметров, 4,5B активных) запускается через AI Edge Gallery на iPhone и Android. Скачивается один раз (~3,6 ГБ), работает полностью офлайн. На iPhone 15 Pro и новее – комфортная скорость. Есть ещё более компактная E2B (~2,5 ГБ) для старых устройств.

Qwen 3.5 4B – через PocketPal. Нужно минимум 8 ГБ памяти в телефоне.

Для чего годится: проанализировать документ без интернета, быстрый черновик, демонстрация на встрече. Для ежедневной работы экран маловат. Но как возможность – уже не эксперимент.

Ollama – старт за 5 минут. Ставите программу, пишете в терминале ollama pull qwen3.5:9b – всё. Рекомендую начинать с него.

LM Studio – то же самое, но с красивым интерфейсом. Если терминал вызывает аллергию.

Jan – для параноиков. Open-source, никакой телеметрии, полностью офлайн.

А вот это уже действительно круто для менеджеров с конфиденциальными данными.

OpenCode умеет подключаться к локальной модели через Ollama вместо облачного Claude. Схема простая: Ollama поднимает модель локально, OpenCode к ней подключается. Агент читает ваши файлы, анализирует, пишет результаты – и ни один байт не уходит наружу.

С 8B-моделью для простых задач хватает. С 32B на Mac Studio – уже полноценная замена облака для большинства рабочих сценариев.

Уже есть Mac M3/M4 с 16 ГБ? У вас всё готово. Ollama + Qwen 3.6 27B или Qwen 3.5 9B – через 10 минут будете разговаривать с локальной нейросетью.

Хотите нормальный опыт на Windows? RTX 3060 12 ГБ, 15–20 тысяч рублей б/у. Самый дешёвый вход.

Хотите заменить облако? Mac Studio 64 ГБ или две видеокарты. ~3000 USD. Это уже для тех, кто понимает, зачем.

Честный ответ для большинства: локальные модели – это не замена облаку, а дополнение. Облако – для сложных задач. Локально – для конфиденциальных данных, работы офлайн и случаев, когда платить за простое резюмирование текста через API нет смысла.

Первый запуск модели – 30–60 секунд ожидания. Не пугайтесь, это загрузка в память. Дальше – быстро.

Модели хранятся в системной папке и занимают место. 8B – 5 ГБ, 32B – 20 ГБ. На маленьком диске это может стать сюрпризом.

Добавляйте «отвечай на русском» в системный промпт. Большинство моделей обучены на смешанных данных и без этого указания периодически переключаются на английский.

Сравнить качество конкретных моделей на менеджерских задачах можно в публичном бенчмарке – там модели с реальными, а не синтетическими оценками.

И последнее: умение выбрать правильный инструмент – облако или локально, 8B или 70B, агент или чат – это ровно тот же навык, что и умение правильно формулировать задачи для ИИ. Инструменты меняются каждые пару месяцев. Навык остаётся.

Вы теперь знаете, какое железо нужно, какие модели ставить и чего от них ожидать. Но между «поставил Ollama» и «получаю предсказуемый результат каждый день» – целая дистанция. Формулировка задач, проверка фактов, работа с контекстом – это то, что превращает модель из игрушки в инструмент.

Полная программа курса mysummit.school – от бесплатного модуля с 9 практическими задачами до продвинутых техник промптинга. Всё на реальных управленческих кейсах, не на синтетических примерах.

Станислав Беляев – автор бенчмарка AI моделей и курса по ИИ для менеджеров mysummit.school. Разборы инструментов – в блоге и Telegram-канале.

Локальные LLM в 2026: запустил на ноутбуке, сравнил с GPT-5. Честно рассказываю

Три причины, по которым это вообще имеет смысл

Что значат все эти «7B», «14B», «70B»

Какие модели ставить в 2026

Железо: три уровня входа

Уровень 1. Ноутбук с 16 ГБ RAM – «попробовать»

Уровень 2. Mac M3/M4 или RTX 3060 – «нормальный инструмент»

Уровень 3. Mac Studio 64 ГБ или двойная видеокарта – «замена облака»

20 токенов в секунду – это вообще как?

Качество. Вот тут – без иллюзий

Нейросеть на телефоне – да, это уже работает

Что устанавливать

Агент на локальной модели: самый интересный сценарий

Итого: что покупать и чего ожидать

Пара вещей, которые узнаёшь после установки

Инструмент есть. Теперь – навык