9 марта 2025 г.

Локальный ИИ-агент на своём ПК: без интернета, с видеокартой

Friendly robot captain in naval officer coat on the deck of a majestic three-masted sailing ship at sea, golden hour, dramatic clouds. Color palette: bold yellow and deep red accents on sails, flags, and robot trim; cinematic wide shot, detailed metal and rope, hopeful mood, no text, high detail, illustration style.

Представьте: вы — капитан на трёхмачтовом корабле. Шторм в сети не страшен, если руль, карты и команда у вас под рукой — на вашем же компьютере. Ни облака, ни чужого API: только ваша видеокарта, лёгкая модель и открытый софт. Ниже — как к этому подойти по шагам и какие промпты можно использовать, когда будете рисовать иллюстрации в жёлто-красной гамме Ватоко.

Ни облака, ни чужого API — только ваше железо и ваш выбор.

Зачем агент без интернета

Локальный агент не утекает в чужие логи, работает в поезде и на даче, не зависит от тарифов API и внезапных лимитов. Минус — вы сами отвечаете за обновления, безопасность и выбор модели. Для многих задач (черновики текстов, код, заметки, простые сценарии с файлами) этого достаточно.

Робот-капитан в деревянной каюте корабля за картами, иллюминаторы с видом на море и парусники — Robot captain at the ship's wheel on a wooden three-masted vessel, open ocean, yellow and red nautical details, compass and maps on the table, cozy cabin light through windows, no internet cables — only brass instruments, editorial illustration, warm light.

Железо: 12 ГБ VRAM и 64 ГБ RAM

С 12 ГБ видеопамяти комфортно крутятся квантованные модели порядка 7–8 миллиардов параметров (форматы вроде Q4_K_M). 64 ГБ оперативной памяти даёт запас: можно держать тяжёлый контекст, несколько сервисов или при необходимости частично грузить модель в RAM (медленнее, но терпимо). В статьях и форумах часто фигурируют карты уровня RTX 3060 12 ГБ, 4060 Ti 16 ГБ и соседние по классу — у вас может быть любая видеокарта с похожим объёмом VRAM; модели без цифры «3360» в линейке NVIDIA тоже подходят, если памяти хватает под выбранный вес.

Изометрическая схема: GPU, модули RAM, корпус ПК и фигурка робота-капитана, неоновая подсветка — Isometric cutaway diagram: desktop PC with glowing GPU card labeled 12GB VRAM, RAM sticks 64GB, small robot captain figurine on top of the case, yellow and red LED accent strips, clean tech infographic style, dark background.

Лёгкая модель с открытой лицензией

Ориентируйтесь на семейства с открытыми весами: Llama 3.2, Mistral, Qwen2.5, Gemma и другие в размере 3B–8B. Берите GGUF или готовые образы под ваш рантайм — так проще уложиться в VRAM. Для русского языка смотрите свежие бенчмарки сообщества: иногда лучше 7B с хорошим датасетом, чем 13B в кривой квантизации.

Открытый софт: что поставить

Популярные и простые входы: Ollama (CLI и API локально), LM Studio (GUI, удобно ковырять), llama.cpp и обвязки вокруг него, LocalAI или self-hosted варианты в духе Open WebUI — выбирайте по вкусу. Все они позволяют держать модель на GPU и стучаться к ней с localhost без выхода в интернет (после того как вы скачали веса).

Робот-капитан указывает на монитор с терминалом в стиле ollama run, на фоне неоновый штурвал корабля — Split screen: left terminal window with 'ollama run' style command and monospace green text, right friendly robot captain pointing at the screen, ship wheel in background, yellow and red UI accents, flat modern illustration.

Когда это становится «агентом»

Чат — ещё не агент.

Агент обычно планирует, вызывает инструменты (поиск по файлам, запуск скриптов, API только если вы разрешите), помнит задачу в рамках сессии или базы знаний. На своём ПК это может быть связка: локальная LLM + слой оркестрации (LangGraph, CrewAI, простой Python-скрипт с циклом «подумал — вызвал функцию — прочитал результат»). Начните с одного инструмента — например, чтение папки с заметками — и расширяйте.

Блок-схема как морская карта: узлы Request, Tool, Answer, красные маршруты, роботы-капитаны на пергаментных платформах — Flowchart as nautical map: nodes 'Request' → 'Think' → 'Tool: read file' → 'Answer', drawn on parchment texture, red route line, yellow compass rose, tiny robot captain icons at each step, whimsical but readable.

Маршрут на один вечер

Установить Ollama или LM Studio, включить использование GPU в настройках драйвера.
Скачать квантованную 7B–8B модель и проверить скорость ответа на коротком промпте.
Поднять простой API на localhost и вызвать его из скрипта или любимого редактора.
Добавить одну осмысленную «способность» — поиск по текстовым файлам в каталоге.
Зафиксировать версии модели и софта, чтобы через месяц воспроизвести окружение.

Следующий шаг: физический агент и автономный разговор

Если хочется не просто «болтать с чатом», а дать агенту тело, идея почти прямая: тот же мини-ПК с GPU, дальше — микрофон и динамики, а поверх вы подключаете голосовой интерфейс (распознавание речи + синтез речи) и простую логику «слушать — отвечать — действовать». На практике это может быть что угодно: манипулятор, тележка, платформа вроде OpenClaw или даже домашний дрон, который умеет взаимодействовать с вами в реальном времени.

В таком сценарии особенно важны задержки: когда ответ приходит быстро, «почти автономный» темп разговора становится реальнее. Некоторые более крупные модели (например, gpt-oss-120b) при достаточных ресурсах обещают высокую скорость генерации. Но цифры зависят от оптимизаций и от того, как именно вы запускаете модель — поэтому начните с малого и проверьте ощущение «вживую».

И если тренд на больше VRAM на потребительском железе продолжится, следующий шаг может быть уже не мечтой: у вас появится агент, который не только говорит, но и перемещается, смотрит и помогает. Очень хочется такое завести себе.

Честные ограничения

Локальная маленькая модель не заменит топовый облачный кластер на сложных рассуждениях. Зато она предсказуема, рядом и ваша. Как хороший боцман: не всезнайка, зато не сдаст корабль, когда связь пропала.

Робот-капитан на бушприте трёхмачтового корабля на закате, золотое небо и спокойное море — Epilogue scene: robot captain on the bowsprit of a three-masted ship at sunset, sky in gradients of gold yellow and coral red, sails full, calm sea, silhouette dramatic, inspirational poster composition, no text.

Если соберёте свою связку и захотите поделиться опытом — напишите. Ватоко как раз про то, чтобы ваше присутствие в сети (и вне её) оставалось вашим.