Локальные LLM для OpenClaw

Какую модель запустить на RTX 3090 (24 GB) для агентских задач
Апрель 2026 · NotebookLM · 20 источников
Главный вывод
На 24 ГБ VRAM ключевой барьер — не мощность модели, а баланс между размером модели и контекстным окном. Модели 30B+ при контексте 128K+ выходят за VRAM и падают до 1-6 tok/s.
🤖 Модели-кандидаты для 24 ГБ VRAM
Рекомендация

Qwen 3.5 9B

BFCL v466.1
VRAM (Q4)6.6 ГБ
Скорость40-55 tok/s
Контекст128K+
Свободно17 ГБ
Лучший tool calling

Qwen3.5 4B

Tool calling97.5%
VRAM (Q8)3.4 ГБ
Скорость48+ tok/s
Контекст262K
Свободно20+ ГБ
Высший BFCL

GLM-4.7-Flash

BFCL v374.6
VRAM18 ГБ
Скорость52 tok/s
Контекст200K
Свободно6 ГБ
Новинка апрель 2026

Gemma 4 26B MoE

FCНативный
VRAM (Q4)15.6 ГБ
Активных3.8B
Контекст256K
BFCLНет данных
Самая быстрая

Qwen 3 30B MoE

Активных3B
VRAM (Q4)18 ГБ
Скорость112 tok/s
Контекст128K
Свободно6 ГБ
Осторожно: VRAM

Qwen 3 32B

BFCL v375.7
VRAM (Q4)22.2 ГБ
Скорость18-24 tok/s
Контекст128K
Свободно<2 ГБ!
💾 VRAM: модель vs контекст (24 ГБ)
Qwen 3.5 9B (Q4_K_M) — 17 ГБ под контекст 128K
6.6 ГБ
17.4 ГБ свободно
Gemma 4 26B MoE (Q4) — 8 ГБ под контекст
15.6 ГБ
8.4 ГБ
GLM-4.7-Flash — 6 ГБ под контекст
18 ГБ
6 ГБ
Qwen 3 32B (Q4) — критически мало для контекста!
22.2 ГБ
1.8
Модель Свободно (KV-кэш / контекст) Критически мало
Квантизация: влияние на tool calling
Q8_0 (8.5 bpw)
~99% точности
Q6_K (6.6 bpw)
~97% near-lossless
Q5_K_M (5.3 bpw) ★
95-97% ЗОЛОТАЯ СЕРЕДИНА
Q4_K_M (4.5 bpw)
~92% (IFEval -10-20%)
Q3_K_M (3.85 bpw)
<90% НЕ ДЛЯ АГЕНТОВ
AWQ опасен для агентов
Вносит недетерминированность в генерацию. Нарушает instruction alignment. На IFEval уступает даже GPTQ-INT4.
GPTQ-INT8 — лучший для точности
Сохраняет максимальную точность tool calling. Рекомендуется для критичных агентских пайплайнов через vLLM.
Бэкенды: Ollama vs vLLM vs llama.cpp

Ollama (Рекомендация)

  • Нативная интеграция с OpenClaw
  • Tool calling из коробки (v0.17.6+)
  • Автосвоп моделей
  • ~89 tok/s (1 юзер)
  • Flash Attention
  • Context compaction (v0.17.7+)

vLLM (Production)

  • OpenAI-совместимый API
  • PagedAttention (экономия VRAM)
  • Multi-user: 35x быстрее llama.cpp
  • GPTQ + AWQ поддержка
  • Guided JSON output
  • Резервирует 90% VRAM

llama.cpp (Контроль)

  • 161 tok/s (1 юзер, лучший)
  • CPU/GPU гибрид
  • GGUF: Q2-Q8 квантизация
  • Кросс-платформенный
  • Tool calling ограничен
  • Нет continuous batching
📈 Где смотреть бенчмарки для агентов

BFCL

ЧтоTool calling
СтандартДе-факто
ЛидерGLM 4.5: 76.7%

SWE-bench

ЧтоКодинг агент
ЗадачаGitHub issues
ЛидерQwen3.6+: 78.8%

Tau-bench

ЧтоE2E агент
ЗадачаЦепочки tools
ЛидерQwen 3.5 9B

LiveBench

ЧтоAgentic coding
ЗащитаAnti-contamination
ЛидерGLM-5: 55.00
🏆 Итоговая рекомендация: Quick Start
Модель
Qwen 3.5 9B
BFCL 66.1 · Q5_K_M
~8 ГБ VRAM
Бэкенд
Ollama v0.17.7+
Tool calling
Flash Attention
Контекст
128K токенов
~16 ГБ свободно
40-55 tok/s
# Установка
ollama pull qwen3.5:9b

# Настройка окружения
export OLLAMA_FLASH_ATTENTION=1
export OLLAMA_CONTEXT_LENGTH=131072

# Запуск OpenClaw
ollama launch openclaw

# Безопасность: temperature 0.1, Docker обязателен
🔒 Безопасность агента
Docker-изоляция обязательна
Non-root user, read-only FS, dropped capabilities. Агент с shell-доступом может нанести вред системе.
26% плагинов ClawHub уязвимы
Проверяйте код skills перед установкой. Используйте только встроенные инструменты.
Контроль инструментов
В openclaw.json: для exec установите "ask": "on". Bind: 127.0.0.1 — 135K+ инстансов публично доступны.