Локальные LLM для OpenClaw

Главный вывод

На 24 ГБ VRAM ключевой барьер — не мощность модели, а баланс между размером модели и контекстным окном. Модели 30B+ при контексте 128K+ выходят за VRAM и падают до 1-6 tok/s.

🤖 Модели-кандидаты для 24 ГБ VRAM

Рекомендация

Qwen 3.5 9B

BFCL v466.1

VRAM (Q4)6.6 ГБ

Скорость40-55 tok/s

Контекст128K+

Свободно17 ГБ

Лучший tool calling

Qwen3.5 4B

Tool calling97.5%

VRAM (Q8)3.4 ГБ

Скорость48+ tok/s

Контекст262K

Свободно20+ ГБ

Высший BFCL

GLM-4.7-Flash

BFCL v374.6

VRAM18 ГБ

Скорость52 tok/s

Контекст200K

Свободно6 ГБ

Новинка апрель 2026

Gemma 4 26B MoE

FCНативный

VRAM (Q4)15.6 ГБ

Активных3.8B

Контекст256K

BFCLНет данных

Самая быстрая

Qwen 3 30B MoE

Активных3B

VRAM (Q4)18 ГБ

Скорость112 tok/s

Контекст128K

Свободно6 ГБ

Осторожно: VRAM

Qwen 3 32B

BFCL v375.7

VRAM (Q4)22.2 ГБ

Скорость18-24 tok/s

Контекст128K

Свободно<2 ГБ!

💾 VRAM: модель vs контекст (24 ГБ)

Qwen 3.5 9B (Q4_K_M) — 17 ГБ под контекст 128K

6.6 ГБ

17.4 ГБ свободно

Gemma 4 26B MoE (Q4) — 8 ГБ под контекст

15.6 ГБ

8.4 ГБ

GLM-4.7-Flash — 6 ГБ под контекст

18 ГБ

6 ГБ

Qwen 3 32B (Q4) — критически мало для контекста!

22.2 ГБ

1.8

Модель Свободно (KV-кэш / контекст) Критически мало

⚖ Квантизация: влияние на tool calling

Q8_0 (8.5 bpw)

~99% точности

Q6_K (6.6 bpw)

~97% near-lossless

Q5_K_M (5.3 bpw) ★

95-97% ЗОЛОТАЯ СЕРЕДИНА

Q4_K_M (4.5 bpw)

~92% (IFEval -10-20%)

Q3_K_M (3.85 bpw)

<90% НЕ ДЛЯ АГЕНТОВ

AWQ опасен для агентов

Вносит недетерминированность в генерацию. Нарушает instruction alignment. На IFEval уступает даже GPTQ-INT4.

GPTQ-INT8 — лучший для точности

Сохраняет максимальную точность tool calling. Рекомендуется для критичных агентских пайплайнов через vLLM.

⚙ Бэкенды: Ollama vs vLLM vs llama.cpp

Ollama (Рекомендация)

Нативная интеграция с OpenClaw
Tool calling из коробки (v0.17.6+)
Автосвоп моделей
~89 tok/s (1 юзер)
Flash Attention
Context compaction (v0.17.7+)

vLLM (Production)

OpenAI-совместимый API
PagedAttention (экономия VRAM)
Multi-user: 35x быстрее llama.cpp
GPTQ + AWQ поддержка
Guided JSON output
Резервирует 90% VRAM

llama.cpp (Контроль)

161 tok/s (1 юзер, лучший)
CPU/GPU гибрид
GGUF: Q2-Q8 квантизация
Кросс-платформенный
Tool calling ограничен
Нет continuous batching

📈 Где смотреть бенчмарки для агентов

BFCL

ЧтоTool calling

СтандартДе-факто

ЛидерGLM 4.5: 76.7%

SWE-bench

ЧтоКодинг агент

ЗадачаGitHub issues

ЛидерQwen3.6+: 78.8%

Tau-bench

ЧтоE2E агент

ЗадачаЦепочки tools

ЛидерQwen 3.5 9B

LiveBench

ЧтоAgentic coding

ЗащитаAnti-contamination

ЛидерGLM-5: 55.00

🏆 Итоговая рекомендация: Quick Start

Модель

Qwen 3.5 9B

BFCL 66.1 · Q5_K_M
~8 ГБ VRAM

➔

Бэкенд

Ollama v0.17.7+

Tool calling
Flash Attention

➔

Контекст

128K токенов

~16 ГБ свободно
40-55 tok/s

# Установка
ollama pull qwen3.5:9b

# Настройка окружения
export OLLAMA_FLASH_ATTENTION=1
export OLLAMA_CONTEXT_LENGTH=131072

# Запуск OpenClaw
ollama launch openclaw

# Безопасность: temperature 0.1, Docker обязателен

🔒 Безопасность агента

Docker-изоляция обязательна

Non-root user, read-only FS, dropped capabilities. Агент с shell-доступом может нанести вред системе.

26% плагинов ClawHub уязвимы

Проверяйте код skills перед установкой. Используйте только встроенные инструменты.

Контроль инструментов

В openclaw.json: для exec установите "ask": "on". Bind: 127.0.0.1 — 135K+ инстансов публично доступны.