Главный вывод
На 24 ГБ VRAM ключевой барьер — не мощность модели, а баланс между размером модели и контекстным окном. Модели 30B+ при контексте 128K+ выходят за VRAM и падают до 1-6 tok/s.
🤖 Модели-кандидаты для 24 ГБ VRAM
Рекомендация
Qwen 3.5 9B
BFCL v466.1
VRAM (Q4)6.6 ГБ
Скорость40-55 tok/s
Контекст128K+
Свободно17 ГБ
Лучший tool calling
Qwen3.5 4B
Tool calling97.5%
VRAM (Q8)3.4 ГБ
Скорость48+ tok/s
Контекст262K
Свободно20+ ГБ
Высший BFCL
GLM-4.7-Flash
BFCL v374.6
VRAM18 ГБ
Скорость52 tok/s
Контекст200K
Свободно6 ГБ
Новинка апрель 2026
Gemma 4 26B MoE
FCНативный
VRAM (Q4)15.6 ГБ
Активных3.8B
Контекст256K
BFCLНет данных
Самая быстрая
Qwen 3 30B MoE
Активных3B
VRAM (Q4)18 ГБ
Скорость112 tok/s
Контекст128K
Свободно6 ГБ
Осторожно: VRAM
Qwen 3 32B
BFCL v375.7
VRAM (Q4)22.2 ГБ
Скорость18-24 tok/s
Контекст128K
Свободно<2 ГБ!
💾 VRAM: модель vs контекст (24 ГБ)
Qwen 3.5 9B (Q4_K_M) — 17 ГБ под контекст 128K
Gemma 4 26B MoE (Q4) — 8 ГБ под контекст
GLM-4.7-Flash — 6 ГБ под контекст
Qwen 3 32B (Q4) — критически мало для контекста!
Модель
Свободно (KV-кэш / контекст)
Критически мало
⚖ Квантизация: влияние на tool calling
AWQ опасен для агентов
Вносит недетерминированность в генерацию. Нарушает instruction alignment. На IFEval уступает даже GPTQ-INT4.
GPTQ-INT8 — лучший для точности
Сохраняет максимальную точность tool calling. Рекомендуется для критичных агентских пайплайнов через vLLM.
⚙ Бэкенды: Ollama vs vLLM vs llama.cpp
Ollama (Рекомендация)
- Нативная интеграция с OpenClaw
- Tool calling из коробки (v0.17.6+)
- Автосвоп моделей
- ~89 tok/s (1 юзер)
- Flash Attention
- Context compaction (v0.17.7+)
vLLM (Production)
- OpenAI-совместимый API
- PagedAttention (экономия VRAM)
- Multi-user: 35x быстрее llama.cpp
- GPTQ + AWQ поддержка
- Guided JSON output
- Резервирует 90% VRAM
llama.cpp (Контроль)
- 161 tok/s (1 юзер, лучший)
- CPU/GPU гибрид
- GGUF: Q2-Q8 квантизация
- Кросс-платформенный
- Tool calling ограничен
- Нет continuous batching
📈 Где смотреть бенчмарки для агентов
BFCL
ЧтоTool calling
СтандартДе-факто
ЛидерGLM 4.5: 76.7%
SWE-bench
ЧтоКодинг агент
ЗадачаGitHub issues
ЛидерQwen3.6+: 78.8%
Tau-bench
ЧтоE2E агент
ЗадачаЦепочки tools
ЛидерQwen 3.5 9B
LiveBench
ЧтоAgentic coding
ЗащитаAnti-contamination
ЛидерGLM-5: 55.00
🏆 Итоговая рекомендация: Quick Start
Модель
Qwen 3.5 9B
BFCL 66.1 · Q5_K_M
~8 ГБ VRAM
➔
Бэкенд
Ollama v0.17.7+
Tool calling
Flash Attention
➔
Контекст
128K токенов
~16 ГБ свободно
40-55 tok/s
ollama pull qwen3.5:9b
export OLLAMA_FLASH_ATTENTION=1
export OLLAMA_CONTEXT_LENGTH=131072
ollama launch openclaw
🔒 Безопасность агента
Docker-изоляция обязательна
Non-root user, read-only FS, dropped capabilities. Агент с shell-доступом может нанести вред системе.
26% плагинов ClawHub уязвимы
Проверяйте код skills перед установкой. Используйте только встроенные инструменты.
Контроль инструментов
В openclaw.json: для exec установите "ask": "on". Bind: 127.0.0.1 — 135K+ инстансов публично доступны.