Gemma 4 26B MoE — характеристики
VRAM: модель + контекст на RTX 3090
Gemma 4 26B MoE ~16 ГБ
~8 ГБ контекст
Модель (Q4)
Свободно для KV-кэша (24-65K токенов)
1 Установка Ollama и загрузка модели
curl -fsSL https://ollama.com/install.sh | sh
ollama pull gemma4:26b
ollama list
Загрузка ~16 ГБ. После скачивания модель готова к использованию. Убедитесь что в списке появилась gemma4:26b.
2 Настройка Environment Variables
По умолчанию Ollama выделяет контекст в 2048 токенов — это ломает агентов. Обязательно настройте переменные до запуска.
OLLAMA_NUM_CTX=24576
OLLAMA_FLASH_ATTENTION=1
OLLAMA_KV_CACHE_TYPE=q8_0
OLLAMA_KEEP_ALIVE=1h
CUDA_VISIBLE_DEVICES=0
sudo systemctl edit ollama
Environment="OLLAMA_NUM_CTX=24576"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_KEEP_ALIVE=1h"
sudo systemctl restart ollama
Без OLLAMA_NUM_CTX агент сломается
Дефолтные 2048 токенов — агент потеряет начало задачи через пару вызовов инструментов. Ошибки не будет, просто мусорный результат.
3 Конфигурация OpenClaw
Используйте нативный API, НЕ /v1
Если указать http://localhost:11434/v1 — tool calling сломается. Модель будет выдавать сырой JSON как текст вместо вызова инструментов.
Остановите шлюз перед редактированием:
openclaw gateway stop
Отредактируйте ~/.openclaw/openclaw.json:
{
"models": {
"providers": {
"ollama": {
"baseUrl": "http://127.0.0.1:11434",
"apiKey": "ollama-local",
"api": "ollama",
"models": [{
"id": "gemma4:26b",
"name": "Gemma 4 26B MoE",
"reasoning": false,
"input": ["text", "image"],
"contextWindow": 24576,
"maxTokens": 65536,
"cost": { "input": 0, "output": 0 }
}]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/gemma4:26b"
}
}
}
}
Запустите шлюз:
openclaw gateway start
4 Проверка: работает ли tool calling?
Отправьте агенту три тестовых команды через Telegram / TUI / веб-интерфейс:
- 1 "What time is it?" — агент должен вызвать инструмент и вернуть текущее время
- 2 "List files in the current directory" — должен выполнить
ls через exec и показать результат
- 3 "Summarize this JSON: {"name": "test", "value": 42}" — должен вернуть текстовое описание
Все три отработали? Готово!
Ваш локальный AI-агент полностью функционален. Gemma 4 + OpenClaw работает на вашем железе, данные не покидают машину.
Tool calling не работает?
Проверьте: 1) baseUrl без /v1 2) "api": "ollama" в конфиге 3) Ollama запущена (ollama serve) 4) Модель загружена (ollama list)
5 Подводные камни
Не используйте /v1 endpoint
OpenAI-совместимый /v1 ломает tool calling в Ollama. Используйте нативный http://127.0.0.1:11434 и "api": "ollama".
Не редактируйте конфиг при работающем шлюзе
OpenClaw Gateway перезаписывает openclaw.json из памяти. Всегда: gateway stop → правки → gateway start.
apiKey обязателен (даже фиктивный)
Без "apiKey" шлюз молча удалит конфиг провайдера при перезагрузке. Ставьте "ollama-local".
Не включайте OLLAMA_MULTIUSER_CACHE
В связке с OLLAMA_NUM_PARALLEL вызывает краш GGML_ASSERT. Не используйте — сэкономите ~0.8 ГБ VRAM.
Temperature = 0.1 для агентов
Минимизирует галлюцинации и обеспечивает детерминированный вызов инструментов.
6 Fallback-модель (рекомендуется)
Для максимальной надёжности держите резервную модель. В сообществе OpenClaw комбо основная + GLM-4.7-Flash называют "Local God Team".
Основная
Gemma 4 26B
~16 ГБ · 85.5% tau2
Нативный FC · 256K
➔
Fallback (тяжёлый)
GLM-4.7-Flash
~18 ГБ · 95% tool calling
"Local God Team"
➔
Fallback (лёгкий)
Qwen 3.5 9B
~6.6 ГБ · BFCL 66.1
40-55 tok/s
ollama pull glm-4.7-flash
ollama pull qwen3.5:9b
Quick Reference — все команды
curl -fsSL https://ollama.com/install.sh | sh
ollama pull gemma4:26b
export OLLAMA_NUM_CTX=24576
export OLLAMA_FLASH_ATTENTION=1
export OLLAMA_KV_CACHE_TYPE=q8_0
export OLLAMA_KEEP_ALIVE=1h
sudo systemctl restart ollama
openclaw gateway stop
openclaw gateway start
openclaw gateway status