OpenClaw + Gemma 4 — Гайд для RTX 3090

Gemma 4 26B MoE — характеристики

26B

Параметров всего

3.8B

Активных (MoE)

~16 ГБ

VRAM при Q4

256K

Макс. контекст

85.5%

tau2-bench

~100+

tok/s (MoE)

VRAM: модель + контекст на RTX 3090

Gemma 4 26B MoE ~16 ГБ

~8 ГБ контекст

Модель (Q4) Свободно для KV-кэша (24-65K токенов)

1 Установка Ollama и загрузка модели

# Установка Ollama curl -fsSL https://ollama.com/install.sh | sh # Загрузка Gemma 4 26B MoE ollama pull gemma4:26b # Проверка ollama list

Загрузка ~16 ГБ. После скачивания модель готова к использованию. Убедитесь что в списке появилась gemma4:26b.

2 Настройка Environment Variables

По умолчанию Ollama выделяет контекст в 2048 токенов — это ломает агентов. Обязательно настройте переменные до запуска.

# Добавьте в ~/.bashrc или /etc/environment OLLAMA_NUM_CTX=24576 # Контекст 24K (оптимум для 24GB) OLLAMA_FLASH_ATTENTION=1 # Экономия VRAM на длинном контексте OLLAMA_KV_CACHE_TYPE=q8_0 # Квантует KV-кэш (экономия ~50%) OLLAMA_KEEP_ALIVE=1h # Модель в VRAM 1 час (без холодных стартов) CUDA_VISIBLE_DEVICES=0 # Привязка к GPU 0

# Для systemd (Linux) sudo systemctl edit ollama # Добавьте в секцию [Service]: Environment="OLLAMA_NUM_CTX=24576" Environment="OLLAMA_FLASH_ATTENTION=1" Environment="OLLAMA_KV_CACHE_TYPE=q8_0" Environment="OLLAMA_KEEP_ALIVE=1h" # Перезапуск sudo systemctl restart ollama

Без OLLAMA_NUM_CTX агент сломается

Дефолтные 2048 токенов — агент потеряет начало задачи через пару вызовов инструментов. Ошибки не будет, просто мусорный результат.

3 Конфигурация OpenClaw

Используйте нативный API, НЕ /v1

Если указать http://localhost:11434/v1 — tool calling сломается. Модель будет выдавать сырой JSON как текст вместо вызова инструментов.

Остановите шлюз перед редактированием:

openclaw gateway stop

Отредактируйте ~/.openclaw/openclaw.json:

{ "models": { "providers": { "ollama": { "baseUrl": "http://127.0.0.1:11434", // НЕ /v1! "apiKey": "ollama-local", // Фиктивный, но обязательный "api": "ollama", // Нативный протокол "models": [{ "id": "gemma4:26b", "name": "Gemma 4 26B MoE", "reasoning": false, "input": ["text", "image"], "contextWindow": 24576, "maxTokens": 65536, "cost": { "input": 0, "output": 0 } }] } } }, "agents": { "defaults": { "model": { "primary": "ollama/gemma4:26b" } } } }

Запустите шлюз:

openclaw gateway start

4 Проверка: работает ли tool calling?

Отправьте агенту три тестовых команды через Telegram / TUI / веб-интерфейс:

1 "What time is it?" — агент должен вызвать инструмент и вернуть текущее время
2 "List files in the current directory" — должен выполнить ls через exec и показать результат
3 "Summarize this JSON: {"name": "test", "value": 42}" — должен вернуть текстовое описание

Все три отработали? Готово!

Ваш локальный AI-агент полностью функционален. Gemma 4 + OpenClaw работает на вашем железе, данные не покидают машину.

Tool calling не работает?

Проверьте: 1) baseUrl без /v1 2) "api": "ollama" в конфиге 3) Ollama запущена (ollama serve) 4) Модель загружена (ollama list)

5 Подводные камни

Не используйте /v1 endpoint

OpenAI-совместимый /v1 ломает tool calling в Ollama. Используйте нативный http://127.0.0.1:11434 и "api": "ollama".

Не редактируйте конфиг при работающем шлюзе

OpenClaw Gateway перезаписывает openclaw.json из памяти. Всегда: gateway stop → правки → gateway start.

apiKey обязателен (даже фиктивный)

Без "apiKey" шлюз молча удалит конфиг провайдера при перезагрузке. Ставьте "ollama-local".

Не включайте OLLAMA_MULTIUSER_CACHE

В связке с OLLAMA_NUM_PARALLEL вызывает краш GGML_ASSERT. Не используйте — сэкономите ~0.8 ГБ VRAM.

Temperature = 0.1 для агентов

Минимизирует галлюцинации и обеспечивает детерминированный вызов инструментов.

6 Fallback-модель (рекомендуется)

Для максимальной надёжности держите резервную модель. В сообществе OpenClaw комбо основная + GLM-4.7-Flash называют "Local God Team".

Основная

Gemma 4 26B

~16 ГБ · 85.5% tau2
Нативный FC · 256K

➔

Fallback (тяжёлый)

GLM-4.7-Flash

~18 ГБ · 95% tool calling
"Local God Team"

➔

Fallback (лёгкий)

Qwen 3.5 9B

~6.6 ГБ · BFCL 66.1
40-55 tok/s

# Скачайте резервные модели ollama pull glm-4.7-flash ollama pull qwen3.5:9b

Quick Reference — все команды

# 1. Установка curl -fsSL https://ollama.com/install.sh | sh ollama pull gemma4:26b # 2. Environment (добавить в ~/.bashrc) export OLLAMA_NUM_CTX=24576 export OLLAMA_FLASH_ATTENTION=1 export OLLAMA_KV_CACHE_TYPE=q8_0 export OLLAMA_KEEP_ALIVE=1h # 3. Перезапуск Ollama sudo systemctl restart ollama # 4. Конфиг OpenClaw openclaw gateway stop # Редактируем ~/.openclaw/openclaw.json # baseUrl: http://127.0.0.1:11434 (НЕ /v1!) # api: "ollama" # primary: "ollama/gemma4:26b" openclaw gateway start # 5. Проверка openclaw gateway status