---
name: Локальная LLM инфраструктура
description: Локальная LLM инфраструктура — llama-server, Open WebUI, RPC кластер RTX 3090 + RTX 4080
type: reference
tags:
  - reference
  - llm
  - gpu
  - rpc
originSessionId: d0314dd5-f5fe-4b17-ade7-7c1adee61f99
---
## Два сервера в LAN

| Машина | GPU | VRAM | IP | Юзер |
|--------|-----|------|----|------|
| serv3090 (основной) | RTX 3090 | 24 GB | 192.168.31.129 | serv3090 |
| serv4080 | RTX 4080 | 16 GB | 192.168.31.58 | serv4080 |

- Связь: 2.5 Gbit LAN (RTL8125)
- SSH: serv3090 → serv4080 по ключу (ed25519), sudo NOPASSWD на обоих

## Распределённый инференс (RPC)

**Сервис на 4080** — `rpc-server.service` (systemd):
- `/home/serv4080/llama.cpp/build/bin/rpc-server -H 0.0.0.0 -p 50052`

**Сервис на 3090** — `llama-rpc.service` (systemd):
- Ждёт 4080 RPC перед стартом (ExecStartPre nc -z)
- `--rpc 192.168.31.58:50052 --tensor-split 0.35,0.65 --ctx-size 65536 --port 8081`
- Модель: HauhauCS 35B Q6_K (27 GB) — split: 3090=16.9GB, 4080=9.9GB
- Скорость: ~120 tok/s

**Управление:**
- `sudo systemctl start/stop/restart llama-rpc`
- `ssh serv4080@192.168.31.58 sudo systemctl start/stop/restart rpc-server`

## Софт на serv3090

- **llama-server** (llama.cpp) — `/home/serv3090/llama.cpp/build-clang/bin/llama-server`
- **Open WebUI** — порт 8080
- **Conduit** — Android-клиент
- **Ollama** — `/usr/local/bin/ollama serve`
- **ComfyUI**, **SearXNG**, **Tor**

## Модели (~/models/)

- Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf (18 GB) — основная (одна GPU)
- Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K.gguf (27 GB) — качественная (RPC, две GPU)
- Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-Q8_0.gguf (10 GB) — быстрая/лёгкая
- gemma-4-31B-it-Q4_K_M.gguf (18 GB)

## Рекомендуемые параметры (Qwen)

- Thinking mode: temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5
- Coding: temperature=0.6, top_p=0.95, top_k=20, presence_penalty=0
