Домашний LLM-сервер: оптимальная сборка 2026

⚙ 4 варианта сборки

Рекомендуемый

RTX Pro 6000 96GB

VRAM96 GB GDDR7

Bandwidth1.8 TB/s

Скорость 70B Q825-35 tok/s

Стоимость~$11K / 455K грн

Потребление~900W

ШумТихо

Бюджетный

4x RTX 3090 на EPYC

VRAM4x 24GB = 96GB

Bandwidth4x 936 GB/s

Скорость 70B Q414-18 tok/s

Стоимость~$5.5K / 230K грн

Потребление~1600W

ШумГромко

Альтернатива

Mac Studio M4 Ultra

Memory192 GB unified

Bandwidth819 GB/s

Скорость 70B Q419-20 tok/s

Стоимость~$13K / 540K грн

Потребление~180W

ШумБесшумно

Баланс

2x RTX 6000 Ada

VRAM2x 48GB = 96GB

Bandwidth2x 960 GB/s

Скорость 72B Q822-28 tok/s

Стоимость~$12K / 500K грн

Потребление~800W

ШумСредне

⚡ Скорость инференса: 70B модель

Токены в секунду при генерации на Llama 3.3 70B / Qwen 72B

RTX Pro 6000 (Q8)

25-35 tok/s

2x RTX 6000 Ada (Q8)

22-28 tok/s

Mac Studio M4 Ultra (Q4)

19-20 tok/s

4x RTX 3090 (Q4)

14-18 tok/s

Mac Studio M4 Ultra (Q8)

10-12 tok/s

4x RTX 3090 (Q8)

9-12 tok/s

💾 VRAM 96GB: какие модели помещаются (Q8)

Qwen 2.5/3 72B — 73 GB

73 GB — модель

23 GB — KV-кеш

Llama 3.3 70B — 71 GB

71 GB — модель

25 GB — KV-кеш

Mistral Large 123B (Q6) — 92 GB

92 GB — модель

4 GB

Не хватит места для KV-кеша — модель не запустится

Веса модели KV-кеш (свободно) Переполнение

📊 Сводная таблица

Параметр	RTX Pro 6000	4x RTX 3090	Mac Studio	2x 6000 Ada
VRAM	96 GB	96 GB (split)	192 GB (unified)	96 GB (split)
Bandwidth	1.8 TB/s	3.7 TB/s (суммарно)	819 GB/s	1.9 TB/s
70B Q8 tok/s	25-35	9-12	10-12	22-28
Цена сборки	$11K	$5.5K	$13K	$12K
Потребление	900W	1600W	180W	800W
Шум	Тихо	Громко	Тихо	Средне
Сложность	Простая	Сложная	Простая	Средняя
CUDA / tool use	Полная	Полная	MLX (ограничения)	Полная
Масштабируемость	Ограничена	До 6-8 GPU	Нет	До 4 GPU

🤖 Лучшие модели для агентских задач (tool use)

Лучший для tool use

Qwen 2.5/3 72B

Q8 размер~73 GB

Function callingОтличный

На RTX Pro 600025-35 tok/s

Свободно для KV~23 GB

Надёжный выбор

Llama 3.3 70B

Q8 размер~71 GB

Function callingХороший

На RTX Pro 600025-35 tok/s

Свободно для KV~25 GB

Рассуждения

DeepSeek R1 70B

Q8 размер~71 GB

Function callingСредний

На RTX Pro 600020-30 tok/s

СилаРассуждения, логика

💻 Софт для инференса

Для агентских задач

vLLM

Multi-GPUTensor parallelism

Tool useОтличный

APIOpenAI-compatible

Лучший дляProduction, агенты

Простота

llama.cpp / llama-server

Multi-GPUPipeline (слабое)

Tool useХороший

ФорматGGUF

Лучший дляSingle user

Структурированный вывод

SGLang

Multi-GPUДа

Tool useОтличный

ФишкаJSON output, RAG

Лучший дляАгентские конвейеры

⚖ RTX Pro 6000: плюсы и минусы

Преимущества

96 GB в одной карте — нет multi-GPU проблем
1.8 TB/s bandwidth — быстрый инференс
FP4 / Blackwell — поддержка новейших форматов
Один PCIe слот — обычная ATX плата
Тихая работа в домашнем корпусе
Полная экосистема CUDA для tool use
Вписывается в бюджет с запасом $4-6K

Ограничения

600W TDP — нужен PSU 1200W+
Нет NVLink — нельзя объединить 2 карты
70B в FP16 (140 GB) не влезает
405B модели недоступны
Высокая цена GPU (~$9K)
Ограниченная доступность в Украине

⚠ Важные замечания

UPS обязателен

При отключениях электричества в Украине — APC Smart-UPS 3 kVA (~$800) минимум. Защита GPU и данных.

Растаможка GPU

При ввозе из-за границы: 10% пошлина + 20% НДС на сумму свыше 150 EUR. Для GPU за $9K — дополнительно ~$2,800.

Хранилище моделей

Каждая 70B Q8 модель — ~73 GB. Рекомендуется NAS с 20+ TB или быстрый NVMe 4TB для активных моделей.

Mac Studio: ограничения для агентов

MLX фреймворк отстаёт от CUDA на 6+ месяцев. Агентские фреймворки (vLLM, AutoGPT) оптимизированы под CUDA first.

Рекомендация: RTX Pro 6000 96GB

Оптимальный баланс скорости, простоты и совместимости для агентских задач. Запускает Qwen 72B / Llama 70B в Q8 с 25-35 tok/s на одной карте. Остаток бюджета — на UPS, NAS и стабилизатор.

~$11K / 455K грн