Домашний LLM-сервер

Оптимальная сборка для локального инференса 70B+ моделей
Бюджет: 600-700K грн
VRAM: 96GB+
Апрель 2026
4 варианта сборки
Рекомендуемый

RTX Pro 6000 96GB

VRAM96 GB GDDR7
Bandwidth1.8 TB/s
Скорость 70B Q825-35 tok/s
Стоимость~$11K / 455K грн
Потребление~900W
ШумТихо
Бюджетный

4x RTX 3090 на EPYC

VRAM4x 24GB = 96GB
Bandwidth4x 936 GB/s
Скорость 70B Q414-18 tok/s
Стоимость~$5.5K / 230K грн
Потребление~1600W
ШумГромко
Альтернатива

Mac Studio M4 Ultra

Memory192 GB unified
Bandwidth819 GB/s
Скорость 70B Q419-20 tok/s
Стоимость~$13K / 540K грн
Потребление~180W
ШумБесшумно
Баланс

2x RTX 6000 Ada

VRAM2x 48GB = 96GB
Bandwidth2x 960 GB/s
Скорость 72B Q822-28 tok/s
Стоимость~$12K / 500K грн
Потребление~800W
ШумСредне
Скорость инференса: 70B модель

Токены в секунду при генерации на Llama 3.3 70B / Qwen 72B

RTX Pro 6000 (Q8)
25-35 tok/s
2x RTX 6000 Ada (Q8)
22-28 tok/s
Mac Studio M4 Ultra (Q4)
19-20 tok/s
4x RTX 3090 (Q4)
14-18 tok/s
Mac Studio M4 Ultra (Q8)
10-12 tok/s
4x RTX 3090 (Q8)
9-12 tok/s
💾 VRAM 96GB: какие модели помещаются (Q8)
Qwen 2.5/3 72B — 73 GB
73 GB — модель
23 GB — KV-кеш
Llama 3.3 70B — 71 GB
71 GB — модель
25 GB — KV-кеш
Mistral Large 123B (Q6) — 92 GB
92 GB — модель
4 GB
Не хватит места для KV-кеша — модель не запустится
Веса модели KV-кеш (свободно) Переполнение
📊 Сводная таблица
Параметр RTX Pro 6000 4x RTX 3090 Mac Studio 2x 6000 Ada
VRAM96 GB96 GB (split)192 GB (unified)96 GB (split)
Bandwidth1.8 TB/s3.7 TB/s (суммарно)819 GB/s1.9 TB/s
70B Q8 tok/s25-359-1210-1222-28
Цена сборки$11K$5.5K$13K$12K
Потребление900W1600W180W800W
ШумТихоГромкоТихоСредне
СложностьПростаяСложнаяПростаяСредняя
CUDA / tool useПолнаяПолнаяMLX (ограничения)Полная
МасштабируемостьОграниченаДо 6-8 GPUНетДо 4 GPU
🤖 Лучшие модели для агентских задач (tool use)
Лучший для tool use

Qwen 2.5/3 72B

Q8 размер~73 GB
Function callingОтличный
На RTX Pro 600025-35 tok/s
Свободно для KV~23 GB
Надёжный выбор

Llama 3.3 70B

Q8 размер~71 GB
Function callingХороший
На RTX Pro 600025-35 tok/s
Свободно для KV~25 GB
Рассуждения

DeepSeek R1 70B

Q8 размер~71 GB
Function callingСредний
На RTX Pro 600020-30 tok/s
СилаРассуждения, логика
💻 Софт для инференса
Для агентских задач

vLLM

Multi-GPUTensor parallelism
Tool useОтличный
APIOpenAI-compatible
Лучший дляProduction, агенты
Простота

llama.cpp / llama-server

Multi-GPUPipeline (слабое)
Tool useХороший
ФорматGGUF
Лучший дляSingle user
Структурированный вывод

SGLang

Multi-GPUДа
Tool useОтличный
ФишкаJSON output, RAG
Лучший дляАгентские конвейеры
RTX Pro 6000: плюсы и минусы

Преимущества

  • 96 GB в одной карте — нет multi-GPU проблем
  • 1.8 TB/s bandwidth — быстрый инференс
  • FP4 / Blackwell — поддержка новейших форматов
  • Один PCIe слот — обычная ATX плата
  • Тихая работа в домашнем корпусе
  • Полная экосистема CUDA для tool use
  • Вписывается в бюджет с запасом $4-6K

Ограничения

  • 600W TDP — нужен PSU 1200W+
  • Нет NVLink — нельзя объединить 2 карты
  • 70B в FP16 (140 GB) не влезает
  • 405B модели недоступны
  • Высокая цена GPU (~$9K)
  • Ограниченная доступность в Украине
Важные замечания
UPS обязателен
При отключениях электричества в Украине — APC Smart-UPS 3 kVA (~$800) минимум. Защита GPU и данных.
Растаможка GPU
При ввозе из-за границы: 10% пошлина + 20% НДС на сумму свыше 150 EUR. Для GPU за $9K — дополнительно ~$2,800.
Хранилище моделей
Каждая 70B Q8 модель — ~73 GB. Рекомендуется NAS с 20+ TB или быстрый NVMe 4TB для активных моделей.
Mac Studio: ограничения для агентов
MLX фреймворк отстаёт от CUDA на 6+ месяцев. Агентские фреймворки (vLLM, AutoGPT) оптимизированы под CUDA first.

Рекомендация: RTX Pro 6000 96GB

Оптимальный баланс скорости, простоты и совместимости для агентских задач. Запускает Qwen 72B / Llama 70B в Q8 с 25-35 tok/s на одной карте. Остаток бюджета — на UPS, NAS и стабилизатор.
~$11K / 455K грн