⚙ 4 варианта сборки
Рекомендуемый
RTX Pro 6000 96GB
VRAM96 GB GDDR7
Bandwidth1.8 TB/s
Скорость 70B Q825-35 tok/s
Стоимость~$11K / 455K грн
Потребление~900W
ШумТихо
Бюджетный
4x RTX 3090 на EPYC
VRAM4x 24GB = 96GB
Bandwidth4x 936 GB/s
Скорость 70B Q414-18 tok/s
Стоимость~$5.5K / 230K грн
Потребление~1600W
ШумГромко
Альтернатива
Mac Studio M4 Ultra
Memory192 GB unified
Bandwidth819 GB/s
Скорость 70B Q419-20 tok/s
Стоимость~$13K / 540K грн
Потребление~180W
ШумБесшумно
Баланс
2x RTX 6000 Ada
VRAM2x 48GB = 96GB
Bandwidth2x 960 GB/s
Скорость 72B Q822-28 tok/s
Стоимость~$12K / 500K грн
Потребление~800W
ШумСредне
⚡ Скорость инференса: 70B модель
Токены в секунду при генерации на Llama 3.3 70B / Qwen 72B
💾 VRAM 96GB: какие модели помещаются (Q8)
Qwen 2.5/3 72B — 73 GB
73 GB — модель
23 GB — KV-кеш
Llama 3.3 70B — 71 GB
71 GB — модель
25 GB — KV-кеш
Mistral Large 123B (Q6) — 92 GB
Не хватит места для KV-кеша — модель не запустится
Веса модели
KV-кеш (свободно)
Переполнение
📊 Сводная таблица
| Параметр |
RTX Pro 6000 |
4x RTX 3090 |
Mac Studio |
2x 6000 Ada |
| VRAM | 96 GB | 96 GB (split) | 192 GB (unified) | 96 GB (split) |
| Bandwidth | 1.8 TB/s | 3.7 TB/s (суммарно) | 819 GB/s | 1.9 TB/s |
| 70B Q8 tok/s | 25-35 | 9-12 | 10-12 | 22-28 |
| Цена сборки | $11K | $5.5K | $13K | $12K |
| Потребление | 900W | 1600W | 180W | 800W |
| Шум | Тихо | Громко | Тихо | Средне |
| Сложность | Простая | Сложная | Простая | Средняя |
| CUDA / tool use | Полная | Полная | MLX (ограничения) | Полная |
| Масштабируемость | Ограничена | До 6-8 GPU | Нет | До 4 GPU |
🤖 Лучшие модели для агентских задач (tool use)
Лучший для tool use
Qwen 2.5/3 72B
Q8 размер~73 GB
Function callingОтличный
На RTX Pro 600025-35 tok/s
Свободно для KV~23 GB
Надёжный выбор
Llama 3.3 70B
Q8 размер~71 GB
Function callingХороший
На RTX Pro 600025-35 tok/s
Свободно для KV~25 GB
Рассуждения
DeepSeek R1 70B
Q8 размер~71 GB
Function callingСредний
На RTX Pro 600020-30 tok/s
СилаРассуждения, логика
💻 Софт для инференса
Для агентских задач
vLLM
Multi-GPUTensor parallelism
Tool useОтличный
APIOpenAI-compatible
Лучший дляProduction, агенты
Простота
llama.cpp / llama-server
Multi-GPUPipeline (слабое)
Tool useХороший
ФорматGGUF
Лучший дляSingle user
Структурированный вывод
SGLang
Multi-GPUДа
Tool useОтличный
ФишкаJSON output, RAG
Лучший дляАгентские конвейеры
⚖ RTX Pro 6000: плюсы и минусы
Преимущества
- 96 GB в одной карте — нет multi-GPU проблем
- 1.8 TB/s bandwidth — быстрый инференс
- FP4 / Blackwell — поддержка новейших форматов
- Один PCIe слот — обычная ATX плата
- Тихая работа в домашнем корпусе
- Полная экосистема CUDA для tool use
- Вписывается в бюджет с запасом $4-6K
Ограничения
- 600W TDP — нужен PSU 1200W+
- Нет NVLink — нельзя объединить 2 карты
- 70B в FP16 (140 GB) не влезает
- 405B модели недоступны
- Высокая цена GPU (~$9K)
- Ограниченная доступность в Украине
⚠ Важные замечания
UPS обязателен
При отключениях электричества в Украине — APC Smart-UPS 3 kVA (~$800) минимум. Защита GPU и данных.
Растаможка GPU
При ввозе из-за границы: 10% пошлина + 20% НДС на сумму свыше 150 EUR. Для GPU за $9K — дополнительно ~$2,800.
Хранилище моделей
Каждая 70B Q8 модель — ~73 GB. Рекомендуется NAS с 20+ TB или быстрый NVMe 4TB для активных моделей.
Mac Studio: ограничения для агентов
MLX фреймворк отстаёт от CUDA на 6+ месяцев. Агентские фреймворки (vLLM, AutoGPT) оптимизированы под CUDA first.
Рекомендация: RTX Pro 6000 96GB
Оптимальный баланс скорости, простоты и совместимости для агентских задач.
Запускает Qwen 72B / Llama 70B в Q8 с 25-35 tok/s на одной карте.
Остаток бюджета — на UPS, NAS и стабилизатор.
~$11K / 455K грн