#!/bin/bash
# Wait for RPC server on 4080 to be ready
for i in $(seq 1 60); do
    nc -z 192.168.31.58 50052 2>/dev/null && break
    sleep 2
done

exec /home/serv3090/llama.cpp/build-clang/bin/llama-server \
  --model /home/serv3090/models/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K.gguf \
  --rpc 192.168.31.58:50052 \
  --n-gpu-layers 99 \
  --tensor-split 0.35,0.65 \
  --host 0.0.0.0 \
  --port 8081 \
  --ctx-size 32768