GPU distribuída

Frente estratégica da plataforma GPU pra pesquisa em humanidades digitais. Visa serving (vLLM, SGLang), batch (fine-tuning Unsloth, OCR Docling, dataset generation), e scheduling cross-site (MultiKueue) sobre cluster GPU SP + cluster GPU Franca futuro.

Sub-temas

Visão geral / arquitetura — 4 camadas, 41 componentes
Uso distribuído — cross-site scheduling

Articulação com camadas e transversais

Camada	Papel
0 — Virtualização	Hardware GPU (A5000 SP, A5500 Franca) + tiers
5 — K8s runtime	K3s standalone GPU (SP) ou parte de cluster (Franca)
6 — K8s networking	flannel em SP (Tier 3 LXC), Cilium em Franca (Tier 2A VM)
7 — GitOps	ArgoCD multi-cluster registra clusters GPU
8 — Multi-cluster	MultiKueue cross-site pra batch jobs
9 — Workloads	vLLM, SGLang, Kueue, HAMi, MLflow, DVC, Qdrant

Transversal	Papel
IAM	Autenticação de pesquisadores submitendo jobs
Observabilidade	nvidia-smi, dcgm-exporter, Hubble
Cost attribution	OpenCost por projeto (FAPESP)

Estado

✅ gpu-sp-01 (LXC + K3s + A5000) em produção
❌ HAMi / NVIDIA Device Plugin
❌ vLLM / SGLang em produção
❌ Kueue + MultiKueue
🔮 Cluster GPU Franca em VM (Tier 2A)
🔮 Conector Grid Unesp / HPC externo

Ver ADR-009 pra arquitetura assimétrica SP/Franca.