GPU distribuída
Frente estratégica da plataforma GPU pra pesquisa em humanidades digitais. Visa serving (vLLM, SGLang), batch (fine-tuning Unsloth, OCR Docling, dataset generation), e scheduling cross-site (MultiKueue) sobre cluster GPU SP + cluster GPU Franca futuro.
Sub-temas
- Visão geral / arquitetura — 4 camadas, 41 componentes
- Uso distribuído — cross-site scheduling
Articulação com camadas e transversais
| Camada | Papel |
|---|---|
| 0 — Virtualização | Hardware GPU (A5000 SP, A5500 Franca) + tiers |
| 5 — K8s runtime | K3s standalone GPU (SP) ou parte de cluster (Franca) |
| 6 — K8s networking | flannel em SP (Tier 3 LXC), Cilium em Franca (Tier 2A VM) |
| 7 — GitOps | ArgoCD multi-cluster registra clusters GPU |
| 8 — Multi-cluster | MultiKueue cross-site pra batch jobs |
| 9 — Workloads | vLLM, SGLang, Kueue, HAMi, MLflow, DVC, Qdrant |
| Transversal | Papel |
|---|---|
| IAM | Autenticação de pesquisadores submitendo jobs |
| Observabilidade | nvidia-smi, dcgm-exporter, Hubble |
| Cost attribution | OpenCost por projeto (FAPESP) |
Estado
- ✅
gpu-sp-01(LXC + K3s + A5000) em produção - ❌ HAMi / NVIDIA Device Plugin
- ❌ vLLM / SGLang em produção
- ❌ Kueue + MultiKueue
- 🔮 Cluster GPU Franca em VM (Tier 2A)
- 🔮 Conector Grid Unesp / HPC externo
Ver ADR-009 pra arquitetura assimétrica SP/Franca.