Tiers de hardware — categorização por capacidade GPU/display
Categorização dos hosts Proxmox por capacidade de display local e GPU dedicada pra workload. A escolha entre Cilium em VM (caminho documentado) ou LXC privileged (exceção) depende diretamente desta categorização — não é regra única.
Por que isso importa
Cilium em VM é o caminho suportado upstream (ADR-002). Mas pra hosts Tier 3 (sem iGPU + GPU dedicada usada pra display + workload), VM com PCIe passthrough faz Proxmox host perder o display — incompatível com uso de bancada.
A solução pragmática é diferenciar arquitetura por hardware, não forçar padronização total.
Os 4 tiers
Tier 1 — Server rack (sem display local)
| Característica | |
|---|---|
| Display físico | ❌ rack/headless |
| iGPU | irrelevante |
| GPU dedicada | irrelevante |
| Arquitetura recomendada | Proxmox + VM + Cilium |
Hosts:
| Host | CPU | Notas |
|---|---|---|
pve-ippri-11 | server-class | server rack |
pve-ippri-12 | server-class | server rack |
Caminho: VM Debian + K3s + Cilium 1.16+ — caminho documentado upstream. Sem dor.
Tier 2A — Workstation com iGPU + NVIDIA dedicada (GPU compute)
| Característica | |
|---|---|
| Display físico | ✅ ativo |
| iGPU | ✅ usado pra Proxmox host display |
| GPU dedicada (NVIDIA) | ✅ disponível pra workload via passthrough |
| Arquitetura recomendada | Proxmox + VM + Cilium + NVIDIA passthrough |
Hosts:
| Host | CPU | NVIDIA | Site |
|---|---|---|---|
pve-ippri-34 | Ryzen com iGPU | A5000 | SP |
pve-labri-31 | Ryzen com iGPU | A5500 | Franca |
pve-labri-32 | Ryzen 9 7950X3D (iGPU RDNA) | A5500 | Franca |
pve-labri-33 | Ryzen com iGPU | A5500 | Franca |
Caminho: Proxmox host usa iGPU pro GNOME desktop. NVIDIA dedicada vai via PCIe passthrough pra VM K3s. Cilium em VM funciona normalmente. Pesquisador pode trabalhar localmente (display ativo) enquanto VM roda workload GPU.
Implicação: cluster GPU Franca é candidato natural a esse tier (pve-labri-31/32/33 com A5500). Permite Cilium suportado upstream + GPU compute + bancada de pesquisador convivendo.
Tier 2B — Workstation com GPU básica (display-only)
| Característica | |
|---|---|
| Display físico | ✅ ativo |
| iGPU | parcial — GPU básica usa apenas pra display |
| GPU dedicada workload | ❌ não tem NVIDIA pra compute |
| Arquitetura recomendada | Proxmox + VM + Cilium (sem workload GPU) |
Hosts:
| Host | Site |
|---|---|
pve-ippri-32 | SP |
pve-labri-21 | Franca |
pve-labri-22 | Franca |
Caminho: Proxmox host usa GPU básica pra display do GNOME. VMs rodam apps sem workload GPU. Cilium em VM funciona normalmente. Esses hosts servem como workers do cluster K3s principal, não cluster GPU.
Tier 3 — Workstation com NVIDIA pra display + workload (sem iGPU)
| Característica | |
|---|---|
| Display físico | ✅ via NVIDIA |
| iGPU | ❌ ausente |
| GPU dedicada | ✅ NVIDIA usada simultaneamente pra display + workload |
| Arquitetura recomendada | Proxmox + LXC privileged + driver compartilhado |
Hosts:
| Host | NVIDIA | Cluster atual | Site |
|---|---|---|---|
pve-ippri-31 | A5000 | gpu-sp-01 (LXC) ✅ produção | SP |
pve-ippri-33 | A5000 | candidato a gpu-sp-02 futuro | SP |
Caminho: GPU é única opção de display e única opção de workload. PCIe passthrough pra VM tira display do host. LXC privileged compartilha driver via mount de /dev/nvidia*.
Restrição: sem Cilium nesse tier — Cilium em LXC privileged é território não-suportado upstream. Cluster K3s desses hosts usa flannel default, não participa de ClusterMesh principal.
Justificativa: o ganho de Cilium não compensa o custo de perder display físico (uso de bancada). Comunicação cross-cluster GPU↔principal via Traefik HTTP cobre o caso de uso (vLLM/TGI são HTTP nativos).
Ver ADR-005 e ADR-009 pra detalhes.
Resumo da arquitetura por host
| Host | Tier | Cluster K3s | CNI | GPU strategy |
|---|---|---|---|---|
pve-ippri-11 | 1 | K3s SP “principal” (control plane?) | Cilium em VM | — |
pve-ippri-12 | 1 | K3s SP “principal” (worker) | Cilium em VM | — |
pve-ippri-31 | 3 | K3s GPU SP gpu-sp-01 | flannel em LXC | NVIDIA via dispositivos LXC |
pve-ippri-32 | 2B | K3s SP “principal” (worker) | Cilium em VM | — (sem workload GPU aqui) |
pve-ippri-33 | 3 | K3s GPU SP gpu-sp-02 (futuro) | flannel em LXC | NVIDIA via dispositivos LXC |
pve-ippri-34 | 2A | K3s SP “principal” (worker GPU) | Cilium em VM | NVIDIA passthrough |
pve-labri-21 | 2B | K3s Franca “principal” (worker) | Cilium em VM | — |
pve-labri-22 | 2B | K3s Franca “principal” (worker) | Cilium em VM | — |
pve-labri-31 | 2A | K3s GPU Franca (futuro) | Cilium em VM | A5500 passthrough |
pve-labri-32 | 2A | K3s GPU Franca (futuro) | Cilium em VM | A5500 passthrough |
pve-labri-33 | 2A | K3s GPU Franca (futuro) | Cilium em VM | A5500 passthrough |
Implicação importante: GPU SP vs GPU Franca têm stacks diferentes
| Site | Cluster GPU | Hosts | CNI | Por quê |
|---|---|---|---|---|
| SP | gpu-sp-01/02 em LXC | ippri-31, 33 (Tier 3) | flannel | Hardware sem iGPU obriga |
| Franca | GPU Franca em VM | labri-31/32/33 (Tier 2A) | Cilium | Hardware com iGPU permite VM |
Assimetria intencional, não problema. Diferença vem do hardware atual. ApplicationSet propaga apps em ambos sem precisar mesma CNI.
Roadmap de hardware refresh (Fase 4 do roadmap geral)
Próximas compras devem favorecer hardware com iGPU ou rack server headless:
- ❌ Evitar: Ryzen 3000/5000 sem G (sem iGPU + workstation chassi) — empurra pra Tier 3
- ✅ Preferir: Ryzen 7000+ X3D ou G-series (iGPU integrada)
- ✅ Preferir: Server rack headless (Tier 1)
- ✅ Compatível: Intel com iGPU
Quando hardware Tier 3 for substituído, padronização Cilium em VM completa.
Workstation realmente “multifuncional” — distinção honesta
A memória project_workstations.md antiga listava ippri-31/32/33/34 e labri-31/32/33 como “workstations multifuncionais”. Com mapeamento de tiers, distinção fica:
- Workstation real (display ativo + bancada de pesquisador):
ippri-34,labri-31/32/33(Tier 2A) +ippri-32,labri-21/22(Tier 2B) - Workstation chassi mas operação headless:
ippri-11/12(Tier 1, server-class) - Workstation com NVIDIA dedicada disputada:
ippri-31/33(Tier 3, situação herdada)
Apenas hosts Tier 2A/2B têm uso real de bancada. Tier 3 são GPU nodes que podiam ser bancada mas operam como compute (LXC + GPU passthrough pra workload).