Tiers de hardware — categorização por capacidade GPU/display

Categorização dos hosts Proxmox por capacidade de display local e GPU dedicada pra workload. A escolha entre Cilium em VM (caminho documentado) ou LXC privileged (exceção) depende diretamente desta categorização — não é regra única.

Por que isso importa

Cilium em VM é o caminho suportado upstream (ADR-002). Mas pra hosts Tier 3 (sem iGPU + GPU dedicada usada pra display + workload), VM com PCIe passthrough faz Proxmox host perder o display — incompatível com uso de bancada.

A solução pragmática é diferenciar arquitetura por hardware, não forçar padronização total.

Os 4 tiers

Tier 1 — Server rack (sem display local)

Característica
Display físico	❌ rack/headless
iGPU	irrelevante
GPU dedicada	irrelevante
Arquitetura recomendada	Proxmox + VM + Cilium

Hosts:

Host	CPU	Notas
`pve-ippri-11`	server-class	server rack
`pve-ippri-12`	server-class	server rack

Caminho: VM Debian + K3s + Cilium 1.16+ — caminho documentado upstream. Sem dor.

Tier 2A — Workstation com iGPU + NVIDIA dedicada (GPU compute)

Característica
Display físico	✅ ativo
iGPU	✅ usado pra Proxmox host display
GPU dedicada (NVIDIA)	✅ disponível pra workload via passthrough
Arquitetura recomendada	Proxmox + VM + Cilium + NVIDIA passthrough

Hosts:

Host	CPU	NVIDIA	Site
`pve-ippri-34`	Ryzen com iGPU	A5000	SP
`pve-labri-31`	Ryzen com iGPU	A5500	Franca
`pve-labri-32`	Ryzen 9 7950X3D (iGPU RDNA)	A5500	Franca
`pve-labri-33`	Ryzen com iGPU	A5500	Franca

Caminho: Proxmox host usa iGPU pro GNOME desktop. NVIDIA dedicada vai via PCIe passthrough pra VM K3s. Cilium em VM funciona normalmente. Pesquisador pode trabalhar localmente (display ativo) enquanto VM roda workload GPU.

Implicação: cluster GPU Franca é candidato natural a esse tier (pve-labri-31/32/33 com A5500). Permite Cilium suportado upstream + GPU compute + bancada de pesquisador convivendo.

Tier 2B — Workstation com GPU básica (display-only)

Característica
Display físico	✅ ativo
iGPU	parcial — GPU básica usa apenas pra display
GPU dedicada workload	❌ não tem NVIDIA pra compute
Arquitetura recomendada	Proxmox + VM + Cilium (sem workload GPU)

Hosts:

Host	Site
`pve-ippri-32`	SP
`pve-labri-21`	Franca
`pve-labri-22`	Franca

Caminho: Proxmox host usa GPU básica pra display do GNOME. VMs rodam apps sem workload GPU. Cilium em VM funciona normalmente. Esses hosts servem como workers do cluster K3s principal, não cluster GPU.

Tier 3 — Workstation com NVIDIA pra display + workload (sem iGPU)

Característica
Display físico	✅ via NVIDIA
iGPU	❌ ausente
GPU dedicada	✅ NVIDIA usada simultaneamente pra display + workload
Arquitetura recomendada	Proxmox + LXC privileged + driver compartilhado

Hosts:

Host	NVIDIA	Cluster atual	Site
`pve-ippri-31`	A5000	`gpu-sp-01` (LXC) ✅ produção	SP
`pve-ippri-33`	A5000	candidato a `gpu-sp-02` futuro	SP

Caminho: GPU é única opção de display e única opção de workload. PCIe passthrough pra VM tira display do host. LXC privileged compartilha driver via mount de /dev/nvidia*.

Restrição: sem Cilium nesse tier — Cilium em LXC privileged é território não-suportado upstream. Cluster K3s desses hosts usa flannel default, não participa de ClusterMesh principal.

Justificativa: o ganho de Cilium não compensa o custo de perder display físico (uso de bancada). Comunicação cross-cluster GPU↔principal via Traefik HTTP cobre o caso de uso (vLLM/TGI são HTTP nativos).

Ver ADR-005 e ADR-009 pra detalhes.

Resumo da arquitetura por host

Host	Tier	Cluster K3s	CNI	GPU strategy
`pve-ippri-11`	1	K3s SP “principal” (control plane?)	Cilium em VM	—
`pve-ippri-12`	1	K3s SP “principal” (worker)	Cilium em VM	—
`pve-ippri-31`	3	K3s GPU SP `gpu-sp-01`	flannel em LXC	NVIDIA via dispositivos LXC
`pve-ippri-32`	2B	K3s SP “principal” (worker)	Cilium em VM	— (sem workload GPU aqui)
`pve-ippri-33`	3	K3s GPU SP `gpu-sp-02` (futuro)	flannel em LXC	NVIDIA via dispositivos LXC
`pve-ippri-34`	2A	K3s SP “principal” (worker GPU)	Cilium em VM	NVIDIA passthrough
`pve-labri-21`	2B	K3s Franca “principal” (worker)	Cilium em VM	—
`pve-labri-22`	2B	K3s Franca “principal” (worker)	Cilium em VM	—
`pve-labri-31`	2A	K3s GPU Franca (futuro)	Cilium em VM	A5500 passthrough
`pve-labri-32`	2A	K3s GPU Franca (futuro)	Cilium em VM	A5500 passthrough
`pve-labri-33`	2A	K3s GPU Franca (futuro)	Cilium em VM	A5500 passthrough

Implicação importante: GPU SP vs GPU Franca têm stacks diferentes

Site	Cluster GPU	Hosts	CNI	Por quê
SP	`gpu-sp-01/02` em LXC	ippri-31, 33 (Tier 3)	flannel	Hardware sem iGPU obriga
Franca	GPU Franca em VM	labri-31/32/33 (Tier 2A)	Cilium	Hardware com iGPU permite VM

Assimetria intencional, não problema. Diferença vem do hardware atual. ApplicationSet propaga apps em ambos sem precisar mesma CNI.

Roadmap de hardware refresh (Fase 4 do roadmap geral)

Próximas compras devem favorecer hardware com iGPU ou rack server headless:

❌ Evitar: Ryzen 3000/5000 sem G (sem iGPU + workstation chassi) — empurra pra Tier 3
✅ Preferir: Ryzen 7000+ X3D ou G-series (iGPU integrada)
✅ Preferir: Server rack headless (Tier 1)
✅ Compatível: Intel com iGPU

Quando hardware Tier 3 for substituído, padronização Cilium em VM completa.

Workstation realmente “multifuncional” — distinção honesta

A memória project_workstations.md antiga listava ippri-31/32/33/34 e labri-31/32/33 como “workstations multifuncionais”. Com mapeamento de tiers, distinção fica:

Workstation real (display ativo + bancada de pesquisador): ippri-34, labri-31/32/33 (Tier 2A) + ippri-32, labri-21/22 (Tier 2B)
Workstation chassi mas operação headless: ippri-11/12 (Tier 1, server-class)
Workstation com NVIDIA dedicada disputada: ippri-31/33 (Tier 3, situação herdada)

Apenas hosts Tier 2A/2B têm uso real de bancada. Tier 3 são GPU nodes que podiam ser bancada mas operam como compute (LXC + GPU passthrough pra workload).

Tiers de hardware — categorização por capacidade GPU/display

Por que isso importa

Os 4 tiers

Tier 1 — Server rack (sem display local)

Tier 2A — Workstation com iGPU + NVIDIA dedicada (GPU compute)

Tier 2B — Workstation com GPU básica (display-only)

Tier 3 — Workstation com NVIDIA pra display + workload (sem iGPU)

Resumo da arquitetura por host

Implicação importante: GPU SP vs GPU Franca têm stacks diferentes

Roadmap de hardware refresh (Fase 4 do roadmap geral)

Workstation realmente “multifuncional” — distinção honesta

Referências