Skip to content

Tiers de hardware — categorização por capacidade GPU/display

Categorização dos hosts Proxmox por capacidade de display local e GPU dedicada pra workload. A escolha entre Cilium em VM (caminho documentado) ou LXC privileged (exceção) depende diretamente desta categorização — não é regra única.

Por que isso importa

Cilium em VM é o caminho suportado upstream (ADR-002). Mas pra hosts Tier 3 (sem iGPU + GPU dedicada usada pra display + workload), VM com PCIe passthrough faz Proxmox host perder o display — incompatível com uso de bancada.

A solução pragmática é diferenciar arquitetura por hardware, não forçar padronização total.

Os 4 tiers

Tier 1 — Server rack (sem display local)

Característica
Display físico❌ rack/headless
iGPUirrelevante
GPU dedicadairrelevante
Arquitetura recomendadaProxmox + VM + Cilium

Hosts:

HostCPUNotas
pve-ippri-11server-classserver rack
pve-ippri-12server-classserver rack

Caminho: VM Debian + K3s + Cilium 1.16+ — caminho documentado upstream. Sem dor.


Tier 2A — Workstation com iGPU + NVIDIA dedicada (GPU compute)

Característica
Display físico✅ ativo
iGPU✅ usado pra Proxmox host display
GPU dedicada (NVIDIA)✅ disponível pra workload via passthrough
Arquitetura recomendadaProxmox + VM + Cilium + NVIDIA passthrough

Hosts:

HostCPUNVIDIASite
pve-ippri-34Ryzen com iGPUA5000SP
pve-labri-31Ryzen com iGPUA5500Franca
pve-labri-32Ryzen 9 7950X3D (iGPU RDNA)A5500Franca
pve-labri-33Ryzen com iGPUA5500Franca

Caminho: Proxmox host usa iGPU pro GNOME desktop. NVIDIA dedicada vai via PCIe passthrough pra VM K3s. Cilium em VM funciona normalmente. Pesquisador pode trabalhar localmente (display ativo) enquanto VM roda workload GPU.

Implicação: cluster GPU Franca é candidato natural a esse tier (pve-labri-31/32/33 com A5500). Permite Cilium suportado upstream + GPU compute + bancada de pesquisador convivendo.


Tier 2B — Workstation com GPU básica (display-only)

Característica
Display físico✅ ativo
iGPUparcial — GPU básica usa apenas pra display
GPU dedicada workload❌ não tem NVIDIA pra compute
Arquitetura recomendadaProxmox + VM + Cilium (sem workload GPU)

Hosts:

HostSite
pve-ippri-32SP
pve-labri-21Franca
pve-labri-22Franca

Caminho: Proxmox host usa GPU básica pra display do GNOME. VMs rodam apps sem workload GPU. Cilium em VM funciona normalmente. Esses hosts servem como workers do cluster K3s principal, não cluster GPU.


Tier 3 — Workstation com NVIDIA pra display + workload (sem iGPU)

Característica
Display físico✅ via NVIDIA
iGPU❌ ausente
GPU dedicada✅ NVIDIA usada simultaneamente pra display + workload
Arquitetura recomendadaProxmox + LXC privileged + driver compartilhado

Hosts:

HostNVIDIACluster atualSite
pve-ippri-31A5000gpu-sp-01 (LXC) ✅ produçãoSP
pve-ippri-33A5000candidato a gpu-sp-02 futuroSP

Caminho: GPU é única opção de display e única opção de workload. PCIe passthrough pra VM tira display do host. LXC privileged compartilha driver via mount de /dev/nvidia*.

Restrição: sem Cilium nesse tier — Cilium em LXC privileged é território não-suportado upstream. Cluster K3s desses hosts usa flannel default, não participa de ClusterMesh principal.

Justificativa: o ganho de Cilium não compensa o custo de perder display físico (uso de bancada). Comunicação cross-cluster GPU↔principal via Traefik HTTP cobre o caso de uso (vLLM/TGI são HTTP nativos).

Ver ADR-005 e ADR-009 pra detalhes.


Resumo da arquitetura por host

HostTierCluster K3sCNIGPU strategy
pve-ippri-111K3s SP “principal” (control plane?)Cilium em VM
pve-ippri-121K3s SP “principal” (worker)Cilium em VM
pve-ippri-313K3s GPU SP gpu-sp-01flannel em LXCNVIDIA via dispositivos LXC
pve-ippri-322BK3s SP “principal” (worker)Cilium em VM— (sem workload GPU aqui)
pve-ippri-333K3s GPU SP gpu-sp-02 (futuro)flannel em LXCNVIDIA via dispositivos LXC
pve-ippri-342AK3s SP “principal” (worker GPU)Cilium em VMNVIDIA passthrough
pve-labri-212BK3s Franca “principal” (worker)Cilium em VM
pve-labri-222BK3s Franca “principal” (worker)Cilium em VM
pve-labri-312AK3s GPU Franca (futuro)Cilium em VMA5500 passthrough
pve-labri-322AK3s GPU Franca (futuro)Cilium em VMA5500 passthrough
pve-labri-332AK3s GPU Franca (futuro)Cilium em VMA5500 passthrough

Implicação importante: GPU SP vs GPU Franca têm stacks diferentes

SiteCluster GPUHostsCNIPor quê
SPgpu-sp-01/02 em LXCippri-31, 33 (Tier 3)flannelHardware sem iGPU obriga
FrancaGPU Franca em VMlabri-31/32/33 (Tier 2A)CiliumHardware com iGPU permite VM

Assimetria intencional, não problema. Diferença vem do hardware atual. ApplicationSet propaga apps em ambos sem precisar mesma CNI.

Roadmap de hardware refresh (Fase 4 do roadmap geral)

Próximas compras devem favorecer hardware com iGPU ou rack server headless:

  • ❌ Evitar: Ryzen 3000/5000 sem G (sem iGPU + workstation chassi) — empurra pra Tier 3
  • ✅ Preferir: Ryzen 7000+ X3D ou G-series (iGPU integrada)
  • ✅ Preferir: Server rack headless (Tier 1)
  • ✅ Compatível: Intel com iGPU

Quando hardware Tier 3 for substituído, padronização Cilium em VM completa.

Workstation realmente “multifuncional” — distinção honesta

A memória project_workstations.md antiga listava ippri-31/32/33/34 e labri-31/32/33 como “workstations multifuncionais”. Com mapeamento de tiers, distinção fica:

  • Workstation real (display ativo + bancada de pesquisador): ippri-34, labri-31/32/33 (Tier 2A) + ippri-32, labri-21/22 (Tier 2B)
  • Workstation chassi mas operação headless: ippri-11/12 (Tier 1, server-class)
  • Workstation com NVIDIA dedicada disputada: ippri-31/33 (Tier 3, situação herdada)

Apenas hosts Tier 2A/2B têm uso real de bancada. Tier 3 são GPU nodes que podiam ser bancada mas operam como compute (LXC + GPU passthrough pra workload).

Referências