Skip to content

Inventário Proxmox

Inventario Proxmox — Estado Atual

Mapeamento via SSH em 2026-04-12. Dois clusters Proxmox independentes (Franca e SP).


Visao geral

Cluster Franca (clusterlabri07) Cluster SP (clusterippri)
9 nodes, 8 online 8 nodes, 6 online
pve-labri-21 (32c, 64G) pve-ippri-11 (6c, 72G)
pve-labri-22 (32c, 64G) pve-ippri-12 (6c, 72G)
pve-labri-23 (8c, 32G) pve-ippri-13 OFFLINE
pve-labri-24 OFFLINE pve-ippri-14 OFFLINE
pve-labri-25 (12c, 32G) pve-ippri-31 (24c, 128G) [A5000]
pve-labri-27 (12c, 16G) pve-ippri-32 (24c, 64G)
pve-labri-31 (32c, 128G) [A5500] pve-ippri-33 (24c, 128G) [A5000]
pve-labri-32 (32c, 128G) [A5500] pve-ippri-34 (32c, 128G) [A5000]
pve-labri-33 (32c, 128G) [A5500]
Totais:
Franca: 172 cores, 592 GB RAM, 3x RTX A5500 (72 GB VRAM), ~13 TiB LINSTOR NVMe
SP: 136 cores, 720 GB RAM, 3x RTX A5000 (72 GB VRAM), ZFS NVMe
Combinado: 308 cores, 1.3 TB RAM, 144 GB VRAM, Proxmox 8.4/9.1 (misto)

Cluster Franca (clusterlabri07)

Nodes

pve-labri-21 — K3s + LINSTOR satellite

AspectoDetalhe
CPUAMD Ryzen 9 5950X — 16 cores / 32 threads @ 3.4 GHz
RAM64 GB (27 GB usada, 34 GB disponivel)
GPUGTX 750 Ti (sem driver NVIDIA — nao util para IA)
OS diskSSD 224G (/ 160G, /home 47G)
NVMe1x 3.6T (LINSTOR LVM_THIN, 3.13 TiB livre)
HDD2x 7.3T + 2x 1.7T (sem uso aparente, sem filesystem)
Rede192.168.0.21/23 (vmbr1), 10.10.10.5 (LINSTOR)
ServicosK3s (bare metal), LINSTOR satellite, Proxmox, ZFS
VMsvm-cpps-02 (VMID 103, K3s apps — 12c/24G/370G LINSTOR), lantrivm01 (100, parada)
Uptime8 dias
Kernel6.8.12-18-pve

pve-labri-22 — VyOS + Traefik + LINSTOR satellite — PVE 9

AspectoDetalhe
CPUAMD Ryzen 9 5950X — 16 cores / 32 threads @ 3.4 GHz
RAM64 GB (44 GB usada, 18 GB disponivel)
GPUGTX 750 Ti (sem driver)
PVE9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20
Kernel6.17.13-3-pve
OS diskSSD 224G (/ 160G, /home 47G)
NVMe1x 3.6T (LINSTOR LVM_THIN, 3.20 TiB livre) + 1x 3.6T (livre)
HDD2x 7.3T (1x ZFS, 1x sem uso)
Rede192.168.0.22/23 (vmbr1), 10.10.10.6 (LINSTOR)
ServicosLINSTOR satellite, Proxmox, ZFS
VMsVyOS (5002, 4c/4G/6G LINSTOR), debian-proxy (5003, 4c/8G/60G LINSTOR), ~15 VMs ZFS
NotaNode mais carregado de Franca (44 GB usada) — hospeda muitas VMs ZFS

pve-labri-23 — Storage massivo (DataLuta)

AspectoDetalhe
CPUAMD FX-8320E — 4 cores / 8 threads @ 3.2 GHz (mais antigo do cluster)
RAM32 GB (27 GB usada, 4 GB disponivel)
GPUAMD Radeon 3000 (integrada, sem uso)
OS diskSSD 112G
HDD2x 7.3T (ZFS mirror)
Rede192.168.0.23/23 (vmbr1)
ServicosProxmox, ZFS
VMslantrivm02 (102) — 5c/14G + 10 discos totalizando ~8 TB (920G x8 + 450G x2)
Uptime87 dias
NotaCPU fraca, RAM quase cheia. Usado basicamente como storage server para lantrivm02

pve-labri-24 — OFFLINE

Nao responde. Sem informacoes.

pve-labri-25 — Gateway SSH externo

AspectoDetalhe
CPUIntel i5-12500 — 6 cores / 12 threads @ 4.0 GHz
RAM32 GB (2.7 GB usada, 30 GB disponivel)
GPUNenhuma
OS diskSSD 88G
RedeIP publico 200.145.122.122 (acesso externo SSH)
ServicosProxmox (sem VMs)
VMsNenhuma
Uptime424 dias (mais antigo uptime do cluster)
NotaServe como jump host para acesso externo. Sem carga

pve-labri-27 — DataLuta VMs

AspectoDetalhe
CPUIntel i5-12500 — 6 cores / 12 threads @ 4.0 GHz
RAM16 GB (13 GB usada, 1.8 GB disponivel)
GPUIntel UHD 770 (integrada)
OS diskNVMe 477G
HDD1x 7.3T (ZFS)
Rede192.168.0.27/23 (vmbr1)
ServicosProxmox, ZFS
VMsDataLuta01 (1001, 4c/6G), DataLuta02 (1002, 4c/6G), ubuntu-20.04 (204, 4c/6G)
Uptime408 dias
NotaRAM quase cheia (13/16 GB). Node com menor capacidade do cluster

pve-labri-31 — GPU + LINSTOR controller — PVE 9

AspectoDetalhe
CPUAMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz (top de linha, 3D V-Cache)
RAM128 GB
GPUNVIDIA RTX A5500 (24 GB VRAM) — driver 595.58.03, nvidia-smi OK, CUDA 13.2
iGPUAMD Radeon (Raphael) — ativa, saidas DP+HDMI na motherboard
PVE9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20
Kernel6.17.13-3-pve
OS diskSSD 233G
NVMe1x 3.6T (LINSTOR LVM_THIN, 3.13 TiB livre) + 3x 3.6T NVMe livres
HDD2x 1.7T
Rede192.168.0.31/23 (vmbr1), 10.10.10.7 (LINSTOR)
ServicosLINSTOR controller + satellite, Proxmox
VMsdebian13 (104, parada)
NotaNode principal GPU Franca. ~10.8T NVMe livre. VFIO removido, driver direto no host

pve-labri-32 — LINSTOR controller primario + GPU

AspectoDetalhe
CPUAMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz
RAM128 GB (4.5 GB usada, 120 GB disponivel)
GPUNVIDIA RTX A5500 (24 GB VRAM) — driver NAO instalado
OS diskSSD 119G
NVMe1x 3.6T (LINSTOR LVM_THIN, 3.16 TiB livre) + 3x 3.6T NVMe livres
HDD2x 1.7T
Rede192.168.0.32/23 (eno1), 10.10.10.8 (eno2 — LINSTOR controller primario)
ServicosLINSTOR controller + satellite, Proxmox, ZFS
VMsNenhuma
Uptime62 dias
NotaNode mais ocioso do cluster (4.5 GB usada de 128 GB). LINSTOR controller IP que o Proxmox referencia. ~10.8T NVMe livre

pve-labri-33 — GPU + LINSTOR controller backup

AspectoDetalhe
CPUAMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz
RAM128 GB (3.9 GB usada, 121 GB disponivel)
GPUNVIDIA RTX A5500 (24 GB VRAM) — driver NAO instalado
OS diskSSD 112G
NVMe1x 3.6T (LINSTOR LVM_THIN, vazio) + 3x 3.6T NVMe livres
Rede192.168.0.33/23 (vmbr1), 10.10.10.9 (eno2, LINSTOR), 192.168.0.48/23 (vmbr2)
ServicosLINSTOR controller, Proxmox, ZFS
VMsNenhuma
Uptime61 dias
NotaNode mais ocioso do cluster junto com 32. Nenhuma VM, nenhum LINSTOR resource. ~14.4T NVMe total. Satellite LINSTOR nao ativo (so controller)

Cluster SP (clusterippri)

Nodes

pve-ippri-11 — Firewall SP + VMs legadas

AspectoDetalhe
CPU6 cores (modelo nao identificado, sem hyperthreading)
RAM72 GB (16 GB usada, 54 GB disponivel)
GPUMatrox G200EH (management only)
Storage3x HDD 5.5T + 2x HDD 1.7T + SSD 224G
Rede192.168.10.11/23 (VLAN 192), 192.168.4.11/23 (VLAN 193), 192.168.12.11/24 (VLAN 197), 10.10.20.11/24 (vmbr3)
ServicosProxmox, ZFS
VMspfsense01 (5001, firewall SP — running), Copy-of-pfsense01 (5010, parada), VMs ZFS (zd*)
Uptime122 dias

pve-ippri-12 — Servidor de VMs (storage pesado)

AspectoDetalhe
CPU6 cores (sem hyperthreading)
RAM72 GB (24 GB usada, 46 GB disponivel)
GPUMatrox G200EH (management only)
Storage2x HDD 5.5T (ZFS) + HDD 5.5T + 2x HDD 1.7T + SSD 224G
Rede192.168.10.12/23 (VLAN 192), 10.90.90.93/8 (ens6f0)
ServicosProxmox, ZFS
VMsubuntuServer2404 (1051, 4c/6G), 9 VMs ZFS com 892 GB cada (~8 TB total)
Uptime413 dias
NotaStorage massivo via ZFS zvols

pve-ippri-13 / pve-ippri-14 — OFFLINE

Nao respondem. Sem informacoes.

pve-ippri-31 — GPU SP (A5000, driver OK) — PVE 9

AspectoDetalhe
CPUAMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz
RAM128 GB (6 GB usada, 119 GB disponivel)
GPUNVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK, CUDA 13.0
PVE9.1.7 (Debian 13 Trixie) — atualizado 2026-04-14
Kernel6.17.13-2-pve
OS diskSSD 224G
NVMe2x 3.6T (livres)
HDDSSD 932G (particoes NTFS — Windows antigo), RAID 2x 1.7T
Rede192.168.10.31/23 (VLAN 192), 10.10.20.31/24 (enp5s0f0), 192.168.12.31/24 (VLAN 197)
ServicosProxmox, ZFS, GNOME 48
VMsCopy-of-UbuntuDesktop (1002, parada)
NotaPronto para workloads GPU. 119 GB RAM livre + 7.2T NVMe livre

pve-ippri-32 — Firewall backup SP — PVE 9

AspectoDetalhe
CPUAMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz
RAM64 GB (32 GB usada, 30 GB disponivel)
GPUGTX 750 Ti — driver 580.126.09 (legacy), sem uso para IA
PVE9.1.7 (Debian 13 Trixie) — atualizado 2026-04-14
Kernel6.17.13-2-pve
OS diskSSD 224G
NVMe932G (ZFS) + 233G (ZFS)
HDD2x HDD 5.5T + HDD 2.7T
Rede192.168.10.32/23 (VLAN 192), 192.168.12.32/24 (VLAN 197)
ServicosProxmox, ZFS, GNOME 48
VMspfsense-bkp (5002, migrada para ippri-33 durante upgrade)
NotaGTX 750 Ti (Maxwell) requer driver legacy 580.xx — driver 535 nao compila no kernel 6.17, driver 595+ nao suporta a GPU

pve-ippri-33 — GPU SP (A5000, driver OK) — PVE 9

AspectoDetalhe
CPUAMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz
RAM128 GB (8.5 GB usada, 117 GB disponivel)
GPUNVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK, CUDA 13.0
PVE9.1.7 (Debian 13 Trixie) — atualizado 2026-04-13
Kernel6.17.13-2-pve
OS diskSSD 224G
NVMe2x 3.6T (1x ZFS, 1x livre)
HDD2x 2.7T
Rede192.168.10.33/23 (VLAN 192), 10.10.20.33/24 (enp5s0f1), 192.168.12.33/24 (VLAN 197)
ServicosProxmox, ZFS, GNOME 48
VMsubuntuServer2404-01 (1052, parada), pfsense-bkp (5002, migrada do ippri-32)
NotaPronto para workloads GPU. 117 GB RAM livre. Primeiro node SP atualizado (upgrade limpo)

pve-ippri-34 — GPU SP (A5000, driver OK) — PVE 9

AspectoDetalhe
CPUAMD Ryzen 9 7950X — 16 cores / 32 threads @ 4.5 GHz (mais rapido de SP)
RAM128 GB
GPUNVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK
iGPUAMD Radeon (Raphael) — ativa, card0/renderD128, saidas DP+HDMI na motherboard
PVE9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20
Kernel6.17.13-3-pve
OS diskSSD 224G
NVMeNVMe 224G + NVMe 932G (ZFS) + 2x NVMe 3.6T (1x ZFS, 1x livre)
HDD3x SSD/HDD com particoes NTFS (Windows antigo)
Rede192.168.10.34/23 (VLAN 192), 10.90.90.92/8 (eno2), 192.168.12.34/24 (VLAN 197)
ServicosProxmox, ZFS, GNOME
VMsUbuntuDesktop2204-02 (1003, 30c/121G — consome quase toda a RAM)
NotaNode GPU com VM desktop pesada. iGPU disponivel para display presencial, A5000 para compute

Storage

LINSTOR (Franca only)

Controller ativo: pve-labri-31 (10.10.10.7) — reconstruido em 2026-04-15
Controllers standby: pve-labri-21 (10.10.10.5), pve-labri-22 (10.10.10.6)
Pacote instalado, servico disabled. DB sincronizado via backup.
Rede dedicada: 10.10.10.0/24
Versao: LINSTOR 1.33.2, DRBD 9
Nodes (todos Combined):
pve-labri-21 10.10.10.5 pool: 3.27 TiB (3.08 livre) — controller standby
pve-labri-22 10.10.10.6 pool: 3.27 TiB (3.20 livre) — controller standby
pve-labri-31 10.10.10.7 pool: 3.27 TiB (3.13 livre) — controller ativo
pve-labri-32 10.10.10.8 OFFLINE (fora do ar)
pve-labri-33 10.10.10.9 OFFLINE (SSH quebrado)
Total online: ~9.8 TiB NVMe thin-provisioned
Driver: LVM_THIN sobre NVMe
Resource group: pve-rg (place-count=2, storage-pool=DfltStorPool)

Backup do LINSTOR DB:

O controller usa H2 (banco local em /var/lib/linstor/linstordb.mv.db, ~500 KB). Com H2, apenas 1 controller pode estar ativo por vez. Os outros sao standby quente.

Cron: /etc/cron.d/linstor-backup (pve-labri-31)
Frequencia: a cada 3 horas (0 */3 * * *)
Script: /usr/local/bin/linstor-backup-db.sh
Acao: copia linstordb.mv.db para /var/lib/linstor/backups/ local
+ scp para pve-labri-21 e pve-labri-22 (/var/lib/linstor/backups/)
Retencao: 7 dias
Perda maxima: 3 horas de alteracoes no LINSTOR (dados DRBD nao se perdem)

Failover do controller (se pve-labri-31 cair):

Terminal window
# No node standby (21 ou 22):
# 1. Restaurar DB do backup mais recente
cp /var/lib/linstor/backups/linstordb-ULTIMO.mv.db /var/lib/linstor/linstordb.mv.db
# 2. Iniciar controller
systemctl start linstor-controller
# 3. Atualizar todos os nodes para apontar para o novo controller
# Em cada node: /etc/linstor/linstor-client.conf → controllers=NOVO_IP
# No Proxmox: pvesm set linstor_storage --controller NOVO_IP
# 4. Reiniciar satellites nos outros nodes
# systemctl restart linstor-satellite

DRBD Resources reimportados (2026-04-15):

ResourceTamanhoInUse emReplicasPapel
pm-cde8bc1c170Glabri-2121, 31 (Diskless)vm-cpps-02 disco 1 — sem redundancia
pm-8996a746200Glabri-2121, 22 (Diskless)vm-cpps-02 disco 2 — sem redundancia
pm-fcdb18826Glabri-2222, 31VyOS
pm-ddb2358960Glabri-2222, 31debian-proxy
pm-2f95733c100Glabri-3131, 22, 21 (Diskless)vm-cpps-13
pm-70e3923464Glabri-3131, 22, 21 (Diskless)VM 108

Nota: resources que eram Unused (pm-19ee30ca, pm-3318f888, pm-65ef2bed, pm-c7cf8b4b) e o PVC K8s nao foram reimportados no LINSTOR. Os LVs ainda existem nos discos NVMe dos satellites.

ZFS

PoolNodesTipoUso
zfs-rpl01-vmslabri-21,22,23,27HDDVMs secundarias (lantrivm02 com ~8 TB)
zfs-rpl-nvme-01-vmslabri-21,22,31 / ippri-32NVMeVMs de alta performance
ZFS localTodos os nodes SPHDD/NVMeVMs e zvols

GPUs

SiteNodeModeloVRAMArquiteturaDriverDisponibilidade
Francapve-labri-31RTX A550024 GBGA102 (Ampere)⚠️ Nao instaladoAlta — 110 GB RAM livre, 32c ociosos
Francapve-labri-32RTX A550024 GBGA102 (Ampere)⚠️ Nao instaladoAlta — 120 GB RAM livre, 32c ociosos
Francapve-labri-33RTX A550024 GBGA102 (Ampere)⚠️ Nao instaladoAlta — 121 GB RAM livre, 32c ociosos
SPpve-ippri-31RTX A500024 GBGA102 (Ampere)✅ InstaladoAlta — 119 GB RAM livre
SPpve-ippri-33RTX A500024 GBGA102 (Ampere)✅ InstaladoAlta — 117 GB RAM livre
SPpve-ippri-34RTX A500024 GBGA102 (Ampere)✅ InstaladoBaixa — VM desktop consome 121 GB RAM

Total: 144 GB VRAM (72 GB Franca + 72 GB SP)

GPUs antigas (nao uteis para IA):

  • GTX 750 Ti: pve-labri-21, pve-labri-22, pve-ippri-32

iGPU integrada (uso presencial)

Nodes com CPU AMD Ryzen 7000 (Raphael) possuem iGPU AMD Radeon RDNA2 integrada, ativa e funcional via driver amdgpu. Saidas de video da motherboard (DP + HDMI) podem ser usadas para acesso presencial, liberando a GPU dedicada para compute.

NodeCPUiGPUSaidas motherboardDevice
pve-ippri-34Ryzen 9 7950XAMD Radeon (Raphael)2x DP + 1x HDMIcard0 / renderD128
pve-labri-31Ryzen 9 7950X3DAMD Radeon (Raphael)2x DP + 1x HDMIcard0 / renderD128
pve-labri-32Ryzen 9 7950X3DAMD Radeon (Raphael)2x DP + 1x HDMIcard0 / renderD128
pve-labri-33Ryzen 9 7950X3DAMD Radeon (Raphael)2x DP + 1x HDMIcard0 / renderD128

Para uso presencial: basta conectar monitor na porta da motherboard (nao da NVIDIA). GDM/GNOME usa automaticamente a iGPU para display. A GPU dedicada (card1/renderD129) fica livre para CUDA/compute.


Rede

IPs dos nodes

Franca (192.168.0.0/23):

NodeIP principalIP LINSTORIP externo
pve-labri-21192.168.0.2110.10.10.5
pve-labri-22192.168.0.2210.10.10.6
pve-labri-23192.168.0.23
pve-labri-25200.145.122.122 (gateway SSH)
pve-labri-27192.168.0.27
pve-labri-31192.168.0.3110.10.10.7
pve-labri-32192.168.0.3210.10.10.8
pve-labri-33192.168.0.3310.10.10.9

SP (192.168.10.0/23):

NodeIP principalOutras redes
pve-ippri-11192.168.10.11192.168.4.11/23 (VLAN 193), 192.168.12.11/24 (VLAN 197), 10.10.20.11/24
pve-ippri-12192.168.10.1210.90.90.93/8 (ens6f0)
pve-ippri-31192.168.10.3110.10.20.31/24, 192.168.12.31/24 (VLAN 197)
pve-ippri-32192.168.10.32192.168.12.32/24 (VLAN 197)
pve-ippri-33192.168.10.3310.10.20.33/24, 192.168.12.33/24 (VLAN 197)
pve-ippri-34192.168.10.3410.90.90.92/8 (eno2), 192.168.12.34/24 (VLAN 197)

VLANs observadas

VLAN/TagSubnetBridgePresente emUso provavel
192 (Franca)192.168.0.0/23vmbr1FrancaRede principal (management + VMs)
192 (SP)192.168.10.0/23vmbr1SPRede principal (management + VMs)
193192.168.4.0/23vmbr1SP (11)A documentar
194vmbr1SP (11, 31, 32, 33)A documentar
197192.168.12.0/24vmbr1SP (11, 31, 32, 33, 34)Lab alunos
10.10.10.0/24dedicada (eno2/enp4s0f0)Franca (21, 22, 31, 32, 33)LINSTOR replicacao DRBD (Franca)
10.10.20.0/24vmbr3/enp5s0f0SP (11, 31, 33)LINSTOR SP (SSD + NVMe unificados)
10.90.90.0/8ens6f0/eno2SP (12, 34)A documentar

K3s

K3s roda diretamente nos hosts Proxmox, nao em VMs.

HostPapelPod CIDRInterfaces
pve-labri-21K3s node10.42.0.0/24flannel.1, cni0, veths
pve-labri-31K3s node10.42.0.0/24flannel.1, cni0, veths

A VM vm-cpps-02 (VMID 103) existe no node 21 mas o K3s roda no host, nao na VM.

LINSTOR CSI esta ativo — 1 PVC provisionado (pvc-74975490..., 1G) no node 31.


VMs ativas

Franca

VMIDNomeNodeCPURAMDiscoStoragePapel
103vm-cpps-02labri-2112c24 GB170G + 200GLINSTORK3s apps (Airflow, Authentik, InvenioRDM, etc.)
5002vyoslabri-224c4 GB6GLINSTORFirewall/NAT/DNS Franca
5003debian12-proxylabri-224c8 GB60GLINSTORTraefik reverse proxy
106vm-cpps-13labri-316c8 GB100GLINSTORA documentar
108VM 108labri-316c8 GB64GLINSTORA documentar (UEFI, TPM)
102lantrivm02labri-235c14 GB100G + ~8 TBZFSStorage massivo (10 discos)
1001DataLuta01labri-274c6 GB121GlocalProjeto DataLuta
1002DataLuta02labri-274c6 GB85GlocalProjeto DataLuta
204ubuntu-20.04labri-274c6 GB80GlocalLegacy

SP

VMIDNomeNodeCPURAMDiscoStoragePapel
5001pfsense01ippri-114c4 GB18GZFSFirewall SP (principal)
5002pfsense-bkpippri-324c4 GB16GZFSFirewall SP (backup)
1003UbuntuDesktop2204-02ippri-3430c121 GB205GZFSDesktop pesado (satura node GPU)
1051ubuntuServer2404ippri-124c6 GB120GZFSServidor generico

VMs paradas: lantrivm01 (100, Franca), UbuntuServer22.04 (105, Franca), debian13 template (104), Copy-of-VM-debian13 (107), firewall-pfsense (5001, Franca), Copy-of-UbuntuDesktop (1002 SP), ubuntuServer2404-01 (1052 SP), UbuntuDesktop-testes (4950 SP), Copy-of-pfsense01 (5010 SP), Copy-of-pfsense-bkp (5011 SP).


Observacoes e anomalias

  1. K3s no bare metal: os docs diziam “K3s roda em vm-cpps-02” mas o K3s roda diretamente nos hosts Proxmox (21 e 31). A VM vm-cpps-02 existe mas nao e onde o K3s roda

  2. Drivers GPU nao instalados em Franca: 3x RTX A5500 com hardware presente mas sem driver NVIDIA. SP tem driver OK nas 3x A5000

  3. pve-ippri-34 saturado: VM desktop (1003) consome 30 cores e 121 GB RAM num node com GPU A5000. Para usar a GPU, essa VM precisa ser redimensionada ou migrada

  4. 3 nodes LINSTOR controller: pve-labri-31, 32 e 33 rodam linstor-controller. O primario e o 32 (10.10.10.8). O 33 tem controller mas nao satellite (nenhum resource replicado nele)

  5. pve-labri-33 subutilizado: 128 GB RAM, 32 cores, RTX A5500, ~14.4T NVMe — praticamente ocioso, sem VMs, sem LINSTOR satellite

  6. Particoes NTFS: pve-ippri-31 e pve-ippri-34 tem discos com particoes NTFS (Windows antigo). Nao estao montadas

  7. Redes nao documentadas: VLANs 193, 194, 197 e subnets 10.10.100.0/24, 10.90.90.0/8 existem mas nao estao nos docs

  8. Nodes offline: pve-labri-24 (Franca), pve-ippri-13 e pve-ippri-14 (SP) nao respondem

  9. Uptime dispares: pve-labri-25 e pve-labri-27 com 400+ dias de uptime (nunca reiniciados). Nodes GPU (31-33) com uptimes curtos (1-62 dias) sugerem instalacao/config recente

  10. SP sem LINSTOR: todo storage em SP e ZFS local. Nao ha replicacao de storage entre nodes SP nem entre sites

  11. HDD sem uso em Franca: pve-labri-21 tem 2x 7.3T + 2x 1.7T sem filesystem. pve-labri-22 tem 1x 7.3T sem uso. Potencial para expandir ZFS ou LINSTOR

  12. Roadmaps incorretos: diziam A5000 em Franca e A6000 em SP. Realidade: A5500 em Franca, A5000 em SP


Problemas conhecidos durante upgrade

LINSTOR postinst trava no systemctl restart

Sintoma: dpkg --configure trava indefinidamente. pstree mostra:

dpkg → linstor-satellite.postinst → deb-systemd-invoke → systemctl (travado)

Causa: o postinst do linstor-satellite (e linstor-controller) chama systemctl restart que espera o servico responder. Durante upgrade, o servico pode nao conseguir iniciar (versao incompativel, config alterada).

Afeta tambem: openssh-server, pve-manager, pvedaemon, gdm3 — todos tem postinst que reinicia servicos.

Solucao manual: kill <PID do systemctl> — o dpkg continua.

Solucao automatizada: script config/scripts/pve-upgrade.sh para e desabilita esses servicos antes do upgrade e roda um loop que mata systemctl travados durante o configure.

LINSTOR VERSION MISMATCH entre nodes

Sintoma: linstor node list mostra um node como OFFLINE(VERSION MISMATCH).

Causa: node com LINSTOR atualizado (ex: v1.33.2 do Debian 13) nao consegue falar com controller que roda versao anterior (v1.33.1 do Debian 12), ou vice-versa.

Impacto: o node offline nao participa da replicacao DRBD, mas os dados nos outros nodes continuam acessiveis. VMs que usam resources replicados nesse node ficam com menos replicas (degradado mas funcional).

Solucao: atualizar todos os nodes LINSTOR para a mesma versao. Apos upgrade de todos, linstor node list deve mostrar tudo Online.

SSH inacessivel apos upgrade PVE 8→9

Sintoma: node pinga mas SSH recusa conexao (Connection reset by peer ou Permission denied).

Causa: o upgrade do openssh-server regenera host keys e pode reconfigurar /etc/ssh/sshd_config. As authorized_keys podem ser perdidas.

Solucao: acessar via Proxmox web shell (de outro node) e:

Terminal window
# Verificar sshd
systemctl restart sshd
# Restaurar authorized_keys se necessario
mkdir -p /root/.ssh
echo '<chave publica>' > /root/.ssh/authorized_keys
chmod 700 /root/.ssh && chmod 600 /root/.ssh/authorized_keys

Prevencao: o script pve-upgrade.sh faz backup de /root/.ssh/authorized_keys antes do upgrade.


Manutencao

Limpeza do /boot

Proxmox acumula kernels antigos no /boot a cada atualizacao. Quando enche (920 MB tipico), novos upgrades falham.

Script: config/scripts/cleanup-boot.sh

Terminal window
# Via SSH no node (como root):
# Preview — mostra o que faria sem executar
./cleanup-boot.sh --dry-run
# Interativo — pede confirmacao antes de remover
./cleanup-boot.sh
# Automatico — para Ansible/cron, sem confirmacao
./cleanup-boot.sh --force

O script mantem o kernel rodando + o mais novo instalado, remove o resto, gera initrd se faltar, e atualiza o GRUB.

Recomendacao: rodar antes de cada upgrade de PVE.


Upgrade Proxmox 8.4 → 9.1 (Debian 12 → 13)

Versoes

ComponenteAtualAlvo
Proxmox VE8.4.169.1
Debian12 (Bookworm)13 (Trixie)
Kernel6.8.12-pve6.12+
LINSTORA verificarv1.33.2 (ultima estavel, 2026-04-08)
DRBD8.4.11 (node 25)9.x (compatibilidade a validar)

Procedimento oficial (in-place, node a node)

Referencia: https://pve.proxmox.com/wiki/Upgrade_from_8_to_9

Para cada node, na ordem:
1. Validar pre-requisitos
- PVE >= 8.4.1 (temos 8.4.16 ✓)
- Backups de todas as VMs testados
- Acesso console (IPMI/fisico, nao so SSH)
- >= 10 GB disco livre
- pve8to9 --full (checklist automatizado)
2. Migrar VMs para outros nodes
- VMs LINSTOR: live migration (dados replicados em 2+ nodes)
- VMs ZFS: offline migration ou backup+restore
- Nota: migrar de PVE 9 → PVE 8 NAO e suportado (so ida)
3. Atualizar repositorios
sed -i 's/bookworm/trixie/g' /etc/apt/sources.list
sed -i 's/bookworm/trixie/g' /etc/apt/sources.list.d/*.list
# Adicionar repositorio PVE 9 (enterprise ou no-subscription)
apt update
4. Upgrade
apt dist-upgrade
# Revisar config files quando perguntado (SSH, GRUB, LVM)
5. Reboot + validar
reboot
pveversion -v # deve mostrar 9.x
# Verificar VMs, storage, rede, LINSTOR

Ordem de upgrade dos nodes

Logica: comecar pelos mais vazios, terminar pelos mais criticos.

Onda 1 — Nodes GPU vazios (Franca)

OrdemNodeVMs a migrarRiscoNota
1pve-labri-33NenhumaMinimoTotalmente vazio. Validar LINSTOR controller apos upgrade
2pve-labri-32NenhumaBaixoLINSTOR controller primario — migrar role de controller antes
3pve-labri-25NenhumaBaixoGateway SSH. Testar acesso externo apos upgrade

Onda 2 — Nodes GPU SP

OrdemNodeVMs a migrarRiscoNota
4pve-ippri-33ubuntuServer2404-01 (parada)BaixoConcluido 2026-04-13 — upgrade limpo, sem problemas
5pve-ippri-31Copy-of-UbuntuDesktop (parada)BaixoConcluido 2026-04-14 — transicao t64 problemática, resolvido iterativamente
6pve-ippri-34UbuntuDesktop2204-02 (30c/121G)MedioConcluido 2026-04-20 — postfix main.cf perdido, cpp doc conflict, resolvidos iterativamente
7pve-ippri-32pfsense-bkpBaixoConcluido 2026-04-14 — mais problemático: rede, QEMU, libs duplicadas, GNOME schema. Ver lessons learned

Onda 3 — Nodes criticos Franca (VMs em producao)

OrdemNodeVMs a migrarRiscoNota
8pve-labri-31vm-cpps-13 (106), VM 108MedioConcluido 2026-04-20 — VMs 106/107/108 removidas, VFIO desabilitado, driver NVIDIA 595.58.03 instalado (.run)
9pve-labri-27DataLuta01, DataLuta02, ubuntu-20.04MedioRAM apertada (16 GB). VMs em local storage — backup antes
10pve-labri-21vm-cpps-02 (K3s apps)AltoK3s principal + LINSTOR satellite. Migrar vm-cpps-02 para node 31 (ja PVE 9)
11pve-labri-22VyOS, debian-proxy, muitas VMs ZFSAltoConcluido 2026-04-20 — sources já em trixie, upgrade via apt dist-upgrade. Conflito cpp resolvido

Onda 4 — SP restante

OrdemNodeVMs a migrarRiscoNota
12pve-ippri-12ubuntuServer2404, 9x VMs ZFS (892G cada)AltoStorage massivo — migrar VMs grandes leva tempo
13pve-ippri-11pfsense01 (firewall principal SP)AltoUltimo — firewall SP. Migrar para node ja atualizado

Nodes offline (24, 13, 14): avaliar se vale a pena trazer online. Se sim, instalar PVE 9 limpo.

LINSTOR durante o upgrade

  • Controller ativo no pve-labri-31 (10.10.10.7) — deve permanecer online durante upgrades
  • Standby controllers em 21 e 22 — DB sincronizado a cada 3h
  • Antes de atualizar um node com LINSTOR: verificar que resources estao replicados em outro node
  • Apos upgrade: verificar versao do JAR (java -cp "/usr/share/linstor-server/lib/*" com.linbit.linstor.core.Satellite --version). Se VERSION MISMATCH, copiar JARs do controller ativo
  • DRBD resources replicados em 2+ nodes — se 1 node sai, dados continuam acessiveis
  • ATENCAO: postinst do linstor-satellite trava em systemctl restart. Matar o systemctl travado e reiniciar manualmente

Riscos conhecidos (PVE 8→9)

RiscoImpactoMitigacao
Renomeacao de interfaces de redePerde conectividadeAcesso IPMI/fisico, usar pve-network-interface-pinning
PCI passthrough quebrado no kernel 6.14VMs com GPU nao iniciamUsar kernel 6.12 (pin) ate fix
cgroup v1 removidoLXC antigos falhamVerificar systemd >= 231 nos containers
/tmp vira tmpfs (50% RAM)Pressao de memoriaMonitorar
LINSTOR compatibilidadeStorage indisponivelTestar primeiro no node 33 (vazio)
sysctl.conf ignoradoConfigs de rede perdidasMigrar para /etc/sysctl.d/

Checklist pos-upgrade (por node)

[ ] pveversion -v mostra 9.x
[ ] Todas as VMs anteriores do node voltam a funcionar
[ ] LINSTOR satellite reconecta ao controller (se aplicavel)
[ ] DRBD resources sincronizam (drbdadm status all)
[ ] K3s node healthy (kubectl get nodes — se aplicavel)
[ ] Rede funcional (ping entre nodes, acesso externo)
[ ] GPU visivel (lspci | grep NVIDIA)
[ ] nvidia-smi funciona (se driver instalado)
[ ] Storage OK (pvesm status, df -h)
[ ] Proxmox web UI acessivel (https://IP:8006)

Log de upgrades realizados

pve-labri-33 — 2026-04-13 (EM ANDAMENTO)

Estado inicial: PVE 8.4.16, kernel 6.8.12-18-pve, sem VMs, LINSTOR controller (sem satellite)

Passos executados:

  1. apt update && apt dist-upgrade — atualizado para PVE 8.4.18 ✓
  2. pve8to9 --full — checklist executado. Resultados:
    • 36 PASSED, 7 SKIPPED, 3 WARN, 2 FAIL
    • FAIL: 1 node offline (pve-labri-24) — pre-existente, nao bloqueante
    • FAIL: pvescheduler inactive — corrigido com systemctl enable --now
    • WARN: sem NTP — chrony instalado
    • WARN: DKMS modules (DRBD) — esperado, recompila no upgrade
    • WARN: repo LINBIT suite proxmox-8 — atualizado para proxmox-9
  3. Repositorios atualizados para trixie + PVE 9 no-subscription ✓
  4. apt full-upgrade — upgrade parcial. Problemas encontrados:
    • LINSTOR postinst travava em systemctl restart — destravado manualmente (kill systemctl)
    • DNS quebrou apos reboot — deb.debian.org nao resolvia. Corrigido adicionando 8.8.8.8 e 1.1.1.1 ao /etc/resolv.conf
    • Pacotes Python 3.11 (Debian 12) bloqueavam upgrade — dependiam de python3 < 3.12 mas Python 3.13 ja instalado. Resolvido com dpkg --force-depends --purge dos pacotes Python antigos
    • Pacotes desktop GNOME (uim, wpasupplicant, xwayland, samba, libreoffice) criavam cadeia circular de dependencias com libs t64 (Debian 13 renomeia libglib2.0-0 → libglib2.0-0t64). Resolvido iterativamente com dpkg --force-depends
    • pve-apt-hook bloqueava apt dist-upgrade — exigia apt full-upgrade
    • Abordagem final: baixar todos os ~1870 pacotes restantes, dpkg --force-depends -i, dpkg --configure --force-depends -a com loop matando systemctl travados
  5. Reboot executado ✓
  6. SSH inacessivel apos reboot — node pinga mas SSH recusa conexao (Connection reset by peer). Provavel causa: sshd reconfigurado no upgrade Debian 13 ou host keys regeneradas

Estado atual: node pinga (rede OK), SSH nao funciona. Requer acesso console (IPMI/fisico ou Proxmox web shell) para:

  • Verificar systemctl status sshd
  • Reiniciar sshd se necessario
  • Validar pveversion, kernel, LINSTOR, GPU

Checklist pendente:

[ ] SSH funcional
[ ] pveversion -v mostra 9.x
[ ] Kernel 6.12+ bootado
[ ] LINSTOR controller operacional
[ ] GPU RTX A5500 visivel (lspci)
[ ] Rede entre nodes funcional
[ ] Proxmox web UI acessivel
[ ] Pacotes desktop GNOME funcional (workstation)

Licoes aprendidas:

  1. apt full-upgrade (nao dist-upgrade) e obrigatorio para PVE 8→9
  2. Nodes com desktop GNOME sao significativamente mais complexos de atualizar — a transicao t64 do Debian 13 quebra dezenas de pacotes GTK/Qt/Python
  3. LINSTOR postinst trava em systemctl restart durante dpkg configure — precisa de intervencao manual
  4. DNS pode quebrar apos reboot — ter nameservers publicos como fallback
  5. Acesso console (IPMI/fisico) e essencial — SSH pode falhar apos upgrade