Inventário Proxmox

Inventario Proxmox — Estado Atual

Mapeamento via SSH em 2026-04-12. Dois clusters Proxmox independentes (Franca e SP).

Visao geral

Cluster Franca (clusterlabri07)          Cluster SP (clusterippri)
9 nodes, 8 online                        8 nodes, 6 online

   pve-labri-21  (32c, 64G)                pve-ippri-11  (6c, 72G)
   pve-labri-22  (32c, 64G)                pve-ippri-12  (6c, 72G)
   pve-labri-23  (8c, 32G)                 pve-ippri-13  OFFLINE
   pve-labri-24  OFFLINE                   pve-ippri-14  OFFLINE
   pve-labri-25  (12c, 32G)                pve-ippri-31  (24c, 128G) [A5000]
   pve-labri-27  (12c, 16G)                pve-ippri-32  (24c, 64G)
   pve-labri-31  (32c, 128G) [A5500]       pve-ippri-33  (24c, 128G) [A5000]
   pve-labri-32  (32c, 128G) [A5500]       pve-ippri-34  (32c, 128G) [A5000]
   pve-labri-33  (32c, 128G) [A5500]

Totais:
  Franca: 172 cores, 592 GB RAM, 3x RTX A5500 (72 GB VRAM), ~13 TiB LINSTOR NVMe
  SP:     136 cores, 720 GB RAM, 3x RTX A5000 (72 GB VRAM), ZFS NVMe
  Combinado: 308 cores, 1.3 TB RAM, 144 GB VRAM, Proxmox 8.4/9.1 (misto)

Cluster Franca (`clusterlabri07`)

Nodes

pve-labri-21 — K3s + LINSTOR satellite

Aspecto	Detalhe
CPU	AMD Ryzen 9 5950X — 16 cores / 32 threads @ 3.4 GHz
RAM	64 GB (27 GB usada, 34 GB disponivel)
GPU	GTX 750 Ti (sem driver NVIDIA — nao util para IA)
OS disk	SSD 224G (`/` 160G, `/home` 47G)
NVMe	1x 3.6T (LINSTOR LVM_THIN, 3.13 TiB livre)
HDD	2x 7.3T + 2x 1.7T (sem uso aparente, sem filesystem)
Rede	192.168.0.21/23 (vmbr1), 10.10.10.5 (LINSTOR)
Servicos	K3s (bare metal), LINSTOR satellite, Proxmox, ZFS
VMs	vm-cpps-02 (VMID 103, K3s apps — 12c/24G/370G LINSTOR), lantrivm01 (100, parada)
Uptime	8 dias
Kernel	6.8.12-18-pve

pve-labri-22 — VyOS + Traefik + LINSTOR satellite — PVE 9

Aspecto	Detalhe
CPU	AMD Ryzen 9 5950X — 16 cores / 32 threads @ 3.4 GHz
RAM	64 GB (44 GB usada, 18 GB disponivel)
GPU	GTX 750 Ti (sem driver)
PVE	9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20
Kernel	6.17.13-3-pve
OS disk	SSD 224G (`/` 160G, `/home` 47G)
NVMe	1x 3.6T (LINSTOR LVM_THIN, 3.20 TiB livre) + 1x 3.6T (livre)
HDD	2x 7.3T (1x ZFS, 1x sem uso)
Rede	192.168.0.22/23 (vmbr1), 10.10.10.6 (LINSTOR)
Servicos	LINSTOR satellite, Proxmox, ZFS
VMs	VyOS (5002, 4c/4G/6G LINSTOR), debian-proxy (5003, 4c/8G/60G LINSTOR), ~15 VMs ZFS
Nota	Node mais carregado de Franca (44 GB usada) — hospeda muitas VMs ZFS

pve-labri-23 — Storage massivo (DataLuta)

Aspecto	Detalhe
CPU	AMD FX-8320E — 4 cores / 8 threads @ 3.2 GHz (mais antigo do cluster)
RAM	32 GB (27 GB usada, 4 GB disponivel)
GPU	AMD Radeon 3000 (integrada, sem uso)
OS disk	SSD 112G
HDD	2x 7.3T (ZFS mirror)
Rede	192.168.0.23/23 (vmbr1)
Servicos	Proxmox, ZFS
VMs	lantrivm02 (102) — 5c/14G + 10 discos totalizando ~8 TB (920G x8 + 450G x2)
Uptime	87 dias
Nota	CPU fraca, RAM quase cheia. Usado basicamente como storage server para lantrivm02

pve-labri-24 — OFFLINE

Nao responde. Sem informacoes.

pve-labri-25 — Gateway SSH externo

Aspecto	Detalhe
CPU	Intel i5-12500 — 6 cores / 12 threads @ 4.0 GHz
RAM	32 GB (2.7 GB usada, 30 GB disponivel)
GPU	Nenhuma
OS disk	SSD 88G
Rede	IP publico 200.145.122.122 (acesso externo SSH)
Servicos	Proxmox (sem VMs)
VMs	Nenhuma
Uptime	424 dias (mais antigo uptime do cluster)
Nota	Serve como jump host para acesso externo. Sem carga

pve-labri-27 — DataLuta VMs

Aspecto	Detalhe
CPU	Intel i5-12500 — 6 cores / 12 threads @ 4.0 GHz
RAM	16 GB (13 GB usada, 1.8 GB disponivel)
GPU	Intel UHD 770 (integrada)
OS disk	NVMe 477G
HDD	1x 7.3T (ZFS)
Rede	192.168.0.27/23 (vmbr1)
Servicos	Proxmox, ZFS
VMs	DataLuta01 (1001, 4c/6G), DataLuta02 (1002, 4c/6G), ubuntu-20.04 (204, 4c/6G)
Uptime	408 dias
Nota	RAM quase cheia (13/16 GB). Node com menor capacidade do cluster

pve-labri-31 — GPU + LINSTOR controller — PVE 9

Aspecto	Detalhe
CPU	AMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz (top de linha, 3D V-Cache)
RAM	128 GB
GPU	NVIDIA RTX A5500 (24 GB VRAM) — driver 595.58.03, nvidia-smi OK, CUDA 13.2
iGPU	AMD Radeon (Raphael) — ativa, saidas DP+HDMI na motherboard
PVE	9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20
Kernel	6.17.13-3-pve
OS disk	SSD 233G
NVMe	1x 3.6T (LINSTOR LVM_THIN, 3.13 TiB livre) + 3x 3.6T NVMe livres
HDD	2x 1.7T
Rede	192.168.0.31/23 (vmbr1), 10.10.10.7 (LINSTOR)
Servicos	LINSTOR controller + satellite, Proxmox
VMs	debian13 (104, parada)
Nota	Node principal GPU Franca. ~10.8T NVMe livre. VFIO removido, driver direto no host

pve-labri-32 — LINSTOR controller primario + GPU

Aspecto	Detalhe
CPU	AMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz
RAM	128 GB (4.5 GB usada, 120 GB disponivel)
GPU	NVIDIA RTX A5500 (24 GB VRAM) — driver NAO instalado
OS disk	SSD 119G
NVMe	1x 3.6T (LINSTOR LVM_THIN, 3.16 TiB livre) + 3x 3.6T NVMe livres
HDD	2x 1.7T
Rede	192.168.0.32/23 (eno1), 10.10.10.8 (eno2 — LINSTOR controller primario)
Servicos	LINSTOR controller + satellite, Proxmox, ZFS
VMs	Nenhuma
Uptime	62 dias
Nota	Node mais ocioso do cluster (4.5 GB usada de 128 GB). LINSTOR controller IP que o Proxmox referencia. ~10.8T NVMe livre

pve-labri-33 — GPU + LINSTOR controller backup

Aspecto	Detalhe
CPU	AMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz
RAM	128 GB (3.9 GB usada, 121 GB disponivel)
GPU	NVIDIA RTX A5500 (24 GB VRAM) — driver NAO instalado
OS disk	SSD 112G
NVMe	1x 3.6T (LINSTOR LVM_THIN, vazio) + 3x 3.6T NVMe livres
Rede	192.168.0.33/23 (vmbr1), 10.10.10.9 (eno2, LINSTOR), 192.168.0.48/23 (vmbr2)
Servicos	LINSTOR controller, Proxmox, ZFS
VMs	Nenhuma
Uptime	61 dias
Nota	Node mais ocioso do cluster junto com 32. Nenhuma VM, nenhum LINSTOR resource. ~14.4T NVMe total. Satellite LINSTOR nao ativo (so controller)

Cluster SP (`clusterippri`)

Nodes

pve-ippri-11 — Firewall SP + VMs legadas

Aspecto	Detalhe
CPU	6 cores (modelo nao identificado, sem hyperthreading)
RAM	72 GB (16 GB usada, 54 GB disponivel)
GPU	Matrox G200EH (management only)
Storage	3x HDD 5.5T + 2x HDD 1.7T + SSD 224G
Rede	192.168.10.11/23 (VLAN 192), 192.168.4.11/23 (VLAN 193), 192.168.12.11/24 (VLAN 197), 10.10.20.11/24 (vmbr3)
Servicos	Proxmox, ZFS
VMs	pfsense01 (5001, firewall SP — running), Copy-of-pfsense01 (5010, parada), VMs ZFS (zd*)
Uptime	122 dias

pve-ippri-12 — Servidor de VMs (storage pesado)

Aspecto	Detalhe
CPU	6 cores (sem hyperthreading)
RAM	72 GB (24 GB usada, 46 GB disponivel)
GPU	Matrox G200EH (management only)
Storage	2x HDD 5.5T (ZFS) + HDD 5.5T + 2x HDD 1.7T + SSD 224G
Rede	192.168.10.12/23 (VLAN 192), 10.90.90.93/8 (ens6f0)
Servicos	Proxmox, ZFS
VMs	ubuntuServer2404 (1051, 4c/6G), 9 VMs ZFS com 892 GB cada (~8 TB total)
Uptime	413 dias
Nota	Storage massivo via ZFS zvols

pve-ippri-13 / pve-ippri-14 — OFFLINE

Nao respondem. Sem informacoes.

pve-ippri-31 — GPU SP (A5000, driver OK) — PVE 9

Aspecto	Detalhe
CPU	AMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz
RAM	128 GB (6 GB usada, 119 GB disponivel)
GPU	NVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK, CUDA 13.0
PVE	9.1.7 (Debian 13 Trixie) — atualizado 2026-04-14
Kernel	6.17.13-2-pve
OS disk	SSD 224G
NVMe	2x 3.6T (livres)
HDD	SSD 932G (particoes NTFS — Windows antigo), RAID 2x 1.7T
Rede	192.168.10.31/23 (VLAN 192), 10.10.20.31/24 (enp5s0f0), 192.168.12.31/24 (VLAN 197)
Servicos	Proxmox, ZFS, GNOME 48
VMs	Copy-of-UbuntuDesktop (1002, parada)
Nota	Pronto para workloads GPU. 119 GB RAM livre + 7.2T NVMe livre

pve-ippri-32 — Firewall backup SP — PVE 9

Aspecto	Detalhe
CPU	AMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz
RAM	64 GB (32 GB usada, 30 GB disponivel)
GPU	GTX 750 Ti — driver 580.126.09 (legacy), sem uso para IA
PVE	9.1.7 (Debian 13 Trixie) — atualizado 2026-04-14
Kernel	6.17.13-2-pve
OS disk	SSD 224G
NVMe	932G (ZFS) + 233G (ZFS)
HDD	2x HDD 5.5T + HDD 2.7T
Rede	192.168.10.32/23 (VLAN 192), 192.168.12.32/24 (VLAN 197)
Servicos	Proxmox, ZFS, GNOME 48
VMs	pfsense-bkp (5002, migrada para ippri-33 durante upgrade)
Nota	GTX 750 Ti (Maxwell) requer driver legacy 580.xx — driver 535 nao compila no kernel 6.17, driver 595+ nao suporta a GPU

pve-ippri-33 — GPU SP (A5000, driver OK) — PVE 9

Aspecto	Detalhe
CPU	AMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz
RAM	128 GB (8.5 GB usada, 117 GB disponivel)
GPU	NVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK, CUDA 13.0
PVE	9.1.7 (Debian 13 Trixie) — atualizado 2026-04-13
Kernel	6.17.13-2-pve
OS disk	SSD 224G
NVMe	2x 3.6T (1x ZFS, 1x livre)
HDD	2x 2.7T
Rede	192.168.10.33/23 (VLAN 192), 10.10.20.33/24 (enp5s0f1), 192.168.12.33/24 (VLAN 197)
Servicos	Proxmox, ZFS, GNOME 48
VMs	ubuntuServer2404-01 (1052, parada), pfsense-bkp (5002, migrada do ippri-32)
Nota	Pronto para workloads GPU. 117 GB RAM livre. Primeiro node SP atualizado (upgrade limpo)

pve-ippri-34 — GPU SP (A5000, driver OK) — PVE 9

Aspecto	Detalhe
CPU	AMD Ryzen 9 7950X — 16 cores / 32 threads @ 4.5 GHz (mais rapido de SP)
RAM	128 GB
GPU	NVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK
iGPU	AMD Radeon (Raphael) — ativa, card0/renderD128, saidas DP+HDMI na motherboard
PVE	9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20
Kernel	6.17.13-3-pve
OS disk	SSD 224G
NVMe	NVMe 224G + NVMe 932G (ZFS) + 2x NVMe 3.6T (1x ZFS, 1x livre)
HDD	3x SSD/HDD com particoes NTFS (Windows antigo)
Rede	192.168.10.34/23 (VLAN 192), 10.90.90.92/8 (eno2), 192.168.12.34/24 (VLAN 197)
Servicos	Proxmox, ZFS, GNOME
VMs	UbuntuDesktop2204-02 (1003, 30c/121G — consome quase toda a RAM)
Nota	Node GPU com VM desktop pesada. iGPU disponivel para display presencial, A5000 para compute

Storage

LINSTOR (Franca only)

Controller ativo:    pve-labri-31 (10.10.10.7)  — reconstruido em 2026-04-15
Controllers standby: pve-labri-21 (10.10.10.5), pve-labri-22 (10.10.10.6)
                     Pacote instalado, servico disabled. DB sincronizado via backup.
Rede dedicada:       10.10.10.0/24
Versao:              LINSTOR 1.33.2, DRBD 9

Nodes (todos Combined):
  pve-labri-21  10.10.10.5  pool: 3.27 TiB (3.08 livre)  — controller standby
  pve-labri-22  10.10.10.6  pool: 3.27 TiB (3.20 livre)  — controller standby
  pve-labri-31  10.10.10.7  pool: 3.27 TiB (3.13 livre)  — controller ativo
  pve-labri-32  10.10.10.8  OFFLINE (fora do ar)
  pve-labri-33  10.10.10.9  OFFLINE (SSH quebrado)

Total online: ~9.8 TiB NVMe thin-provisioned
Driver: LVM_THIN sobre NVMe
Resource group: pve-rg (place-count=2, storage-pool=DfltStorPool)

Backup do LINSTOR DB:

O controller usa H2 (banco local em /var/lib/linstor/linstordb.mv.db, ~500 KB). Com H2, apenas 1 controller pode estar ativo por vez. Os outros sao standby quente.

Cron:     /etc/cron.d/linstor-backup (pve-labri-31)
Frequencia: a cada 3 horas (0 */3 * * *)
Script:   /usr/local/bin/linstor-backup-db.sh
Acao:     copia linstordb.mv.db para /var/lib/linstor/backups/ local
          + scp para pve-labri-21 e pve-labri-22 (/var/lib/linstor/backups/)
Retencao: 7 dias
Perda maxima: 3 horas de alteracoes no LINSTOR (dados DRBD nao se perdem)

Failover do controller (se pve-labri-31 cair):

# No node standby (21 ou 22):
# 1. Restaurar DB do backup mais recente
cp /var/lib/linstor/backups/linstordb-ULTIMO.mv.db /var/lib/linstor/linstordb.mv.db

# 2. Iniciar controller
systemctl start linstor-controller

# 3. Atualizar todos os nodes para apontar para o novo controller
#    Em cada node: /etc/linstor/linstor-client.conf → controllers=NOVO_IP
#    No Proxmox: pvesm set linstor_storage --controller NOVO_IP

# 4. Reiniciar satellites nos outros nodes
#    systemctl restart linstor-satellite

DRBD Resources reimportados (2026-04-15):

Resource	Tamanho	InUse em	Replicas	Papel
pm-cde8bc1c	170G	labri-21	21, 31 (Diskless)	vm-cpps-02 disco 1 — sem redundancia
pm-8996a746	200G	labri-21	21, 22 (Diskless)	vm-cpps-02 disco 2 — sem redundancia
pm-fcdb1882	6G	labri-22	22, 31	VyOS
pm-ddb23589	60G	labri-22	22, 31	debian-proxy
pm-2f95733c	100G	labri-31	31, 22, 21 (Diskless)	vm-cpps-13
pm-70e39234	64G	labri-31	31, 22, 21 (Diskless)	VM 108

Nota: resources que eram Unused (pm-19ee30ca, pm-3318f888, pm-65ef2bed, pm-c7cf8b4b) e o PVC K8s nao foram reimportados no LINSTOR. Os LVs ainda existem nos discos NVMe dos satellites.

ZFS

Pool	Nodes	Tipo	Uso
zfs-rpl01-vms	labri-21,22,23,27	HDD	VMs secundarias (lantrivm02 com ~8 TB)
zfs-rpl-nvme-01-vms	labri-21,22,31 / ippri-32	NVMe	VMs de alta performance
ZFS local	Todos os nodes SP	HDD/NVMe	VMs e zvols

GPUs

Site	Node	Modelo	VRAM	Arquitetura	Driver	Disponibilidade
Franca	pve-labri-31	RTX A5500	24 GB	GA102 (Ampere)	⚠️ Nao instalado	Alta — 110 GB RAM livre, 32c ociosos
Franca	pve-labri-32	RTX A5500	24 GB	GA102 (Ampere)	⚠️ Nao instalado	Alta — 120 GB RAM livre, 32c ociosos
Franca	pve-labri-33	RTX A5500	24 GB	GA102 (Ampere)	⚠️ Nao instalado	Alta — 121 GB RAM livre, 32c ociosos
SP	pve-ippri-31	RTX A5000	24 GB	GA102 (Ampere)	✅ Instalado	Alta — 119 GB RAM livre
SP	pve-ippri-33	RTX A5000	24 GB	GA102 (Ampere)	✅ Instalado	Alta — 117 GB RAM livre
SP	pve-ippri-34	RTX A5000	24 GB	GA102 (Ampere)	✅ Instalado	Baixa — VM desktop consome 121 GB RAM

Total: 144 GB VRAM (72 GB Franca + 72 GB SP)

GPUs antigas (nao uteis para IA):

GTX 750 Ti: pve-labri-21, pve-labri-22, pve-ippri-32

iGPU integrada (uso presencial)

Nodes com CPU AMD Ryzen 7000 (Raphael) possuem iGPU AMD Radeon RDNA2 integrada, ativa e funcional via driver amdgpu. Saidas de video da motherboard (DP + HDMI) podem ser usadas para acesso presencial, liberando a GPU dedicada para compute.

Node	CPU	iGPU	Saidas motherboard	Device
pve-ippri-34	Ryzen 9 7950X	AMD Radeon (Raphael)	2x DP + 1x HDMI	card0 / renderD128
pve-labri-31	Ryzen 9 7950X3D	AMD Radeon (Raphael)	2x DP + 1x HDMI	card0 / renderD128
pve-labri-32	Ryzen 9 7950X3D	AMD Radeon (Raphael)	2x DP + 1x HDMI	card0 / renderD128
pve-labri-33	Ryzen 9 7950X3D	AMD Radeon (Raphael)	2x DP + 1x HDMI	card0 / renderD128

Para uso presencial: basta conectar monitor na porta da motherboard (nao da NVIDIA). GDM/GNOME usa automaticamente a iGPU para display. A GPU dedicada (card1/renderD129) fica livre para CUDA/compute.

Rede

IPs dos nodes

Franca (192.168.0.0/23):

Node	IP principal	IP LINSTOR	IP externo
pve-labri-21	192.168.0.21	10.10.10.5	—
pve-labri-22	192.168.0.22	10.10.10.6	—
pve-labri-23	192.168.0.23	—	—
pve-labri-25	—	—	200.145.122.122 (gateway SSH)
pve-labri-27	192.168.0.27	—	—
pve-labri-31	192.168.0.31	10.10.10.7	—
pve-labri-32	192.168.0.32	10.10.10.8	—
pve-labri-33	192.168.0.33	10.10.10.9	—

SP (192.168.10.0/23):

Node	IP principal	Outras redes
pve-ippri-11	192.168.10.11	192.168.4.11/23 (VLAN 193), 192.168.12.11/24 (VLAN 197), 10.10.20.11/24
pve-ippri-12	192.168.10.12	10.90.90.93/8 (ens6f0)
pve-ippri-31	192.168.10.31	10.10.20.31/24, 192.168.12.31/24 (VLAN 197)
pve-ippri-32	192.168.10.32	192.168.12.32/24 (VLAN 197)
pve-ippri-33	192.168.10.33	10.10.20.33/24, 192.168.12.33/24 (VLAN 197)
pve-ippri-34	192.168.10.34	10.90.90.92/8 (eno2), 192.168.12.34/24 (VLAN 197)

VLANs observadas

VLAN/Tag	Subnet	Bridge	Presente em	Uso provavel
192 (Franca)	192.168.0.0/23	vmbr1	Franca	Rede principal (management + VMs)
192 (SP)	192.168.10.0/23	vmbr1	SP	Rede principal (management + VMs)
193	192.168.4.0/23	vmbr1	SP (11)	A documentar
194	—	vmbr1	SP (11, 31, 32, 33)	A documentar
197	192.168.12.0/24	vmbr1	SP (11, 31, 32, 33, 34)	Lab alunos
—	10.10.10.0/24	dedicada (eno2/enp4s0f0)	Franca (21, 22, 31, 32, 33)	LINSTOR replicacao DRBD (Franca)
—	10.10.20.0/24	vmbr3/enp5s0f0	SP (11, 31, 33)	LINSTOR SP (SSD + NVMe unificados)
—	10.90.90.0/8	ens6f0/eno2	SP (12, 34)	A documentar

K3s

K3s roda diretamente nos hosts Proxmox, nao em VMs.

Host	Papel	Pod CIDR	Interfaces
pve-labri-21	K3s node	10.42.0.0/24	flannel.1, cni0, veths
pve-labri-31	K3s node	10.42.0.0/24	flannel.1, cni0, veths

A VM vm-cpps-02 (VMID 103) existe no node 21 mas o K3s roda no host, nao na VM.

LINSTOR CSI esta ativo — 1 PVC provisionado (pvc-74975490..., 1G) no node 31.

VMs ativas

Franca

VMID	Nome	Node	CPU	RAM	Disco	Storage	Papel
103	vm-cpps-02	labri-21	12c	24 GB	170G + 200G	LINSTOR	K3s apps (Airflow, Authentik, InvenioRDM, etc.)
5002	vyos	labri-22	4c	4 GB	6G	LINSTOR	Firewall/NAT/DNS Franca
5003	debian12-proxy	labri-22	4c	8 GB	60G	LINSTOR	Traefik reverse proxy
106	vm-cpps-13	labri-31	6c	8 GB	100G	LINSTOR	A documentar
108	VM 108	labri-31	6c	8 GB	64G	LINSTOR	A documentar (UEFI, TPM)
102	lantrivm02	labri-23	5c	14 GB	100G + ~8 TB	ZFS	Storage massivo (10 discos)
1001	DataLuta01	labri-27	4c	6 GB	121G	local	Projeto DataLuta
1002	DataLuta02	labri-27	4c	6 GB	85G	local	Projeto DataLuta
204	ubuntu-20.04	labri-27	4c	6 GB	80G	local	Legacy

SP

VMID	Nome	Node	CPU	RAM	Disco	Storage	Papel
5001	pfsense01	ippri-11	4c	4 GB	18G	ZFS	Firewall SP (principal)
5002	pfsense-bkp	ippri-32	4c	4 GB	16G	ZFS	Firewall SP (backup)
1003	UbuntuDesktop2204-02	ippri-34	30c	121 GB	205G	ZFS	Desktop pesado (satura node GPU)
1051	ubuntuServer2404	ippri-12	4c	6 GB	120G	ZFS	Servidor generico

VMs paradas: lantrivm01 (100, Franca), UbuntuServer22.04 (105, Franca), debian13 template (104), Copy-of-VM-debian13 (107), firewall-pfsense (5001, Franca), Copy-of-UbuntuDesktop (1002 SP), ubuntuServer2404-01 (1052 SP), UbuntuDesktop-testes (4950 SP), Copy-of-pfsense01 (5010 SP), Copy-of-pfsense-bkp (5011 SP).

Observacoes e anomalias

K3s no bare metal: os docs diziam “K3s roda em vm-cpps-02” mas o K3s roda diretamente nos hosts Proxmox (21 e 31). A VM vm-cpps-02 existe mas nao e onde o K3s roda
Drivers GPU nao instalados em Franca: 3x RTX A5500 com hardware presente mas sem driver NVIDIA. SP tem driver OK nas 3x A5000
pve-ippri-34 saturado: VM desktop (1003) consome 30 cores e 121 GB RAM num node com GPU A5000. Para usar a GPU, essa VM precisa ser redimensionada ou migrada
3 nodes LINSTOR controller: pve-labri-31, 32 e 33 rodam linstor-controller. O primario e o 32 (10.10.10.8). O 33 tem controller mas nao satellite (nenhum resource replicado nele)
pve-labri-33 subutilizado: 128 GB RAM, 32 cores, RTX A5500, ~14.4T NVMe — praticamente ocioso, sem VMs, sem LINSTOR satellite
Particoes NTFS: pve-ippri-31 e pve-ippri-34 tem discos com particoes NTFS (Windows antigo). Nao estao montadas
Redes nao documentadas: VLANs 193, 194, 197 e subnets 10.10.100.0/24, 10.90.90.0/8 existem mas nao estao nos docs
Nodes offline: pve-labri-24 (Franca), pve-ippri-13 e pve-ippri-14 (SP) nao respondem
Uptime dispares: pve-labri-25 e pve-labri-27 com 400+ dias de uptime (nunca reiniciados). Nodes GPU (31-33) com uptimes curtos (1-62 dias) sugerem instalacao/config recente
SP sem LINSTOR: todo storage em SP e ZFS local. Nao ha replicacao de storage entre nodes SP nem entre sites
HDD sem uso em Franca: pve-labri-21 tem 2x 7.3T + 2x 1.7T sem filesystem. pve-labri-22 tem 1x 7.3T sem uso. Potencial para expandir ZFS ou LINSTOR
Roadmaps incorretos: diziam A5000 em Franca e A6000 em SP. Realidade: A5500 em Franca, A5000 em SP

Problemas conhecidos durante upgrade

LINSTOR postinst trava no systemctl restart

Sintoma: dpkg --configure trava indefinidamente. pstree mostra:

dpkg → linstor-satellite.postinst → deb-systemd-invoke → systemctl (travado)

Causa: o postinst do linstor-satellite (e linstor-controller) chama systemctl restart que espera o servico responder. Durante upgrade, o servico pode nao conseguir iniciar (versao incompativel, config alterada).

Afeta tambem: openssh-server, pve-manager, pvedaemon, gdm3 — todos tem postinst que reinicia servicos.

Solucao manual: kill <PID do systemctl> — o dpkg continua.

Solucao automatizada: script config/scripts/pve-upgrade.sh para e desabilita esses servicos antes do upgrade e roda um loop que mata systemctl travados durante o configure.

LINSTOR VERSION MISMATCH entre nodes

Sintoma: linstor node list mostra um node como OFFLINE(VERSION MISMATCH).

Causa: node com LINSTOR atualizado (ex: v1.33.2 do Debian 13) nao consegue falar com controller que roda versao anterior (v1.33.1 do Debian 12), ou vice-versa.

Impacto: o node offline nao participa da replicacao DRBD, mas os dados nos outros nodes continuam acessiveis. VMs que usam resources replicados nesse node ficam com menos replicas (degradado mas funcional).

Solucao: atualizar todos os nodes LINSTOR para a mesma versao. Apos upgrade de todos, linstor node list deve mostrar tudo Online.

SSH inacessivel apos upgrade PVE 8→9

Sintoma: node pinga mas SSH recusa conexao (Connection reset by peer ou Permission denied).

Causa: o upgrade do openssh-server regenera host keys e pode reconfigurar /etc/ssh/sshd_config. As authorized_keys podem ser perdidas.

Solucao: acessar via Proxmox web shell (de outro node) e:

# Verificar sshd
systemctl restart sshd
# Restaurar authorized_keys se necessario
mkdir -p /root/.ssh
echo '<chave publica>' > /root/.ssh/authorized_keys
chmod 700 /root/.ssh && chmod 600 /root/.ssh/authorized_keys

Prevencao: o script pve-upgrade.sh faz backup de /root/.ssh/authorized_keys antes do upgrade.

Manutencao

Limpeza do /boot

Proxmox acumula kernels antigos no /boot a cada atualizacao. Quando enche (920 MB tipico), novos upgrades falham.

Script: config/scripts/cleanup-boot.sh

# Via SSH no node (como root):

# Preview — mostra o que faria sem executar
./cleanup-boot.sh --dry-run

# Interativo — pede confirmacao antes de remover
./cleanup-boot.sh

# Automatico — para Ansible/cron, sem confirmacao
./cleanup-boot.sh --force

O script mantem o kernel rodando + o mais novo instalado, remove o resto, gera initrd se faltar, e atualiza o GRUB.

Recomendacao: rodar antes de cada upgrade de PVE.

Upgrade Proxmox 8.4 → 9.1 (Debian 12 → 13)

Versoes

Componente	Atual	Alvo
Proxmox VE	8.4.16	9.1
Debian	12 (Bookworm)	13 (Trixie)
Kernel	6.8.12-pve	6.12+
LINSTOR	A verificar	v1.33.2 (ultima estavel, 2026-04-08)
DRBD	8.4.11 (node 25)	9.x (compatibilidade a validar)

Procedimento oficial (in-place, node a node)

Referencia: https://pve.proxmox.com/wiki/Upgrade_from_8_to_9

Para cada node, na ordem:

1. Validar pre-requisitos
   - PVE >= 8.4.1 (temos 8.4.16 ✓)
   - Backups de todas as VMs testados
   - Acesso console (IPMI/fisico, nao so SSH)
   - >= 10 GB disco livre
   - pve8to9 --full (checklist automatizado)

2. Migrar VMs para outros nodes
   - VMs LINSTOR: live migration (dados replicados em 2+ nodes)
   - VMs ZFS: offline migration ou backup+restore
   - Nota: migrar de PVE 9 → PVE 8 NAO e suportado (so ida)

3. Atualizar repositorios
   sed -i 's/bookworm/trixie/g' /etc/apt/sources.list
   sed -i 's/bookworm/trixie/g' /etc/apt/sources.list.d/*.list
   # Adicionar repositorio PVE 9 (enterprise ou no-subscription)
   apt update

4. Upgrade
   apt dist-upgrade
   # Revisar config files quando perguntado (SSH, GRUB, LVM)

5. Reboot + validar
   reboot
   pveversion -v  # deve mostrar 9.x
   # Verificar VMs, storage, rede, LINSTOR

Ordem de upgrade dos nodes

Logica: comecar pelos mais vazios, terminar pelos mais criticos.

Onda 1 — Nodes GPU vazios (Franca)

Ordem	Node	VMs a migrar	Risco	Nota
1	pve-labri-33	Nenhuma	Minimo	Totalmente vazio. Validar LINSTOR controller apos upgrade
2	pve-labri-32	Nenhuma	Baixo	LINSTOR controller primario — migrar role de controller antes
3	pve-labri-25	Nenhuma	Baixo	Gateway SSH. Testar acesso externo apos upgrade

Onda 2 — Nodes GPU SP

Ordem	Node	VMs a migrar	Risco	Nota
4	pve-ippri-33	ubuntuServer2404-01 (parada)	Baixo	✅ Concluido 2026-04-13 — upgrade limpo, sem problemas
5	pve-ippri-31	Copy-of-UbuntuDesktop (parada)	Baixo	✅ Concluido 2026-04-14 — transicao t64 problemática, resolvido iterativamente
6	pve-ippri-34	UbuntuDesktop2204-02 (30c/121G)	Medio	✅ Concluido 2026-04-20 — postfix main.cf perdido, cpp doc conflict, resolvidos iterativamente
7	pve-ippri-32	pfsense-bkp	Baixo	✅ Concluido 2026-04-14 — mais problemático: rede, QEMU, libs duplicadas, GNOME schema. Ver lessons learned

Onda 3 — Nodes criticos Franca (VMs em producao)

Ordem	Node	VMs a migrar	Risco	Nota
8	pve-labri-31	vm-cpps-13 (106), VM 108	Medio	✅ Concluido 2026-04-20 — VMs 106/107/108 removidas, VFIO desabilitado, driver NVIDIA 595.58.03 instalado (.run)
9	pve-labri-27	DataLuta01, DataLuta02, ubuntu-20.04	Medio	RAM apertada (16 GB). VMs em local storage — backup antes
10	pve-labri-21	vm-cpps-02 (K3s apps)	Alto	K3s principal + LINSTOR satellite. Migrar vm-cpps-02 para node 31 (ja PVE 9)
11	pve-labri-22	VyOS, debian-proxy, muitas VMs ZFS	Alto	✅ Concluido 2026-04-20 — sources já em trixie, upgrade via apt dist-upgrade. Conflito cpp resolvido

Onda 4 — SP restante

Ordem	Node	VMs a migrar	Risco	Nota
12	pve-ippri-12	ubuntuServer2404, 9x VMs ZFS (892G cada)	Alto	Storage massivo — migrar VMs grandes leva tempo
13	pve-ippri-11	pfsense01 (firewall principal SP)	Alto	Ultimo — firewall SP. Migrar para node ja atualizado

Nodes offline (24, 13, 14): avaliar se vale a pena trazer online. Se sim, instalar PVE 9 limpo.

LINSTOR durante o upgrade

Controller ativo no pve-labri-31 (10.10.10.7) — deve permanecer online durante upgrades
Standby controllers em 21 e 22 — DB sincronizado a cada 3h
Antes de atualizar um node com LINSTOR: verificar que resources estao replicados em outro node
Apos upgrade: verificar versao do JAR (java -cp "/usr/share/linstor-server/lib/*" com.linbit.linstor.core.Satellite --version). Se VERSION MISMATCH, copiar JARs do controller ativo
DRBD resources replicados em 2+ nodes — se 1 node sai, dados continuam acessiveis
ATENCAO: postinst do linstor-satellite trava em systemctl restart. Matar o systemctl travado e reiniciar manualmente

Riscos conhecidos (PVE 8→9)

Risco	Impacto	Mitigacao
Renomeacao de interfaces de rede	Perde conectividade	Acesso IPMI/fisico, usar `pve-network-interface-pinning`
PCI passthrough quebrado no kernel 6.14	VMs com GPU nao iniciam	Usar kernel 6.12 (pin) ate fix
cgroup v1 removido	LXC antigos falham	Verificar systemd >= 231 nos containers
`/tmp` vira tmpfs (50% RAM)	Pressao de memoria	Monitorar
LINSTOR compatibilidade	Storage indisponivel	Testar primeiro no node 33 (vazio)
`sysctl.conf` ignorado	Configs de rede perdidas	Migrar para `/etc/sysctl.d/`

Checklist pos-upgrade (por node)

[ ] pveversion -v mostra 9.x
[ ] Todas as VMs anteriores do node voltam a funcionar
[ ] LINSTOR satellite reconecta ao controller (se aplicavel)
[ ] DRBD resources sincronizam (drbdadm status all)
[ ] K3s node healthy (kubectl get nodes — se aplicavel)
[ ] Rede funcional (ping entre nodes, acesso externo)
[ ] GPU visivel (lspci | grep NVIDIA)
[ ] nvidia-smi funciona (se driver instalado)
[ ] Storage OK (pvesm status, df -h)
[ ] Proxmox web UI acessivel (https://IP:8006)

Log de upgrades realizados

pve-labri-33 — 2026-04-13 (EM ANDAMENTO)

Estado inicial: PVE 8.4.16, kernel 6.8.12-18-pve, sem VMs, LINSTOR controller (sem satellite)

Passos executados:

apt update && apt dist-upgrade — atualizado para PVE 8.4.18 ✓
pve8to9 --full — checklist executado. Resultados:
- 36 PASSED, 7 SKIPPED, 3 WARN, 2 FAIL
- FAIL: 1 node offline (pve-labri-24) — pre-existente, nao bloqueante
- FAIL: pvescheduler inactive — corrigido com systemctl enable --now
- WARN: sem NTP — chrony instalado
- WARN: DKMS modules (DRBD) — esperado, recompila no upgrade
- WARN: repo LINBIT suite proxmox-8 — atualizado para proxmox-9
Repositorios atualizados para trixie + PVE 9 no-subscription ✓
apt full-upgrade — upgrade parcial. Problemas encontrados:
- LINSTOR postinst travava em systemctl restart — destravado manualmente (kill systemctl)
- DNS quebrou apos reboot — deb.debian.org nao resolvia. Corrigido adicionando 8.8.8.8 e 1.1.1.1 ao /etc/resolv.conf
- Pacotes Python 3.11 (Debian 12) bloqueavam upgrade — dependiam de python3 < 3.12 mas Python 3.13 ja instalado. Resolvido com dpkg --force-depends --purge dos pacotes Python antigos
- Pacotes desktop GNOME (uim, wpasupplicant, xwayland, samba, libreoffice) criavam cadeia circular de dependencias com libs t64 (Debian 13 renomeia libglib2.0-0 → libglib2.0-0t64). Resolvido iterativamente com dpkg --force-depends
- pve-apt-hook bloqueava apt dist-upgrade — exigia apt full-upgrade
- Abordagem final: baixar todos os ~1870 pacotes restantes, dpkg --force-depends -i, dpkg --configure --force-depends -a com loop matando systemctl travados
Reboot executado ✓
SSH inacessivel apos reboot — node pinga mas SSH recusa conexao (Connection reset by peer). Provavel causa: sshd reconfigurado no upgrade Debian 13 ou host keys regeneradas

Estado atual: node pinga (rede OK), SSH nao funciona. Requer acesso console (IPMI/fisico ou Proxmox web shell) para:

Verificar systemctl status sshd
Reiniciar sshd se necessario
Validar pveversion, kernel, LINSTOR, GPU

Checklist pendente:

[ ] SSH funcional
[ ] pveversion -v mostra 9.x
[ ] Kernel 6.12+ bootado
[ ] LINSTOR controller operacional
[ ] GPU RTX A5500 visivel (lspci)
[ ] Rede entre nodes funcional
[ ] Proxmox web UI acessivel
[ ] Pacotes desktop GNOME funcional (workstation)

Licoes aprendidas:

apt full-upgrade (nao dist-upgrade) e obrigatorio para PVE 8→9
Nodes com desktop GNOME sao significativamente mais complexos de atualizar — a transicao t64 do Debian 13 quebra dezenas de pacotes GTK/Qt/Python
LINSTOR postinst trava em systemctl restart durante dpkg configure — precisa de intervencao manual
DNS pode quebrar apos reboot — ter nameservers publicos como fallback
Acesso console (IPMI/fisico) e essencial — SSH pode falhar apos upgrade