Inventário Proxmox
Inventario Proxmox — Estado Atual
Mapeamento via SSH em 2026-04-12. Dois clusters Proxmox independentes (Franca e SP).
Visao geral
Cluster Franca (clusterlabri07) Cluster SP (clusterippri)9 nodes, 8 online 8 nodes, 6 online
pve-labri-21 (32c, 64G) pve-ippri-11 (6c, 72G) pve-labri-22 (32c, 64G) pve-ippri-12 (6c, 72G) pve-labri-23 (8c, 32G) pve-ippri-13 OFFLINE pve-labri-24 OFFLINE pve-ippri-14 OFFLINE pve-labri-25 (12c, 32G) pve-ippri-31 (24c, 128G) [A5000] pve-labri-27 (12c, 16G) pve-ippri-32 (24c, 64G) pve-labri-31 (32c, 128G) [A5500] pve-ippri-33 (24c, 128G) [A5000] pve-labri-32 (32c, 128G) [A5500] pve-ippri-34 (32c, 128G) [A5000] pve-labri-33 (32c, 128G) [A5500]
Totais: Franca: 172 cores, 592 GB RAM, 3x RTX A5500 (72 GB VRAM), ~13 TiB LINSTOR NVMe SP: 136 cores, 720 GB RAM, 3x RTX A5000 (72 GB VRAM), ZFS NVMe Combinado: 308 cores, 1.3 TB RAM, 144 GB VRAM, Proxmox 8.4/9.1 (misto)Cluster Franca (clusterlabri07)
Nodes
pve-labri-21 — K3s + LINSTOR satellite
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 5950X — 16 cores / 32 threads @ 3.4 GHz |
| RAM | 64 GB (27 GB usada, 34 GB disponivel) |
| GPU | GTX 750 Ti (sem driver NVIDIA — nao util para IA) |
| OS disk | SSD 224G (/ 160G, /home 47G) |
| NVMe | 1x 3.6T (LINSTOR LVM_THIN, 3.13 TiB livre) |
| HDD | 2x 7.3T + 2x 1.7T (sem uso aparente, sem filesystem) |
| Rede | 192.168.0.21/23 (vmbr1), 10.10.10.5 (LINSTOR) |
| Servicos | K3s (bare metal), LINSTOR satellite, Proxmox, ZFS |
| VMs | vm-cpps-02 (VMID 103, K3s apps — 12c/24G/370G LINSTOR), lantrivm01 (100, parada) |
| Uptime | 8 dias |
| Kernel | 6.8.12-18-pve |
pve-labri-22 — VyOS + Traefik + LINSTOR satellite — PVE 9
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 5950X — 16 cores / 32 threads @ 3.4 GHz |
| RAM | 64 GB (44 GB usada, 18 GB disponivel) |
| GPU | GTX 750 Ti (sem driver) |
| PVE | 9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20 |
| Kernel | 6.17.13-3-pve |
| OS disk | SSD 224G (/ 160G, /home 47G) |
| NVMe | 1x 3.6T (LINSTOR LVM_THIN, 3.20 TiB livre) + 1x 3.6T (livre) |
| HDD | 2x 7.3T (1x ZFS, 1x sem uso) |
| Rede | 192.168.0.22/23 (vmbr1), 10.10.10.6 (LINSTOR) |
| Servicos | LINSTOR satellite, Proxmox, ZFS |
| VMs | VyOS (5002, 4c/4G/6G LINSTOR), debian-proxy (5003, 4c/8G/60G LINSTOR), ~15 VMs ZFS |
| Nota | Node mais carregado de Franca (44 GB usada) — hospeda muitas VMs ZFS |
pve-labri-23 — Storage massivo (DataLuta)
| Aspecto | Detalhe |
|---|---|
| CPU | AMD FX-8320E — 4 cores / 8 threads @ 3.2 GHz (mais antigo do cluster) |
| RAM | 32 GB (27 GB usada, 4 GB disponivel) |
| GPU | AMD Radeon 3000 (integrada, sem uso) |
| OS disk | SSD 112G |
| HDD | 2x 7.3T (ZFS mirror) |
| Rede | 192.168.0.23/23 (vmbr1) |
| Servicos | Proxmox, ZFS |
| VMs | lantrivm02 (102) — 5c/14G + 10 discos totalizando ~8 TB (920G x8 + 450G x2) |
| Uptime | 87 dias |
| Nota | CPU fraca, RAM quase cheia. Usado basicamente como storage server para lantrivm02 |
pve-labri-24 — OFFLINE
Nao responde. Sem informacoes.
pve-labri-25 — Gateway SSH externo
| Aspecto | Detalhe |
|---|---|
| CPU | Intel i5-12500 — 6 cores / 12 threads @ 4.0 GHz |
| RAM | 32 GB (2.7 GB usada, 30 GB disponivel) |
| GPU | Nenhuma |
| OS disk | SSD 88G |
| Rede | IP publico 200.145.122.122 (acesso externo SSH) |
| Servicos | Proxmox (sem VMs) |
| VMs | Nenhuma |
| Uptime | 424 dias (mais antigo uptime do cluster) |
| Nota | Serve como jump host para acesso externo. Sem carga |
pve-labri-27 — DataLuta VMs
| Aspecto | Detalhe |
|---|---|
| CPU | Intel i5-12500 — 6 cores / 12 threads @ 4.0 GHz |
| RAM | 16 GB (13 GB usada, 1.8 GB disponivel) |
| GPU | Intel UHD 770 (integrada) |
| OS disk | NVMe 477G |
| HDD | 1x 7.3T (ZFS) |
| Rede | 192.168.0.27/23 (vmbr1) |
| Servicos | Proxmox, ZFS |
| VMs | DataLuta01 (1001, 4c/6G), DataLuta02 (1002, 4c/6G), ubuntu-20.04 (204, 4c/6G) |
| Uptime | 408 dias |
| Nota | RAM quase cheia (13/16 GB). Node com menor capacidade do cluster |
pve-labri-31 — GPU + LINSTOR controller — PVE 9
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz (top de linha, 3D V-Cache) |
| RAM | 128 GB |
| GPU | NVIDIA RTX A5500 (24 GB VRAM) — driver 595.58.03, nvidia-smi OK, CUDA 13.2 |
| iGPU | AMD Radeon (Raphael) — ativa, saidas DP+HDMI na motherboard |
| PVE | 9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20 |
| Kernel | 6.17.13-3-pve |
| OS disk | SSD 233G |
| NVMe | 1x 3.6T (LINSTOR LVM_THIN, 3.13 TiB livre) + 3x 3.6T NVMe livres |
| HDD | 2x 1.7T |
| Rede | 192.168.0.31/23 (vmbr1), 10.10.10.7 (LINSTOR) |
| Servicos | LINSTOR controller + satellite, Proxmox |
| VMs | debian13 (104, parada) |
| Nota | Node principal GPU Franca. ~10.8T NVMe livre. VFIO removido, driver direto no host |
pve-labri-32 — LINSTOR controller primario + GPU
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz |
| RAM | 128 GB (4.5 GB usada, 120 GB disponivel) |
| GPU | NVIDIA RTX A5500 (24 GB VRAM) — driver NAO instalado |
| OS disk | SSD 119G |
| NVMe | 1x 3.6T (LINSTOR LVM_THIN, 3.16 TiB livre) + 3x 3.6T NVMe livres |
| HDD | 2x 1.7T |
| Rede | 192.168.0.32/23 (eno1), 10.10.10.8 (eno2 — LINSTOR controller primario) |
| Servicos | LINSTOR controller + satellite, Proxmox, ZFS |
| VMs | Nenhuma |
| Uptime | 62 dias |
| Nota | Node mais ocioso do cluster (4.5 GB usada de 128 GB). LINSTOR controller IP que o Proxmox referencia. ~10.8T NVMe livre |
pve-labri-33 — GPU + LINSTOR controller backup
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 7950X3D — 16 cores / 32 threads @ 4.2 GHz |
| RAM | 128 GB (3.9 GB usada, 121 GB disponivel) |
| GPU | NVIDIA RTX A5500 (24 GB VRAM) — driver NAO instalado |
| OS disk | SSD 112G |
| NVMe | 1x 3.6T (LINSTOR LVM_THIN, vazio) + 3x 3.6T NVMe livres |
| Rede | 192.168.0.33/23 (vmbr1), 10.10.10.9 (eno2, LINSTOR), 192.168.0.48/23 (vmbr2) |
| Servicos | LINSTOR controller, Proxmox, ZFS |
| VMs | Nenhuma |
| Uptime | 61 dias |
| Nota | Node mais ocioso do cluster junto com 32. Nenhuma VM, nenhum LINSTOR resource. ~14.4T NVMe total. Satellite LINSTOR nao ativo (so controller) |
Cluster SP (clusterippri)
Nodes
pve-ippri-11 — Firewall SP + VMs legadas
| Aspecto | Detalhe |
|---|---|
| CPU | 6 cores (modelo nao identificado, sem hyperthreading) |
| RAM | 72 GB (16 GB usada, 54 GB disponivel) |
| GPU | Matrox G200EH (management only) |
| Storage | 3x HDD 5.5T + 2x HDD 1.7T + SSD 224G |
| Rede | 192.168.10.11/23 (VLAN 192), 192.168.4.11/23 (VLAN 193), 192.168.12.11/24 (VLAN 197), 10.10.20.11/24 (vmbr3) |
| Servicos | Proxmox, ZFS |
| VMs | pfsense01 (5001, firewall SP — running), Copy-of-pfsense01 (5010, parada), VMs ZFS (zd*) |
| Uptime | 122 dias |
pve-ippri-12 — Servidor de VMs (storage pesado)
| Aspecto | Detalhe |
|---|---|
| CPU | 6 cores (sem hyperthreading) |
| RAM | 72 GB (24 GB usada, 46 GB disponivel) |
| GPU | Matrox G200EH (management only) |
| Storage | 2x HDD 5.5T (ZFS) + HDD 5.5T + 2x HDD 1.7T + SSD 224G |
| Rede | 192.168.10.12/23 (VLAN 192), 10.90.90.93/8 (ens6f0) |
| Servicos | Proxmox, ZFS |
| VMs | ubuntuServer2404 (1051, 4c/6G), 9 VMs ZFS com 892 GB cada (~8 TB total) |
| Uptime | 413 dias |
| Nota | Storage massivo via ZFS zvols |
pve-ippri-13 / pve-ippri-14 — OFFLINE
Nao respondem. Sem informacoes.
pve-ippri-31 — GPU SP (A5000, driver OK) — PVE 9
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz |
| RAM | 128 GB (6 GB usada, 119 GB disponivel) |
| GPU | NVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK, CUDA 13.0 |
| PVE | 9.1.7 (Debian 13 Trixie) — atualizado 2026-04-14 |
| Kernel | 6.17.13-2-pve |
| OS disk | SSD 224G |
| NVMe | 2x 3.6T (livres) |
| HDD | SSD 932G (particoes NTFS — Windows antigo), RAID 2x 1.7T |
| Rede | 192.168.10.31/23 (VLAN 192), 10.10.20.31/24 (enp5s0f0), 192.168.12.31/24 (VLAN 197) |
| Servicos | Proxmox, ZFS, GNOME 48 |
| VMs | Copy-of-UbuntuDesktop (1002, parada) |
| Nota | Pronto para workloads GPU. 119 GB RAM livre + 7.2T NVMe livre |
pve-ippri-32 — Firewall backup SP — PVE 9
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz |
| RAM | 64 GB (32 GB usada, 30 GB disponivel) |
| GPU | GTX 750 Ti — driver 580.126.09 (legacy), sem uso para IA |
| PVE | 9.1.7 (Debian 13 Trixie) — atualizado 2026-04-14 |
| Kernel | 6.17.13-2-pve |
| OS disk | SSD 224G |
| NVMe | 932G (ZFS) + 233G (ZFS) |
| HDD | 2x HDD 5.5T + HDD 2.7T |
| Rede | 192.168.10.32/23 (VLAN 192), 192.168.12.32/24 (VLAN 197) |
| Servicos | Proxmox, ZFS, GNOME 48 |
| VMs | pfsense-bkp (5002, migrada para ippri-33 durante upgrade) |
| Nota | GTX 750 Ti (Maxwell) requer driver legacy 580.xx — driver 535 nao compila no kernel 6.17, driver 595+ nao suporta a GPU |
pve-ippri-33 — GPU SP (A5000, driver OK) — PVE 9
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 3900X — 12 cores / 24 threads @ 3.8 GHz |
| RAM | 128 GB (8.5 GB usada, 117 GB disponivel) |
| GPU | NVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK, CUDA 13.0 |
| PVE | 9.1.7 (Debian 13 Trixie) — atualizado 2026-04-13 |
| Kernel | 6.17.13-2-pve |
| OS disk | SSD 224G |
| NVMe | 2x 3.6T (1x ZFS, 1x livre) |
| HDD | 2x 2.7T |
| Rede | 192.168.10.33/23 (VLAN 192), 10.10.20.33/24 (enp5s0f1), 192.168.12.33/24 (VLAN 197) |
| Servicos | Proxmox, ZFS, GNOME 48 |
| VMs | ubuntuServer2404-01 (1052, parada), pfsense-bkp (5002, migrada do ippri-32) |
| Nota | Pronto para workloads GPU. 117 GB RAM livre. Primeiro node SP atualizado (upgrade limpo) |
pve-ippri-34 — GPU SP (A5000, driver OK) — PVE 9
| Aspecto | Detalhe |
|---|---|
| CPU | AMD Ryzen 9 7950X — 16 cores / 32 threads @ 4.5 GHz (mais rapido de SP) |
| RAM | 128 GB |
| GPU | NVIDIA RTX A5000 (24 GB VRAM) — driver 580.126.09, nvidia-smi OK |
| iGPU | AMD Radeon (Raphael) — ativa, card0/renderD128, saidas DP+HDMI na motherboard |
| PVE | 9.1.8 (Debian 13 Trixie) — atualizado 2026-04-20 |
| Kernel | 6.17.13-3-pve |
| OS disk | SSD 224G |
| NVMe | NVMe 224G + NVMe 932G (ZFS) + 2x NVMe 3.6T (1x ZFS, 1x livre) |
| HDD | 3x SSD/HDD com particoes NTFS (Windows antigo) |
| Rede | 192.168.10.34/23 (VLAN 192), 10.90.90.92/8 (eno2), 192.168.12.34/24 (VLAN 197) |
| Servicos | Proxmox, ZFS, GNOME |
| VMs | UbuntuDesktop2204-02 (1003, 30c/121G — consome quase toda a RAM) |
| Nota | Node GPU com VM desktop pesada. iGPU disponivel para display presencial, A5000 para compute |
Storage
LINSTOR (Franca only)
Controller ativo: pve-labri-31 (10.10.10.7) — reconstruido em 2026-04-15Controllers standby: pve-labri-21 (10.10.10.5), pve-labri-22 (10.10.10.6) Pacote instalado, servico disabled. DB sincronizado via backup.Rede dedicada: 10.10.10.0/24Versao: LINSTOR 1.33.2, DRBD 9
Nodes (todos Combined): pve-labri-21 10.10.10.5 pool: 3.27 TiB (3.08 livre) — controller standby pve-labri-22 10.10.10.6 pool: 3.27 TiB (3.20 livre) — controller standby pve-labri-31 10.10.10.7 pool: 3.27 TiB (3.13 livre) — controller ativo pve-labri-32 10.10.10.8 OFFLINE (fora do ar) pve-labri-33 10.10.10.9 OFFLINE (SSH quebrado)
Total online: ~9.8 TiB NVMe thin-provisionedDriver: LVM_THIN sobre NVMeResource group: pve-rg (place-count=2, storage-pool=DfltStorPool)Backup do LINSTOR DB:
O controller usa H2 (banco local em /var/lib/linstor/linstordb.mv.db, ~500 KB).
Com H2, apenas 1 controller pode estar ativo por vez. Os outros sao standby quente.
Cron: /etc/cron.d/linstor-backup (pve-labri-31)Frequencia: a cada 3 horas (0 */3 * * *)Script: /usr/local/bin/linstor-backup-db.shAcao: copia linstordb.mv.db para /var/lib/linstor/backups/ local + scp para pve-labri-21 e pve-labri-22 (/var/lib/linstor/backups/)Retencao: 7 diasPerda maxima: 3 horas de alteracoes no LINSTOR (dados DRBD nao se perdem)Failover do controller (se pve-labri-31 cair):
# No node standby (21 ou 22):# 1. Restaurar DB do backup mais recentecp /var/lib/linstor/backups/linstordb-ULTIMO.mv.db /var/lib/linstor/linstordb.mv.db
# 2. Iniciar controllersystemctl start linstor-controller
# 3. Atualizar todos os nodes para apontar para o novo controller# Em cada node: /etc/linstor/linstor-client.conf → controllers=NOVO_IP# No Proxmox: pvesm set linstor_storage --controller NOVO_IP
# 4. Reiniciar satellites nos outros nodes# systemctl restart linstor-satelliteDRBD Resources reimportados (2026-04-15):
| Resource | Tamanho | InUse em | Replicas | Papel |
|---|---|---|---|---|
| pm-cde8bc1c | 170G | labri-21 | 21, 31 (Diskless) | vm-cpps-02 disco 1 — sem redundancia |
| pm-8996a746 | 200G | labri-21 | 21, 22 (Diskless) | vm-cpps-02 disco 2 — sem redundancia |
| pm-fcdb1882 | 6G | labri-22 | 22, 31 | VyOS |
| pm-ddb23589 | 60G | labri-22 | 22, 31 | debian-proxy |
| pm-2f95733c | 100G | labri-31 | 31, 22, 21 (Diskless) | vm-cpps-13 |
| pm-70e39234 | 64G | labri-31 | 31, 22, 21 (Diskless) | VM 108 |
Nota: resources que eram Unused (pm-19ee30ca, pm-3318f888, pm-65ef2bed, pm-c7cf8b4b) e o PVC K8s nao foram reimportados no LINSTOR. Os LVs ainda existem nos discos NVMe dos satellites.
ZFS
| Pool | Nodes | Tipo | Uso |
|---|---|---|---|
| zfs-rpl01-vms | labri-21,22,23,27 | HDD | VMs secundarias (lantrivm02 com ~8 TB) |
| zfs-rpl-nvme-01-vms | labri-21,22,31 / ippri-32 | NVMe | VMs de alta performance |
| ZFS local | Todos os nodes SP | HDD/NVMe | VMs e zvols |
GPUs
| Site | Node | Modelo | VRAM | Arquitetura | Driver | Disponibilidade |
|---|---|---|---|---|---|---|
| Franca | pve-labri-31 | RTX A5500 | 24 GB | GA102 (Ampere) | ⚠️ Nao instalado | Alta — 110 GB RAM livre, 32c ociosos |
| Franca | pve-labri-32 | RTX A5500 | 24 GB | GA102 (Ampere) | ⚠️ Nao instalado | Alta — 120 GB RAM livre, 32c ociosos |
| Franca | pve-labri-33 | RTX A5500 | 24 GB | GA102 (Ampere) | ⚠️ Nao instalado | Alta — 121 GB RAM livre, 32c ociosos |
| SP | pve-ippri-31 | RTX A5000 | 24 GB | GA102 (Ampere) | ✅ Instalado | Alta — 119 GB RAM livre |
| SP | pve-ippri-33 | RTX A5000 | 24 GB | GA102 (Ampere) | ✅ Instalado | Alta — 117 GB RAM livre |
| SP | pve-ippri-34 | RTX A5000 | 24 GB | GA102 (Ampere) | ✅ Instalado | Baixa — VM desktop consome 121 GB RAM |
Total: 144 GB VRAM (72 GB Franca + 72 GB SP)
GPUs antigas (nao uteis para IA):
- GTX 750 Ti: pve-labri-21, pve-labri-22, pve-ippri-32
iGPU integrada (uso presencial)
Nodes com CPU AMD Ryzen 7000 (Raphael) possuem iGPU AMD Radeon RDNA2 integrada, ativa e funcional via driver amdgpu. Saidas de video da motherboard (DP + HDMI) podem ser usadas para acesso presencial, liberando a GPU dedicada para compute.
| Node | CPU | iGPU | Saidas motherboard | Device |
|---|---|---|---|---|
| pve-ippri-34 | Ryzen 9 7950X | AMD Radeon (Raphael) | 2x DP + 1x HDMI | card0 / renderD128 |
| pve-labri-31 | Ryzen 9 7950X3D | AMD Radeon (Raphael) | 2x DP + 1x HDMI | card0 / renderD128 |
| pve-labri-32 | Ryzen 9 7950X3D | AMD Radeon (Raphael) | 2x DP + 1x HDMI | card0 / renderD128 |
| pve-labri-33 | Ryzen 9 7950X3D | AMD Radeon (Raphael) | 2x DP + 1x HDMI | card0 / renderD128 |
Para uso presencial: basta conectar monitor na porta da motherboard (nao da NVIDIA). GDM/GNOME usa automaticamente a iGPU para display. A GPU dedicada (card1/renderD129) fica livre para CUDA/compute.
Rede
IPs dos nodes
Franca (192.168.0.0/23):
| Node | IP principal | IP LINSTOR | IP externo |
|---|---|---|---|
| pve-labri-21 | 192.168.0.21 | 10.10.10.5 | — |
| pve-labri-22 | 192.168.0.22 | 10.10.10.6 | — |
| pve-labri-23 | 192.168.0.23 | — | — |
| pve-labri-25 | — | — | 200.145.122.122 (gateway SSH) |
| pve-labri-27 | 192.168.0.27 | — | — |
| pve-labri-31 | 192.168.0.31 | 10.10.10.7 | — |
| pve-labri-32 | 192.168.0.32 | 10.10.10.8 | — |
| pve-labri-33 | 192.168.0.33 | 10.10.10.9 | — |
SP (192.168.10.0/23):
| Node | IP principal | Outras redes |
|---|---|---|
| pve-ippri-11 | 192.168.10.11 | 192.168.4.11/23 (VLAN 193), 192.168.12.11/24 (VLAN 197), 10.10.20.11/24 |
| pve-ippri-12 | 192.168.10.12 | 10.90.90.93/8 (ens6f0) |
| pve-ippri-31 | 192.168.10.31 | 10.10.20.31/24, 192.168.12.31/24 (VLAN 197) |
| pve-ippri-32 | 192.168.10.32 | 192.168.12.32/24 (VLAN 197) |
| pve-ippri-33 | 192.168.10.33 | 10.10.20.33/24, 192.168.12.33/24 (VLAN 197) |
| pve-ippri-34 | 192.168.10.34 | 10.90.90.92/8 (eno2), 192.168.12.34/24 (VLAN 197) |
VLANs observadas
| VLAN/Tag | Subnet | Bridge | Presente em | Uso provavel |
|---|---|---|---|---|
| 192 (Franca) | 192.168.0.0/23 | vmbr1 | Franca | Rede principal (management + VMs) |
| 192 (SP) | 192.168.10.0/23 | vmbr1 | SP | Rede principal (management + VMs) |
| 193 | 192.168.4.0/23 | vmbr1 | SP (11) | A documentar |
| 194 | — | vmbr1 | SP (11, 31, 32, 33) | A documentar |
| 197 | 192.168.12.0/24 | vmbr1 | SP (11, 31, 32, 33, 34) | Lab alunos |
| — | 10.10.10.0/24 | dedicada (eno2/enp4s0f0) | Franca (21, 22, 31, 32, 33) | LINSTOR replicacao DRBD (Franca) |
| — | 10.10.20.0/24 | vmbr3/enp5s0f0 | SP (11, 31, 33) | LINSTOR SP (SSD + NVMe unificados) |
| — | 10.90.90.0/8 | ens6f0/eno2 | SP (12, 34) | A documentar |
K3s
K3s roda diretamente nos hosts Proxmox, nao em VMs.
| Host | Papel | Pod CIDR | Interfaces |
|---|---|---|---|
| pve-labri-21 | K3s node | 10.42.0.0/24 | flannel.1, cni0, veths |
| pve-labri-31 | K3s node | 10.42.0.0/24 | flannel.1, cni0, veths |
A VM vm-cpps-02 (VMID 103) existe no node 21 mas o K3s roda no host, nao na VM.
LINSTOR CSI esta ativo — 1 PVC provisionado (pvc-74975490..., 1G) no node 31.
VMs ativas
Franca
| VMID | Nome | Node | CPU | RAM | Disco | Storage | Papel |
|---|---|---|---|---|---|---|---|
| 103 | vm-cpps-02 | labri-21 | 12c | 24 GB | 170G + 200G | LINSTOR | K3s apps (Airflow, Authentik, InvenioRDM, etc.) |
| 5002 | vyos | labri-22 | 4c | 4 GB | 6G | LINSTOR | Firewall/NAT/DNS Franca |
| 5003 | debian12-proxy | labri-22 | 4c | 8 GB | 60G | LINSTOR | Traefik reverse proxy |
| 106 | vm-cpps-13 | labri-31 | 6c | 8 GB | 100G | LINSTOR | A documentar |
| 108 | VM 108 | labri-31 | 6c | 8 GB | 64G | LINSTOR | A documentar (UEFI, TPM) |
| 102 | lantrivm02 | labri-23 | 5c | 14 GB | 100G + ~8 TB | ZFS | Storage massivo (10 discos) |
| 1001 | DataLuta01 | labri-27 | 4c | 6 GB | 121G | local | Projeto DataLuta |
| 1002 | DataLuta02 | labri-27 | 4c | 6 GB | 85G | local | Projeto DataLuta |
| 204 | ubuntu-20.04 | labri-27 | 4c | 6 GB | 80G | local | Legacy |
SP
| VMID | Nome | Node | CPU | RAM | Disco | Storage | Papel |
|---|---|---|---|---|---|---|---|
| 5001 | pfsense01 | ippri-11 | 4c | 4 GB | 18G | ZFS | Firewall SP (principal) |
| 5002 | pfsense-bkp | ippri-32 | 4c | 4 GB | 16G | ZFS | Firewall SP (backup) |
| 1003 | UbuntuDesktop2204-02 | ippri-34 | 30c | 121 GB | 205G | ZFS | Desktop pesado (satura node GPU) |
| 1051 | ubuntuServer2404 | ippri-12 | 4c | 6 GB | 120G | ZFS | Servidor generico |
VMs paradas: lantrivm01 (100, Franca), UbuntuServer22.04 (105, Franca), debian13 template (104), Copy-of-VM-debian13 (107), firewall-pfsense (5001, Franca), Copy-of-UbuntuDesktop (1002 SP), ubuntuServer2404-01 (1052 SP), UbuntuDesktop-testes (4950 SP), Copy-of-pfsense01 (5010 SP), Copy-of-pfsense-bkp (5011 SP).
Observacoes e anomalias
-
K3s no bare metal: os docs diziam “K3s roda em vm-cpps-02” mas o K3s roda diretamente nos hosts Proxmox (21 e 31). A VM vm-cpps-02 existe mas nao e onde o K3s roda
-
Drivers GPU nao instalados em Franca: 3x RTX A5500 com hardware presente mas sem driver NVIDIA. SP tem driver OK nas 3x A5000
-
pve-ippri-34 saturado: VM desktop (1003) consome 30 cores e 121 GB RAM num node com GPU A5000. Para usar a GPU, essa VM precisa ser redimensionada ou migrada
-
3 nodes LINSTOR controller: pve-labri-31, 32 e 33 rodam linstor-controller. O primario e o 32 (10.10.10.8). O 33 tem controller mas nao satellite (nenhum resource replicado nele)
-
pve-labri-33 subutilizado: 128 GB RAM, 32 cores, RTX A5500, ~14.4T NVMe — praticamente ocioso, sem VMs, sem LINSTOR satellite
-
Particoes NTFS: pve-ippri-31 e pve-ippri-34 tem discos com particoes NTFS (Windows antigo). Nao estao montadas
-
Redes nao documentadas: VLANs 193, 194, 197 e subnets 10.10.100.0/24, 10.90.90.0/8 existem mas nao estao nos docs
-
Nodes offline: pve-labri-24 (Franca), pve-ippri-13 e pve-ippri-14 (SP) nao respondem
-
Uptime dispares: pve-labri-25 e pve-labri-27 com 400+ dias de uptime (nunca reiniciados). Nodes GPU (31-33) com uptimes curtos (1-62 dias) sugerem instalacao/config recente
-
SP sem LINSTOR: todo storage em SP e ZFS local. Nao ha replicacao de storage entre nodes SP nem entre sites
-
HDD sem uso em Franca: pve-labri-21 tem 2x 7.3T + 2x 1.7T sem filesystem. pve-labri-22 tem 1x 7.3T sem uso. Potencial para expandir ZFS ou LINSTOR
-
Roadmaps incorretos: diziam A5000 em Franca e A6000 em SP. Realidade: A5500 em Franca, A5000 em SP
Problemas conhecidos durante upgrade
LINSTOR postinst trava no systemctl restart
Sintoma: dpkg --configure trava indefinidamente. pstree mostra:
dpkg → linstor-satellite.postinst → deb-systemd-invoke → systemctl (travado)Causa: o postinst do linstor-satellite (e linstor-controller) chama systemctl restart que espera o servico responder. Durante upgrade, o servico pode nao conseguir iniciar (versao incompativel, config alterada).
Afeta tambem: openssh-server, pve-manager, pvedaemon, gdm3 — todos tem postinst que reinicia servicos.
Solucao manual: kill <PID do systemctl> — o dpkg continua.
Solucao automatizada: script config/scripts/pve-upgrade.sh para e desabilita esses servicos antes do upgrade e roda um loop que mata systemctl travados durante o configure.
LINSTOR VERSION MISMATCH entre nodes
Sintoma: linstor node list mostra um node como OFFLINE(VERSION MISMATCH).
Causa: node com LINSTOR atualizado (ex: v1.33.2 do Debian 13) nao consegue falar com controller que roda versao anterior (v1.33.1 do Debian 12), ou vice-versa.
Impacto: o node offline nao participa da replicacao DRBD, mas os dados nos outros nodes continuam acessiveis. VMs que usam resources replicados nesse node ficam com menos replicas (degradado mas funcional).
Solucao: atualizar todos os nodes LINSTOR para a mesma versao. Apos upgrade de todos, linstor node list deve mostrar tudo Online.
SSH inacessivel apos upgrade PVE 8→9
Sintoma: node pinga mas SSH recusa conexao (Connection reset by peer ou Permission denied).
Causa: o upgrade do openssh-server regenera host keys e pode reconfigurar /etc/ssh/sshd_config. As authorized_keys podem ser perdidas.
Solucao: acessar via Proxmox web shell (de outro node) e:
# Verificar sshdsystemctl restart sshd# Restaurar authorized_keys se necessariomkdir -p /root/.sshecho '<chave publica>' > /root/.ssh/authorized_keyschmod 700 /root/.ssh && chmod 600 /root/.ssh/authorized_keysPrevencao: o script pve-upgrade.sh faz backup de /root/.ssh/authorized_keys antes do upgrade.
Manutencao
Limpeza do /boot
Proxmox acumula kernels antigos no /boot a cada atualizacao. Quando enche (920 MB tipico), novos upgrades falham.
Script: config/scripts/cleanup-boot.sh
# Via SSH no node (como root):
# Preview — mostra o que faria sem executar./cleanup-boot.sh --dry-run
# Interativo — pede confirmacao antes de remover./cleanup-boot.sh
# Automatico — para Ansible/cron, sem confirmacao./cleanup-boot.sh --forceO script mantem o kernel rodando + o mais novo instalado, remove o resto, gera initrd se faltar, e atualiza o GRUB.
Recomendacao: rodar antes de cada upgrade de PVE.
Upgrade Proxmox 8.4 → 9.1 (Debian 12 → 13)
Versoes
| Componente | Atual | Alvo |
|---|---|---|
| Proxmox VE | 8.4.16 | 9.1 |
| Debian | 12 (Bookworm) | 13 (Trixie) |
| Kernel | 6.8.12-pve | 6.12+ |
| LINSTOR | A verificar | v1.33.2 (ultima estavel, 2026-04-08) |
| DRBD | 8.4.11 (node 25) | 9.x (compatibilidade a validar) |
Procedimento oficial (in-place, node a node)
Referencia: https://pve.proxmox.com/wiki/Upgrade_from_8_to_9
Para cada node, na ordem:
1. Validar pre-requisitos - PVE >= 8.4.1 (temos 8.4.16 ✓) - Backups de todas as VMs testados - Acesso console (IPMI/fisico, nao so SSH) - >= 10 GB disco livre - pve8to9 --full (checklist automatizado)
2. Migrar VMs para outros nodes - VMs LINSTOR: live migration (dados replicados em 2+ nodes) - VMs ZFS: offline migration ou backup+restore - Nota: migrar de PVE 9 → PVE 8 NAO e suportado (so ida)
3. Atualizar repositorios sed -i 's/bookworm/trixie/g' /etc/apt/sources.list sed -i 's/bookworm/trixie/g' /etc/apt/sources.list.d/*.list # Adicionar repositorio PVE 9 (enterprise ou no-subscription) apt update
4. Upgrade apt dist-upgrade # Revisar config files quando perguntado (SSH, GRUB, LVM)
5. Reboot + validar reboot pveversion -v # deve mostrar 9.x # Verificar VMs, storage, rede, LINSTOROrdem de upgrade dos nodes
Logica: comecar pelos mais vazios, terminar pelos mais criticos.
Onda 1 — Nodes GPU vazios (Franca)
| Ordem | Node | VMs a migrar | Risco | Nota |
|---|---|---|---|---|
| 1 | pve-labri-33 | Nenhuma | Minimo | Totalmente vazio. Validar LINSTOR controller apos upgrade |
| 2 | pve-labri-32 | Nenhuma | Baixo | LINSTOR controller primario — migrar role de controller antes |
| 3 | pve-labri-25 | Nenhuma | Baixo | Gateway SSH. Testar acesso externo apos upgrade |
Onda 2 — Nodes GPU SP
| Ordem | Node | VMs a migrar | Risco | Nota |
|---|---|---|---|---|
| 4 | pve-ippri-33 | ubuntuServer2404-01 (parada) | Baixo | ✅ Concluido 2026-04-13 — upgrade limpo, sem problemas |
| 5 | pve-ippri-31 | Copy-of-UbuntuDesktop (parada) | Baixo | ✅ Concluido 2026-04-14 — transicao t64 problemática, resolvido iterativamente |
| 6 | pve-ippri-34 | UbuntuDesktop2204-02 (30c/121G) | Medio | ✅ Concluido 2026-04-20 — postfix main.cf perdido, cpp doc conflict, resolvidos iterativamente |
| 7 | pve-ippri-32 | pfsense-bkp | Baixo | ✅ Concluido 2026-04-14 — mais problemático: rede, QEMU, libs duplicadas, GNOME schema. Ver lessons learned |
Onda 3 — Nodes criticos Franca (VMs em producao)
| Ordem | Node | VMs a migrar | Risco | Nota |
|---|---|---|---|---|
| 8 | pve-labri-31 | vm-cpps-13 (106), VM 108 | Medio | ✅ Concluido 2026-04-20 — VMs 106/107/108 removidas, VFIO desabilitado, driver NVIDIA 595.58.03 instalado (.run) |
| 9 | pve-labri-27 | DataLuta01, DataLuta02, ubuntu-20.04 | Medio | RAM apertada (16 GB). VMs em local storage — backup antes |
| 10 | pve-labri-21 | vm-cpps-02 (K3s apps) | Alto | K3s principal + LINSTOR satellite. Migrar vm-cpps-02 para node 31 (ja PVE 9) |
| 11 | pve-labri-22 | VyOS, debian-proxy, muitas VMs ZFS | Alto | ✅ Concluido 2026-04-20 — sources já em trixie, upgrade via apt dist-upgrade. Conflito cpp resolvido |
Onda 4 — SP restante
| Ordem | Node | VMs a migrar | Risco | Nota |
|---|---|---|---|---|
| 12 | pve-ippri-12 | ubuntuServer2404, 9x VMs ZFS (892G cada) | Alto | Storage massivo — migrar VMs grandes leva tempo |
| 13 | pve-ippri-11 | pfsense01 (firewall principal SP) | Alto | Ultimo — firewall SP. Migrar para node ja atualizado |
Nodes offline (24, 13, 14): avaliar se vale a pena trazer online. Se sim, instalar PVE 9 limpo.
LINSTOR durante o upgrade
- Controller ativo no pve-labri-31 (10.10.10.7) — deve permanecer online durante upgrades
- Standby controllers em 21 e 22 — DB sincronizado a cada 3h
- Antes de atualizar um node com LINSTOR: verificar que resources estao replicados em outro node
- Apos upgrade: verificar versao do JAR (
java -cp "/usr/share/linstor-server/lib/*" com.linbit.linstor.core.Satellite --version). Se VERSION MISMATCH, copiar JARs do controller ativo - DRBD resources replicados em 2+ nodes — se 1 node sai, dados continuam acessiveis
- ATENCAO: postinst do linstor-satellite trava em
systemctl restart. Matar o systemctl travado e reiniciar manualmente
Riscos conhecidos (PVE 8→9)
| Risco | Impacto | Mitigacao |
|---|---|---|
| Renomeacao de interfaces de rede | Perde conectividade | Acesso IPMI/fisico, usar pve-network-interface-pinning |
| PCI passthrough quebrado no kernel 6.14 | VMs com GPU nao iniciam | Usar kernel 6.12 (pin) ate fix |
| cgroup v1 removido | LXC antigos falham | Verificar systemd >= 231 nos containers |
/tmp vira tmpfs (50% RAM) | Pressao de memoria | Monitorar |
| LINSTOR compatibilidade | Storage indisponivel | Testar primeiro no node 33 (vazio) |
sysctl.conf ignorado | Configs de rede perdidas | Migrar para /etc/sysctl.d/ |
Checklist pos-upgrade (por node)
[ ] pveversion -v mostra 9.x[ ] Todas as VMs anteriores do node voltam a funcionar[ ] LINSTOR satellite reconecta ao controller (se aplicavel)[ ] DRBD resources sincronizam (drbdadm status all)[ ] K3s node healthy (kubectl get nodes — se aplicavel)[ ] Rede funcional (ping entre nodes, acesso externo)[ ] GPU visivel (lspci | grep NVIDIA)[ ] nvidia-smi funciona (se driver instalado)[ ] Storage OK (pvesm status, df -h)[ ] Proxmox web UI acessivel (https://IP:8006)Log de upgrades realizados
pve-labri-33 — 2026-04-13 (EM ANDAMENTO)
Estado inicial: PVE 8.4.16, kernel 6.8.12-18-pve, sem VMs, LINSTOR controller (sem satellite)
Passos executados:
apt update && apt dist-upgrade— atualizado para PVE 8.4.18 ✓pve8to9 --full— checklist executado. Resultados:- 36 PASSED, 7 SKIPPED, 3 WARN, 2 FAIL
- FAIL: 1 node offline (pve-labri-24) — pre-existente, nao bloqueante
- FAIL: pvescheduler inactive — corrigido com
systemctl enable --now - WARN: sem NTP — chrony instalado
- WARN: DKMS modules (DRBD) — esperado, recompila no upgrade
- WARN: repo LINBIT suite
proxmox-8— atualizado paraproxmox-9
- Repositorios atualizados para trixie + PVE 9 no-subscription ✓
apt full-upgrade— upgrade parcial. Problemas encontrados:- LINSTOR postinst travava em
systemctl restart— destravado manualmente (kill systemctl) - DNS quebrou apos reboot —
deb.debian.orgnao resolvia. Corrigido adicionando8.8.8.8e1.1.1.1ao/etc/resolv.conf - Pacotes Python 3.11 (Debian 12) bloqueavam upgrade — dependiam de
python3 < 3.12mas Python 3.13 ja instalado. Resolvido comdpkg --force-depends --purgedos pacotes Python antigos - Pacotes desktop GNOME (uim, wpasupplicant, xwayland, samba, libreoffice) criavam cadeia circular de dependencias com libs t64 (Debian 13 renomeia libglib2.0-0 → libglib2.0-0t64). Resolvido iterativamente com
dpkg --force-depends - pve-apt-hook bloqueava
apt dist-upgrade— exigiaapt full-upgrade - Abordagem final: baixar todos os ~1870 pacotes restantes,
dpkg --force-depends -i,dpkg --configure --force-depends -acom loop matando systemctl travados
- LINSTOR postinst travava em
- Reboot executado ✓
- SSH inacessivel apos reboot — node pinga mas SSH recusa conexao (
Connection reset by peer). Provavel causa: sshd reconfigurado no upgrade Debian 13 ou host keys regeneradas
Estado atual: node pinga (rede OK), SSH nao funciona. Requer acesso console (IPMI/fisico ou Proxmox web shell) para:
- Verificar
systemctl status sshd - Reiniciar sshd se necessario
- Validar pveversion, kernel, LINSTOR, GPU
Checklist pendente:
[ ] SSH funcional[ ] pveversion -v mostra 9.x[ ] Kernel 6.12+ bootado[ ] LINSTOR controller operacional[ ] GPU RTX A5500 visivel (lspci)[ ] Rede entre nodes funcional[ ] Proxmox web UI acessivel[ ] Pacotes desktop GNOME funcional (workstation)Licoes aprendidas:
apt full-upgrade(naodist-upgrade) e obrigatorio para PVE 8→9- Nodes com desktop GNOME sao significativamente mais complexos de atualizar — a transicao t64 do Debian 13 quebra dezenas de pacotes GTK/Qt/Python
- LINSTOR postinst trava em
systemctl restartdurante dpkg configure — precisa de intervencao manual - DNS pode quebrar apos reboot — ter nameservers publicos como fallback
- Acesso console (IPMI/fisico) e essencial — SSH pode falhar apos upgrade