ADR-003 — LINSTOR como storage primário, Ceph deferido
Status
Vigente — 2026-05-01. Não é dogma — Ceph deve ser reavaliado com critérios objetivos.
Contexto
CPPS precisa de storage replicado intra-site pra:
- Live migration de VMs sem downtime
- Sobrevivência a falha de disco/node
Opções consideradas:
- LINSTOR + DRBD: block storage replicado, baseado em DRBD 9 + LVM thin
- Ceph: storage distribuído (block + object + filesystem)
- NFS/iSCSI: storage compartilhado tradicional, sem replicação automática
- GlusterFS: filesystem distribuído
Cluster atual: 6 hosts em SP, 7 em Franca com rede 10G dedicada.
Decisão
LINSTOR + DRBD como storage primário. Pool por site (linstor-ssd-01 em SSD, linstor-nvme-01 em NVMe), controller HA via VRRP.
Ceph deferido, não rejeitado.
Alternativas rejeitadas (ou deferidas)
- Ceph: requer mais nodes (recomendação: 5+ OSDs por pool com 3 replicas), CPU/RAM overhead significativo, curva de aprendizado e operação maior. Pra escala atual (6 hosts SP), LINSTOR é mais simples. Ceph seria reavaliado se aparecer demanda por: (a) object storage unificado com block, (b) escala >10 OSDs, (c) requisito de filesystem distribuído.
- NFS/iSCSI: sem replicação automática; ponto único de falha sem solução HA externa
- GlusterFS: depreciado pela RedHat em 2023, evitar
Consequências
Positivas:
- Footprint baixo: LINSTOR controller é leve, DRBD opera no kernel
- Performance de bloco quase nativa (testes mostram <5% overhead vs LVM puro)
- Live migration via Proxmox funciona out-of-the-box
- Operação mais simples que Ceph pra time pequeno (1-3 admins)
Negativas:
- Sem object storage nativo (precisa MinIO em cima se quiser)
- Sem filesystem distribuído (precisa NFS ou similar pra share file-level)
- DRBD historicamente teve bugs sutis em split-brain — exige operação cuidadosa
- Cross-site replication via DRBD é possível mas frágil em links com latência alta
Critério de revisão
Reabrir LINSTOR vs Ceph se:
- Demanda real por object storage S3-compatible em escala (mais de ~10TB)
- Cluster crescer pra >10 hosts com necessidade de pool unificado
- Aparecer requisito de filesystem distribuído (tipo CephFS) que NFS não atenda
- DRBD 10 ou successor mostrar limitações que Ceph já resolve
Sinal de alerta: se 30%+ do tempo de SRE virar “operar LINSTOR” (vs usar), o mais simples passou a ser o mais complexo — Ceph entra em jogo.