Cómo evaluar y migrar a Proxmox con Ceph para entornos HCI de gran escala

Problema

Muchas organizaciones manejan cientos de usuarios y bases de datos que demandan baja latencia y alta disponibilidad. Un patrón frecuente es la combinación de Hyper‑V con Storage Spaces Direct (S2D) en servidores HPE o Dell. Con el tiempo aparecen dos síntomas críticos: el rendimiento de S2D se vuelve impredecible y, después de aplicar parches de seguridad, los nodos a veces no vuelven a formar el clúster sin intervención manual. La solución oficial de Microsoft implica una actualización mayor del sistema operativo (por ejemplo, a Windows Server 2025), lo que suele requerir una reconstrucción completa de los hosts. En este punto, el equipo de infraestructura busca una alternativa de HCI que:

reutilice el hardware existente (CPU, memoria, NICs de 25 GbE, RoCEv2);
ofrezca un modelo de soporte y actualización más predecible;
mantenga o mejore la disponibilidad de bases de datos críticas;
sea económicamente viable en Australia, donde algunas soluciones están sobrevaloradas.

Causa

Los problemas de S2D suelen originarse en tres áreas:

Dependencia del stack Windows – S2D está estrechamente ligado a versiones específicas de Windows Server. Cuando Microsoft introduce un requisito de versión (p.ej., 2025), la única vía es una reinstalación completa, lo que rompe la continuidad operativa.
Gestión de red y QoS – En entornos con 25 GbE y RoCEv2, la configuración de VLANs, MTU y prioridades es delicada. Un error de configuración puede provocar pérdida de paquetes y, como consecuencia, caídas de rendimiento que S2D no detecta rápidamente.
Modelo de reparación manual – Después de aplicar parches, S2D a veces necesita una secuencia de reinicio específica. Si esa secuencia falla, el clúster queda parcialmente fuera de línea y los administradores deben intervenir paso a paso.

Al considerar una migración a Proxmox + Ceph, aparecen nuevas causas potenciales:

Diseño de Ceph – Pools mal dimensionados, número insuficiente de OSDs o falta de separación de tráfico de datos y de monitorización pueden generar cuellos de botella.
Latencia de red RoCEv2 – Ceph depende de una red de baja latencia. Si la infraestructura no garantiza un MTU de 9000 y una configuración de congestion control adecuada, el rendimiento se degrada.
Falta de experiencia en Linux – Proxmox es una distribución basada en Debian. Equipos acostumbrados a Windows pueden tropezar con diferencias en gestión de paquetes, NTP y journaling.

Solución

Una estrategia genérica que funciona en la mayoría de los entornos empresariales consiste en tres fases: evaluación, despliegue piloto y migración por etapas.

1. Evaluación de hardware y red

Ítem	Recomendación
CPU	2 × vCPU por núcleo físico recomendado para workloads de bases de datos.
Memoria	128 GB mínimo por nodo; Ceph necesita RAM para el cache de OSD (≈ 1 GB por TB).
NIC	25 GbE con RoCEv2, habilitar jumbo frames (MTU = 9000) y DCB/ETS.
Almacenamiento	SSD NVMe para journals y DB / OSD; HDD SATA para capacidad bruta.
BIOS	Desactivar C‑states y habilitar Intel VT‑x/AMD‑V.

Ejecuta ethtool -i <iface> y verifica que el driver soporte offload de checksum y TSO. Asegúrate de que todos los nodos tengan la misma versión de firmware; las discrepancias son una fuente frecuente de fallos de quorum en Ceph.

2. Despliegue del clúster Proxmox

Instala Proxmox VE 8 (última versión estable) en cada servidor.
Configura un cluster con pvecm create <nombre> y pvecm add <IP‑node1>.
Habilita HA en el nivel de datacenter y define grupos de recursos.

3. Implementación de Ceph

Instala los paquetes ceph y ceph-mgr desde el repositorio oficial.
Crea los monitores en los tres primeros nodos: pveceph init --mon.
Añade OSDs usando discos dedicados: pveceph createosd /dev/nvme0n1.
Configura pools según el tipo de dato:
- replicated pool (size = 3) para máquinas virtuales.
- erasure‑coded pool (k = 4, m = 2) para backups de Veeam o Proxmox Backup Server.

4. Integración de backup

Proxmox Backup Server (PBS): despliegue ligero en una VM o nodo dedicado. Configura pbs-storage en Proxmox y habilita la política de retención.
Veeam: mantiene la compatibilidad con iSCSI/NFS; monta los shares de Ceph como destinos de backup.

5. Migración de cargas

Export‑Import: usa qm exportdisk para volúmenes QCOW2 y qm importdisk en el nuevo pool.
pve-zsync: replica VM en tiempo real a Ceph, permite conmutación sin tiempo de inactividad.
Pruebas de rendimiento: ejecuta fio contra los OSDs y sysbench contra las VM antes de la conmutación final.

6. Operación y mantenimiento

Automatiza la actualización de nodos con Ansible o Packer; Proxmox permite actualizaciones sin downtime gracias a la arquitectura de paquetes Debian.
Configura alertas de Ceph (ceph health detail) y de Proxmox HA (pveproxy).
Programa pruebas de failover mensuales: apaga un nodo y verifica que las VMs migran automáticamente.

Cuándo aplicar esta solución

Señales de que Proxmox + Ceph es adecuado

Necesitas una solución de HCI que no dependa de versiones específicas de Windows.
El hardware actual tiene suficiente capacidad de CPU, RAM y discos para convertirse en OSDs.
La red está preparada para 25 GbE y RoCEv2 con jumbo frames.
Tu equipo está cómodo gestionando Linux y herramientas de línea de comandos.

Escenarios donde la solución no es la mejor opción

Requerimientos de certificación de vendor que solo cubren Microsoft Hyper‑V.
Falta de personal con experiencia en Ceph; el coste de capacitación puede superar el ahorro.
Necesidad de integración estrecha con productos de Microsoft que solo funcionan con S2D (por ejemplo, Azure Stack HCI).

Código

# Crear clúster Proxmox
pvecm create prod-cluster
pvecm add 10.0.0.2
pvecm add 10.0.0.3

# Inicializar Ceph y crear monitores
pveceph init --mon
pveceph createmon

# Añadir OSDs (repetir por cada disco)
pveceph createosd /dev/nvme0n1
pveceph createosd /dev/sdb

# Crear pools
ceph osd pool create vm-data 128 128 replicated
ceph osd pool create backup-data 256 256 erasure

# Configurar Proxmox Storage usando Ceph
pvesh create /nodes/<node>/storage -storage vm-data -type rbd -monhost 10.0.0.1,10.0.0.2,10.0.0.3 -content images,rootdir

Verificación

Estado de Ceph – ceph -s debe mostrar HEALTH_OK, 3 monitores activos y todos los OSDs up/in.
Latencia de red – ejecuta ping -M do -s 8972 <peer> para confirmar que los jumbo frames no se fragmentan.
HA de Proxmox – pvecm status muestra todos los nodos en Online. Crea una VM de prueba, marca HA y apaga el nodo anfitrión; la VM debe migrar automáticamente.
Rendimiento – fio --name=randwrite --rw=randwrite --bs=4k --size=1G --numjobs=8 --runtime=60 --group_reporting contra un RBD para validar IOPS.

Notas adicionales

MTU y DCB: Si la red no soporta MTU = 9000, Ceph caerá a 1500 bytes y perderás gran parte del rendimiento. Verifica con ip link show <iface> antes de iniciar.
NTP sincronizado: Ceph requiere relojes alineados dentro de

Problema#

Causa#

Solución#

1. Evaluación de hardware y red#

2. Despliegue del clúster Proxmox#

3. Implementación de Ceph#

4. Integración de backup#

5. Migración de cargas#

6. Operación y mantenimiento#

Cuándo aplicar esta solución#

Código#

Verificación#

Notas adicionales#

Si te interesa esto, también revisa...