Cómo filtrar logs y distinguir incidentes de ruido en entornos de observabilidad
Problema En pipelines de datos, ETL o jobs serverless, los logs crecen rápidamente y mezclan mensajes de INFO, WARN y ERROR. Un operador necesita saber cuándo un mensaje marca un incidente real que requiere acción y cuándo es simplemente ruido que puede ignorarse. El reto es que: Un mensaje con la palabra ERROR no siempre implica que el job falló (por ejemplo, “ERROR: retrying step 2”). Algunas excepciones críticas aparecen sin la etiqueta ERROR (por ejemplo, OutOfMemoryError dentro de un WARN). Los patrones de fallo varían entre versiones de Spark, Glue o librerías de terceros. Los picos de reintentos pueden ser normales en workloads con alta latencia, pero también pueden indicar un problema subyacente. Sin una estrategia clara, los dashboards de observabilidad se llenan de falsos positivos y los equipos terminan ignorando alertas útiles. ...