crítica · observabilidad

9,9% de nuestros logs eran errores. El 95% era mentira.

Nuestro propio panel gritaba “error” por todo. En vez de silenciarlo, abrimos la causa.

N.º 012 BOGOTÁ 2026·06·07 por la redacción

Un panel que grita 'error’ por todo no te protege: te ciega. Te acostumbra a ignorarlo, y el día que el error es real, ya no lo ves.

Nuestra propia telemetría tenía 9,9% de los logs en nivel :error —miles por hora. Antes de comprar más alertas o subir el volumen, abrimos la causa. El 95% era una sola cosa: escrituras de cache normales marcadas como error. Un umbral estaba hardcodeado a 50 ms; uno de los servicios guarda su cache en la base de datos, donde cada escritura paga ~50 ms de ida y vuelta. O sea: el trabajo sano cruzaba el umbral y se etiquetaba como falla. No era un error. Era física.

La diferencia entre una métrica y un recibo es quién eligió el umbral —y si lo eligió pensando en tu sistema o en el de otro.

El arreglo no fue silenciar el log; fue hacer configurables los 18 umbrales de lentitud (por variable de entorno, no hardcodeados) y subir el default de cache por encima de su latencia normal. Resultado, crudo: 9,9% → 0,0% —337 logs, cero errores, en una ventana limpia de 90 segundos. Las escrituras de ~54 ms ahora callan; las de 119 ms siguen avisando, como deben.

Lo publicamos porque es la trampa silenciosa de toda observabilidad: el dashboard que parece riguroso porque está lleno de rojo, cuando en realidad el rojo es ruido que alguien nunca calibró. Receipts > adjectives —incluso cuando el recibo es 'estábamos midiéndonos mal a nosotros mismos’.