Un panel que grita 'error’ por todo no te protege: te ciega. Te acostumbra a ignorarlo, y el día que el error es real, ya no lo ves.
Nuestra propia telemetría tenía 9,9% de los logs en nivel :error —miles por hora. Antes de comprar más alertas o subir el volumen, abrimos la causa. El 95% era una sola cosa: escrituras de cache normales marcadas como error. Un umbral estaba hardcodeado a 50 ms; uno de los servicios guarda su cache en la base de datos, donde cada escritura paga ~50 ms de ida y vuelta. O sea: el trabajo sano cruzaba el umbral y se etiquetaba como falla. No era un error. Era física.
La diferencia entre una métrica y un recibo es quién eligió el umbral —y si lo eligió pensando en tu sistema o en el de otro.
El arreglo no fue silenciar el log; fue hacer configurables los 18 umbrales de lentitud (por variable de entorno, no hardcodeados) y subir el default de cache por encima de su latencia normal. Resultado, crudo: 9,9% → 0,0% —337 logs, cero errores, en una ventana limpia de 90 segundos. Las escrituras de ~54 ms ahora callan; las de 119 ms siguen avisando, como deben.
Lo publicamos porque es la trampa silenciosa de toda observabilidad: el dashboard que parece riguroso porque está lleno de rojo, cuando en realidad el rojo es ruido que alguien nunca calibró. Receipts > adjectives —incluso cuando el recibo es 'estábamos midiéndonos mal a nosotros mismos’.