Amplifica —nuestra herramienta para generar contenido— le ponía a cada borrador un “score predictivo”: un número que prometía qué tan bien iba a funcionar el post. Se veía riguroso. Vendía solo. El problema: ese número lo producía el mismo modelo que escribía el texto, en la misma respuesta. Le estábamos pidiendo al autor que se calificara a sí mismo —y mostrando esa nota como si fuera una medición.
Pedirle a un LLM 'del 0 al 100, ¿qué tan bueno es esto que acabas de escribir?’ no es una métrica. Es una opinión disfrazada de número. Siempre sale alto, nunca falla, y no predice nada. El teatro más caro de todos: el que parece dato.
Un número que se autocalifica no es un recibo. Es un adjetivo con dos cifras.
El arreglo fue quitar el score fabricado del prompt y del output: el generador ya no inventa la nota, deja la casilla vacía y el puntaje —si hace falta— lo calcula una rúbrica editorial separada del autor, no quien escribió. Y bajamos de la propia landing las frases que vivían de esa ilusión: 'modelo predictivo entrenado en millones’, 'score predictivo’, 'va a volar’ y un 'score 87’ que estaba escrito a mano en el HTML. Le sumamos pruebas que fallan si el generador vuelve a inventarse un número.
Lo incómodo no fue el código —fueron 40 líneas. Fue borrar de tu propia página de ventas la frase que mejor vendía. 'Entrenado en millones’ convertía; 'rúbrica editorial de IA, honesta’ convierte menos. Lo publicamos igual, porque esa es la única versión de Sin Filtro: si tu producto te ayuda a mentir un poquito y se ve bien, el arreglo no es esconderlo —es contarlo. Receipts > adjectives, sobre todo cuando el adjetivo era tuyo y daba plata.