Hay un movimiento que ponemos primero en todo lo que hacemos: escuchar. No lo que asumimos del otro —lo que el otro dice de sí mismo, en sus palabras. Esta semana automatizamos ese movimiento para nuestro motor de descubrimiento.
El worker hace algo fácil de describir y fácil de hacer mal: visita la página de una empresa, lee lo que está escrito ahí, y lo resume en dos a cuatro frases. Si la empresa tiene dominio propio —no un correo genérico de Gmail u Hotmail, que filtramos con una lista— va a su sitio: prueba https, luego www, luego http, sigue hasta tres redirecciones, y extrae el título, la meta descripción y el texto visible. Nada de scripts ni de iframes. Corta a 500 KB de descarga y 8.000 caracteres de texto: si tu landing no dijo qué hace en 8.000 caracteres, más texto no va a ayudar.
Ese texto va a Plexus —nuestra pasarela de IA— con una sola instrucción: resume qué hace esta empresa con sus propias palabras, en dos a cuatro frases; si la página está en construcción o vacía, responde SIN_CONTENIDO. No 'inventa una descripción’. Si no hay señal, lo dice.
La diferencia entre escuchar y suponer es una palabra:
SIN_CONTENIDO. Un sistema que prefiere decir 'no sé’ antes que inventar es un sistema sobre el que puedes construir.
Dos decisiones que no se ven pero sostienen todo. Una: el que navega la web y el que resume son distintos. El worker que llama al modelo nunca sale a internet; el que sale a internet nunca llama al modelo. Así nadie engaña al resumidor con una página que dispara una búsqueda. Dos: cuando un dominio no tiene sitio, igual marcamos la fecha del intento. Un dominio muerto se intenta una vez, no mil.
Lo contamos porque 'enriquecimiento de datos’ suena a magia y casi siempre es un robot leyendo lo que cualquiera puede leer. La diferencia está en que el nuestro prefiere callar antes que inventar. El recibo es una columna —website_summary— poblada solo cuando hubo algo real que resumir, con la fecha del intento al lado para no volver a tocar lo que ya está muerto.