Por qué un RAG que vuela en demo se desarma con tráfico real, y dos vecinos del mismo problema.
DEVANDMUS · NEWSLETTER · ISSUE #001 · 02.05.2026

Producción no respeta tus demos.

Empieza este newsletter, sí. La forma más vieja del mundo de mandar cartas: a la intemperie, con la apuesta de que alguien las abra y se quede un rato.

Llevo tiempo juntando notas para mí — arquitectura, AI, música, lo que se cruza con lo que estoy resolviendo en el trabajo o en el estudio. La idea es organizarlas en algo público no porque tenga respuestas, sino porque pensar a libro abierto suele ayudar más que pensar dentro de mi cabeza.

Esta primera entrega es sobre algo que vengo masticando: la distancia incómoda entre lo que parece elegante en una demo y lo que aguanta en producción. Los tres artículos de abajo son tres caras del mismo problema, mirado desde tres ángulos distintos.

Si algo te sirve, contestá con lo tuyo — me llegan todos los mensajes.

§ 01 — Tres artículos

01

Por qué tu RAG no funciona en producción

Tres patrones que se caen cuando dejás de probar con tres documentos y le das tráfico real: chunking que no respeta la semántica, retrieval que olvida que la pregunta tiene contexto, y un prompt que crece sin medirlo.

02

Evals antes que prompts

Si no podés contestar "esta versión es mejor que la anterior" con un número, no estás iterando sobre el sistema — estás tirando dardos con los ojos cerrados.

03

MCP servers como primitiva

La pieza que más me hizo cambiar de opinión sobre cómo conectar tools a LLMs en 2026, y la diferencia con un wrapper de funciones de toda la vida.

§ 03 — Pregunta abierta

¿Cuándo fue la última vez que un sistema tuyo se rompió no por un bug, sino porque la demo nunca se parecía a la realidad?

Respondé este email si te interesa pensarla.

Andrés · Santiago, Chile

andres-maldonado.com

Respeto tu inbox — unsubscribe en 1 clic