El contador que nunca para: Lo que nadie te dijo sobre el costo real de la IA.

Por Milton — El Blog de Milton
La historia del investigador silencioso que se quedó parado en seco.
Antes de entrar al análisis, permíteme contarte cómo llegué a este tema. No lo leí en un reporte de Gartner ni lo escuché en una conferencia. Lo viví en mi propio laboratorio.
Son las 1:30 de la madrugada de un sábado 9 de mayo. Mientras la mayoría duerme, yo estoy frente a mis máquinas virtuales, probando, rompiendo cosas y aprendiendo por mi cuenta. Así es como trabajo. Así es como siempre ha sido.
Soy de esas personas curiosas y silenciosas. No hago mucho ruido pero sí mucha investigación. El silencio de la madrugada es mi mejor aliado para pensar con claridad, para probar sin interrupciones, para sacar conclusiones sin el ruido del día.
Cuando salió Claude, mi stack de herramientas de IA ya estaba bastante definido: ChatGPT, Gemini, Copilot y DeepSeek trabajando en paralelo según la tarea. Claude llegó como una herramienta más al laboratorio. Y ahí fue donde me llevé el frenazo que nadie espera.
Estaba trabajando en paralelo, como suelo hacerlo, saltando entre herramientas, comparando respuestas, probando comportamientos. Sin darme cuenta, en medio del flujo de trabajo, cambié de Sonnet a Opus. No fue una decisión estratégica. Fue un error de clic.
Dos consultas. Solo dos.
Y Claude me mandó el mensaje que no esperaba: tokens agotados, espera cuatro horas.
Cuatro horas.
Mi primera reacción fue de incredulidad. Estoy acostumbrado a ese límite en suscripciones gratuitas, donde es razonable y entendible. Pero esto era diferente. Dos consultas en Opus y listo, se acabó la función por el resto de la madrugada.
Sé perfectamente lo que van a decir:
«Milton, si usaste Opus es porque querías el modelo más potente. Obvio que consume más.»
Tienen razón. Opus es el analizador pesado, el que piensa más profundo, el que procesa con mayor capacidad. Y aquí está la analogía que mejor lo describe: pasar de Sonnet a Opus es como cambiar de un auto económico a un motor de alta cilindrada sin darte cuenta de que el tanque de combustible es del mismo tamaño. Se agota en un par de acelerones.
Dos consultas y el tanque en cero. Cuatro horas esperando en la orilla de la carretera. A la 1:30 AM con el laboratorio encendido y sin poder continuar.
Pero ese no es mi punto.
Mi punto es lo que sucede debajo de la superficie con cada consulta, independientemente del modelo que uses. Cada vez que haces una pregunta, la IA no solo lee tu pregunta. Relee todo lo que se ha discutido en esa sesión. Revisa el contexto acumulado. Procesa el hilo completo de la conversación antes de darte una respuesta.
Y ahí es donde los tokens se van silenciosamente, consulta tras consulta, sin que el usuario promedio lo note hasta que el medidor llega a cero.
No fue el peso de Opus lo que me sorprendió. Fue darme cuenta de que el modelo estaba pagando el precio de su propia memoria con cada interacción. Y si eso me pasó a mí en un laboratorio pequeño probando dos consultas, imagina lo que está pasando en una empresa con cincuenta desarrolladores trabajando en paralelo con contextos de miles de líneas de código.
Ese fue mi frenazo. Y de ese frenazo nació este post.
Querido CTO: La IA te está cobrando mientras respira
Sé lo que estás pensando. Adoptaste IA, tu equipo es más productivo, los reportes lucen bien y el board está contento. Pero hay un número que no está en tu dashboard y cuando aparezca, va a incomodar a más de uno.
Se llama costo real por token y es el contador de taxi que olvidaste apagar.
Primero, entiende cómo funciona la trampa
Cuando tu desarrollador le hace una pregunta a la IA, tú asumes que estás pagando por esa pregunta y su respuesta. Error.
La IA antes de responder una sola línea, está leyendo:
- Todo el historial de la conversación
- Los documentos que adjuntaste como contexto
- Las instrucciones del sistema que configuraste
- Los estándares de código de tu empresa
- La documentación técnica del proyecto
- El repositorio que pusiste de referencia
Todo eso son tokens. Todos esos tokens cuestan dinero.
Y el dato que más duele: entre más madura es tu operación, entre más documentación tienes, entre más procesos has construido, más cara te sale cada consulta. La IA literalmente te cobra más por haber hecho bien tu trabajo durante años.
El leasing que no viste venir
Llámalo como quieras. Suscripción, consumo por uso, pago variable. En el fondo es un leasing cognitivo con condiciones que ningún proveedor de maquinaria tradicional se hubiera atrevido a ofrecerte.
Piénsalo así:
- Un leasing de servidor te dice exactamente cuánto pagas por mes.
- Un leasing de maquinaria industrial tiene un costo fijo predecible.
- El modelo token te cobra según la complejidad de tu operación, la extensión de tus documentos y la frecuencia de uso de tu equipo.
¿Cuántas empresas tienen eso instrumentado y monitoreado en tiempo real? Muy pocas. La mayoría lo descubre cuando llega la factura.
Y a diferencia de un empleado, cuyo salario es fijo y negociable, las suscripciones de IA suben de precio sin previo aviso. No hay sindicato que negocie por ti. No hay preaviso de tres meses. Un correo electrónico y el precio cambió.
El ciclo que nadie está viendo
Aquí está el punto más peligroso y el que menos se discute en las salas de juntas:
Tu equipo usa IA para generar más código, más documentación, más procesos. Esa documentación crece. Ese contexto se vuelve más denso. Y la próxima vez que la IA tenga que trabajar con todo ese material, cobra más por releerlo.
Es un ciclo que se retroalimenta silenciosamente:
Más productividad → Más contexto generado → Mayor costo por consulta → Factura que nadie proyectó
La IA está cobrando por consumir lo que ella misma ayudó a producir. Y eso no es un bug del sistema. Es el modelo de negocio.
La pregunta que tu CFO va a hacer pronto
No es cuánto más rápido trabaja tu equipo. Eso ya lo saben. La pregunta que viene es:
¿Cuánto estamos pagando en tokens por cada entregable real que produce la IA?
Cuando hagas ese cálculo honestamente, vas a encontrar tres tipos de casos de uso en tu empresa:
- Los que sí son rentables y justifican el costo
- Los que son productivos pero no rentables
- Los que directamente están quemando presupuesto sin que nadie lo note
El problema es que la mayoría de empresas hoy no tiene manera de distinguir entre los tres porque nadie instrumentó el consumo desde el principio. Se adoptó la herramienta con entusiasmo y se dejó el análisis para después. Ese después está llegando.
El espejismo del ahorro
Hay una narrativa dominante que dice: reemplaza empleados con IA y ahorra dinero. Y en el corto plazo, los números parecen cuadrar. Pero hay una capa de costos que muchas empresas están ignorando deliberadamente o simplemente no ven venir.
Las empresas no usan una sola herramienta de IA. Usan cinco, diez, quince. Cada suscripción parece barata individualmente, pero sumadas empiezan a competir con el salario del empleado que supuestamente reemplazaron. Y además hay que sumar lo que nadie calcula:
- El tiempo humano que se pierde corrigiendo los errores de la IA
- El costo de reentrenar o ajustar modelos para casos específicos
- La dependencia total de terceros: si el proveedor sube precios o cae, ¿qué pasa con tu operación?
- La deuda técnica que se acumula al construir procesos enteros sobre herramientas que cambian constantemente
- El hardware propio si decides correr modelos locales: GPUs, RAM, infraestructura que queda obsoleta rápido
El empleado humano tiene un costo fijo y predecible. La IA tiene un costo que escala con el uso, con las actualizaciones, con el hardware y con la dependencia de proveedores. Eso no es necesariamente malo, pero hay que calcularlo honestamente.
Lo que deberías estar haciendo ahora
No estoy diciendo que abandones la IA. Estoy diciendo que la administres como lo que es: una infraestructura de costo variable con potencial de escalar hacia arriba de formas que pueden sorprenderte.
Algunas preguntas que deberías poder responder hoy:
- ¿Cuánto consumes en tokens por área, por equipo, por tipo de tarea?
- ¿Cuál es tu costo promedio por consulta en los flujos más usados?
- ¿Estás midiendo valor generado contra tokens consumidos?
- ¿Tienes un techo de gasto o estás en consumo abierto?
- ¿Sabes qué modelo está usando cada miembro de tu equipo y cuándo?
Si no puedes responder esas preguntas, no tienes una estrategia de IA. Tienes una suscripción cara con productividad visible y costos invisibles.
El final que nadie quiere escribir
Las empresas que desmantelaron equipos humanos para reemplazarlos con IA están apostando a que este modelo de costos se mantenga predecible. Esa es una apuesta arriesgada.
Los proveedores de IA no tienen obligación de mantener sus precios. Los modelos se actualizan y el contexto que funcionaba antes puede necesitar más tokens mañana. Y cuando ese momento llegue, el equipo humano ya no estará.
Estamos en una fase de euforia donde las empresas están tomando decisiones de largo plazo basadas en costos de corto plazo. Dentro de dos o tres años, muchas van a hacer la misma cuenta que hicieron con la nube: «Pensamos que sería más barato y terminó siendo más caro, solo que de otra forma.»
No es un argumento en contra de la IA. Es un argumento a favor de usarla con los ojos abiertos.
Porque el contador sigue corriendo. Y la pregunta no es si vas a pagar, sino si sabes exactamente cuánto.
Milton Rodolfo Amador Zúniga
Investigador silencioso. Laboratorio propio. Opiniones sin filtro.
Escrito de madrugada, porque algunas ideas llegan cuando el resto del mundo está en silencio.
GPL License – Publicación libre para compartir y distribuir.
🚀
