CELESTE — Cómo un agente de IA atiende 800K usuarios al mes

CELESTE es el agente de IA que Cloudcity construyó para Sedapar, el operador de agua potable más grande de Lima, Perú. Hoy atiende a 800,000 ciudadanos al mes en 11 canales integrados, con tiempo de respuesta promedio inferior a 2 segundos.

Este post recorre la arquitectura honesta — sin marketing — para que un CTO pueda evaluar si una solución similar aplica a su caso.

El problema antes

Sedapar enfrentaba lo que cualquier operador de servicios públicos en LatAm conoce:

Volumen creciente: 600,000+ consultas al mes y subiendo.
Concentración horaria: 80% de la demanda entre 8 AM y 6 PM.
Trámites con documentos: la mitad de las consultas termina en un PDF (factura, duplicado, certificado).
Cumplimiento normativo: respuestas auditables, español peruano, trazabilidad por usuario.

La pregunta correcta

No fue “¿qué modelo usamos?”. Fue “¿qué procesos puede operar end-to-end un agente, y cuáles deben quedarse con humanos?”.

Mapeamos los 200 motivos de consulta históricos y los clasificamos:

Automatizable end-to-end (~70%): consultas de saldo, generación de duplicado, agendamiento de visita.
Automatizable con escalado (~20%): reclamos por sobrefacturación, ajustes, certificados especiales.
Solo humano (~10%): emergencias, fugas mayores, incidencias críticas.

CELESTE atiende el 90% (las dos primeras categorías), con escalado claro a humano cuando corresponde.

Stack

Modelo principal: Claude Sonnet vía Anthropic API para razonamiento y generación de respuestas. Modelos pequeños fine-tuneados (Llama-3-8B en nuestro datacenter) para clasificación de intención y extracción de entidades. Postgres + pgvector para RAG sobre el manual de procedimientos. Temporal para flujos durables (porque generar y enviar un PDF puede tardar minutos y necesitamos reintentos). LangGraph para máquinas de estado conversacional. Langfuse para trazas y evals continuos.

Integraciones

SAP IS-U para consulta de saldos y facturación.
Sistema de despacho propio para agendamiento de visitas técnicas, considerando rutas del personal.
Plantillas oficiales firmadas para generación de PDFs (factura, duplicado, certificado de no adeudo).
WhatsApp Business API para 60% del tráfico. Web chat, IVR, app móvil para el resto.

Resultados

Métrica	Antes	Con CELESTE
Tiempo respuesta promedio	25-40 min	<2s
Atención presencial	Línea base	-80%
Disponibilidad	Horario laboral	24/7
NPS canal digital	n/a	+12 puntos

Lecciones

Empezar por el dato, no por el modelo. El manual de procedimientos de Sedapar nos tomó 3 semanas en limpiar y estructurar. Sin eso, ningún modelo da respuestas correctas.
El escalado a humano es producto, no fallback. Diseñar el “transfer to agent” con todo el contexto preservado fue tan importante como el agente mismo.
Eval continua > eval inicial. Las evals que corren sobre cada nuevo despliegue evitan que mejoras en un flujo rompan otros.
Latencia regional importa. Mover inferencia a nuestro datacenter en Colombia recortó ~120ms por turno conversacional vs us-east. Sumado en una conversación de 6-8 turnos, es palpable.

¿Aplica a tu caso?

Si operas un canal de atención con >100K consultas al mes y al menos el 50% son transaccionales (no requieren juicio humano único), probablemente sí. Conversemos.

Cómo CELESTE atiende a 800,000 personas al mes