CELESTE es el agente de IA que Cloudcity construyó para Sedapar, el operador de agua potable más grande de Lima, Perú. Hoy atiende a 800,000 ciudadanos al mes en 11 canales integrados, con tiempo de respuesta promedio inferior a 2 segundos.
Este post recorre la arquitectura honesta — sin marketing — para que un CTO pueda evaluar si una solución similar aplica a su caso.
El problema antes
Sedapar enfrentaba lo que cualquier operador de servicios públicos en LatAm conoce:
- Volumen creciente: 600,000+ consultas al mes y subiendo.
- Concentración horaria: 80% de la demanda entre 8 AM y 6 PM.
- Trámites con documentos: la mitad de las consultas termina en un PDF (factura, duplicado, certificado).
- Cumplimiento normativo: respuestas auditables, español peruano, trazabilidad por usuario.
La pregunta correcta
No fue “¿qué modelo usamos?”. Fue “¿qué procesos puede operar end-to-end un agente, y cuáles deben quedarse con humanos?”.
Mapeamos los 200 motivos de consulta históricos y los clasificamos:
- Automatizable end-to-end (~70%): consultas de saldo, generación de duplicado, agendamiento de visita.
- Automatizable con escalado (~20%): reclamos por sobrefacturación, ajustes, certificados especiales.
- Solo humano (~10%): emergencias, fugas mayores, incidencias críticas.
CELESTE atiende el 90% (las dos primeras categorías), con escalado claro a humano cuando corresponde.
Stack
Modelo principal: Claude Sonnet vía Anthropic API para razonamiento y generación de respuestas. Modelos pequeños fine-tuneados (Llama-3-8B en nuestro datacenter) para clasificación de intención y extracción de entidades. Postgres + pgvector para RAG sobre el manual de procedimientos. Temporal para flujos durables (porque generar y enviar un PDF puede tardar minutos y necesitamos reintentos). LangGraph para máquinas de estado conversacional. Langfuse para trazas y evals continuos.
Integraciones
- SAP IS-U para consulta de saldos y facturación.
- Sistema de despacho propio para agendamiento de visitas técnicas, considerando rutas del personal.
- Plantillas oficiales firmadas para generación de PDFs (factura, duplicado, certificado de no adeudo).
- WhatsApp Business API para 60% del tráfico. Web chat, IVR, app móvil para el resto.
Resultados
| Métrica | Antes | Con CELESTE |
|---|---|---|
| Tiempo respuesta promedio | 25-40 min | <2s |
| Atención presencial | Línea base | -80% |
| Disponibilidad | Horario laboral | 24/7 |
| NPS canal digital | n/a | +12 puntos |
Lecciones
- Empezar por el dato, no por el modelo. El manual de procedimientos de Sedapar nos tomó 3 semanas en limpiar y estructurar. Sin eso, ningún modelo da respuestas correctas.
- El escalado a humano es producto, no fallback. Diseñar el “transfer to agent” con todo el contexto preservado fue tan importante como el agente mismo.
- Eval continua > eval inicial. Las evals que corren sobre cada nuevo despliegue evitan que mejoras en un flujo rompan otros.
- Latencia regional importa. Mover inferencia a nuestro datacenter en Colombia recortó ~120ms por turno conversacional vs us-east. Sumado en una conversación de 6-8 turnos, es palpable.
¿Aplica a tu caso?
Si operas un canal de atención con >100K consultas al mes y al menos el 50% son transaccionales (no requieren juicio humano único), probablemente sí. Conversemos.