Costos de IA
Costos de IA
Sección titulada «Costos de IA»Cada vez que un agente IA de Asientra procesa una tarea (clasificar un CAByS, sugerir un asiento, responder una pregunta en el Fiscal Advisor, ejecutar el cierre mensual), hace llamadas a modelos de lenguaje que tienen un costo en dólares por token. Asientra registra y trackea cada una de estas llamadas para que sepas exactamente cuánto cuesta la IA por cliente, por agente y por mes.
¿Por qué importa este panel?
Sección titulada «¿Por qué importa este panel?»Aunque durante el piloto no hay cobro, el panel de costos tiene valor inmediato:
- Transparencia: sabés exactamente qué agentes están usando recursos y para qué clientes.
- Detección de anomalías: un cliente con costo de IA inusualmente alto puede indicar que el Fiscal Advisor está siendo usado intensivamente o que el agente de cierre está fallando y reintentando.
- Configuración de alertas: podés definir umbrales para que el sistema te avise si el uso supera lo esperado.
- Planificación: la tendencia mensual te da visibilidad para anticipar costos cuando se active el modelo de cobro.
Revisá el panel de costos del mes
Andá a Admin → Costos de IA. El panel principal muestra el mes en curso con:
- Costo total del despacho en USD para el mes.
- Desglose por cliente: ranking de los clientes con mayor uso de IA.
- Desglose por agente: qué agentes generan más costo (OCR, CAByS, Asiento Suggester, Fiscal Advisor, Month-Close Agent).
- Modelo usado más frecuentemente: con qué modelo LLM corrió cada agente (Claude Sonnet primario, GPT-4 fallback, etc.).
Explorá el detalle por agente
Hacé click en cualquier agente para ver el detalle de llamadas LLM del mes:
- Llamadas totales: cuántas veces se invocó el agente.
- Tokens de prompt / tokens de completion: el desglose de consumo de tokens por llamada.
- Latencia promedio: tiempo de respuesta del modelo.
- Costo USD: desglozado por llamada si necesitás auditarlo.
- Tasa de caché: para agentes con prompts estáticos, cuántas respuestas vienen del caché (costo cero) vs llamadas reales al modelo.
Revisá tendencias mensuales
Cambiá la vista a Tendencia para ver los últimos 6 meses. Podés filtrar por cliente o agente para ver si el costo está creciendo linealmente con el volumen de operaciones (esperado) o hay un crecimiento anómalo.
Configurá alertas por umbral
Andá a Admin → Costos de IA → Alertas y configurá umbrales:
- Por despacho/mes: si el costo total del mes supera X USD, enviá un email al owner.
- Por cliente/mes: si un cliente específico supera X USD de IA en el mes, alertar al contador asignado.
- Por agente/día: útil para detectar el caso en que el Fiscal Advisor está siendo usado en forma inusual o el agente de cierre está en loop de reintentos.
Los umbrales son configurables por vos — Asientra no impone valores por defecto pero recomienda empezar con $10 USD/mes/despacho como umbral para el piloto.
Modelo de costos de los agentes
Sección titulada «Modelo de costos de los agentes»Los agentes más costosos por llamada son típicamente:
| Agente | Costo relativo | Razón | |---|---|---| | Month-Close Agent | Alto | Múltiples llamadas en cadena con contexto largo | | Fiscal Advisor | Medio-alto | Respuestas largas con citations | | OCR + Extractor | Medio | Claude Vision procesa imágenes | | Asiento Suggester | Medio | Contexto incluye historial de asientos | | CAByS Classifier | Bajo | Llamadas cortas, alta tasa de caché | | Anomaly Detector | Bajo | Corre en streaming, respuestas estructuradas cortas |
La tasa de caché en agentes como CAByS es importante: cuando la misma descripción de producto ya fue clasificada antes, Asientra devuelve el resultado cacheado sin llamar al modelo. Esto puede reducir el costo real hasta un 60-70% en despachos con clientes con operaciones repetitivas.
Errores frecuentes
Sección titulada «Errores frecuentes»| Situación | Qué revisar | |---|---| | Costo muy alto de un cliente específico | Revisar si el Fiscal Advisor está siendo consultado con preguntas largas o repetidas; también revisar si el agente de cierre está fallando y reintentando | | Tasa de caché en 0% para CAByS | Verificar que los productos del cliente tienen descripciones consistentes; descripciones ligeramente distintas para el mismo producto no aprovechan el caché | | Llamadas al modelo fallback (GPT) en lugar del primario (Claude) | El servicio de Anthropic tuvo un downtime; Asientra cambió automáticamente al fallback; se resuelve solo cuando el primario vuelve |