Portfolio/Familia 02
Familia 02 · Agentes IA autónomos

Ejecutan procesos enteros. No solo conversan.

Agentes IA con LangGraph y MCP que leen, deciden y actúan sobre tus sistemas. Consultan bases de datos, ejecutan workflows, generan informes, prospectan clientes y monitorizan infraestructura. Cada acción queda registrada en audit log para cumplir AI Act.

Volumen multiplicado
10×
la capacidad operativa típica sin crecimiento proporcional de plantilla, manteniendo trazabilidad completa de decisiones.
El problema · 01

Procesos que copian y pegan entre sistemas.

La mayoría del trabajo administrativo de back-office consiste en mover información entre sistemas que no se hablan. Consultar un CRM, validar contra el ERP, redactar un email, generar un PDF, archivar en un drive. Cada paso tarda 2 minutos, multiplicado por miles de operaciones al mes.

RPA tradicional (UiPath, Blue Prism) lo resolvía con bots que clicaban interfaces. Frágil, caro y sin lectura del contexto. La generación de agentes IA actuales con LangGraph + tool calling cambia el modelo: el agente entiende qué se pide, planifica los pasos, consulta los sistemas vía API y ejecuta. Cuando falla algo, lo registra y escala a humano.

Principios · 02

Seis reglas para que no nos rompan producción.

Un agente que actúa sobre sistemas reales tiene que estar diseñado con tantos frenos como aceleradores. Estas son las reglas que aplicamos en cada despliegue.

01 · Human-in-the-loop

Aprobación humana por defecto

El agente propone, el humano aprueba para acciones críticas (envío externo, cambio de stage comercial, modificación de dato). La autonomía total se activa solo cuando hay confianza acumulada y reversibilidad garantizada.

02 · Audit log inmutable

Cada acción queda registrada

Quién pidió qué, qué decidió el agente, qué herramienta usó, qué resultado obtuvo. Compatible con AI Act y RGPD, exportable para auditoría.

03 · Idempotencia y rollback

Si algo se repite, no se duplica

Cada acción es idempotente o reversible. Reintentar no genera duplicados. Errores no dejan estado inconsistente.

04 · Tool calling tipado

Validación previa, no improvisación

Cada herramienta del agente está tipada con esquema. El agente solo puede invocar lo que está declarado y validamos parámetros antes de ejecutar.

05 · Pricing por outcome

Cobramos por valor entregado

Cuando es medible, cobramos por resolution, por conversión o por reducción de coste, no por suscripción fija. Alineamos incentivos.

06 · Observability nativa

OpenTelemetry de serie

Cada step del agente emite traza OTEL. Detectamos drift, latencia, fallos y patrones de uso antes de que afecten a producción.

Las 7 capacidades · 03

Siete agentes en producción.

Cada agente está pensado para un tipo de tarea concreta. Comparten arquitectura (LangGraph + MCP + audit log) pero divergen en herramientas, datos y métricas de éxito.

01 · Sector público

Agentes IA para back-office

Agentes que ejecutan procesos administrativos del cliente: consultas, validaciones cruzadas, generación de informes.

Sector públicoB2BLangGraphAudit log

Problema

Back-office público y privado vive de operativa repetitiva: gestión de expedientes, validación cruzada entre sistemas, conciliación de datos, generación de informes periódicos. Personal cualificado gastado en tareas de bajo valor.

Solución

Agentes IA con LangGraph orquestando flujos de negocio sobre sistemas internos vía MCP (Model Context Protocol). Cada agente tiene un alcance específico (un módulo, una operativa), herramientas tipadas y supervisión humana en checkpoints definidos. Trazabilidad completa para auditoría.

  • MCP para acceso estandarizado a sistemas (CRM, ERP, gestor documental)
  • Observability predictiva: alerta de drift de comportamiento antes de incidente
  • Audit log inmutable compatible con AI Act
  • Despliegue progresivo: piloto con 1 proceso, escalado tras validación

Business case

Eliminación de trabajo administrativo de bajo valor. Capacidad de procesar volúmenes 10× sin crecimiento de plantilla. Trazabilidad completa para inspecciones. Tiempo medio de resolución reducido en factor 5-10 según proceso.

Stack

LangGraph + PythonMCPGemini 2.5 FlashPostgreSQL stateNeo4j razonamiento

Ejemplo concreto

Para un ente público con 12 procesos de back-office identificados: en 3 meses, 4 procesos automatizados, 60% del volumen total. El equipo humano se centra en excepciones y casos complejos. ROI a los 8 meses.

Solicitar reunión →
02 · B2B

BI conversacional con text-to-SQL

Agente que consulta tus BBDD operativas y devuelve indicadores en lenguaje natural. Validación semántica, anti-SQL-injection.

B2BDatosText-to-SQLSelf-serve

Problema

Directivos esperan días para una respuesta del equipo de BI ("dame la facturación por línea Q1 vs Q1 año pasado"). El equipo de BI vive en cola atendiendo peticiones repetitivas. Las decisiones tardan.

Solución

Agente con capacidad text-to-SQL sobre tus BBDD operativas (Oracle, SQL Server, PostgreSQL). Few-shot learning sobre esquemas y queries históricas. Validador semántico que evita queries pesadas y SQL injection. Caché inteligente para preguntas repetidas. Visualización en Metabase como backend.

  • Pregunta en español, respuesta con número + gráfico
  • Trazabilidad: cada respuesta lleva la query SQL ejecutada
  • Permisos respetados: el agente hereda visibilidad del usuario
  • Modo "explica esta query" para entender qué hizo el agente

Business case

Democratización del acceso a datos. Equipo de BI liberado para análisis estratégico, no consultas operativas. Decisiones más rápidas. Reducción del shadow-IT de exports manuales a Excel.

Stack

Text-to-SQL few-shotValidador semánticoLLM tool callingMetabase backend

Ejemplo concreto

Para una empresa B2B con BBDD operativa de 80 tablas: directivos resuelven el 70% de sus preguntas operativas en 30 segundos sin pasar por el equipo de datos. Las preguntas estratégicas (cohort analysis, atribución) siguen siendo trabajo de analista, como debe ser.

Solicitar reunión →
03 · Legal / Público

Agente conversacional de consulta normativa

RAG sobre BOE, Ley de Contratos del Sector Público y normativa sectorial. Distingue vigente y derogada, cita artículos.

LegalSector públicoRAGCitas verificables

Problema

Funcionarios y juristas pierden horas consultando cuerpos normativos extensos (BOE histórico, LCSP, normativa sectorial). El conocimiento está, pero está disperso. Cada error de interpretación tiene impacto legal directo.

Solución

Agente vertical con RAG sobre cuerpos normativos completos. Chunking semántico por estructura legal (artículos, apartados). Re-ranker para precisión jurídica. LLM con citaciones obligatorias verificables (artículo, fecha, BOE de publicación). Distinción explícita entre normativa vigente y derogada. Alerta de modificaciones recientes.

  • Indexación incremental sobre publicaciones oficiales diarias
  • Cada respuesta lleva enlace al BOE y artículo exacto
  • Filtro temporal: "qué decía esta norma en 2022"
  • Comparativa entre versiones de una misma ley

Business case

Ahorro de horas de consulta jurídica de bajo-medio nivel. Reducción de errores de interpretación. Mayor agilidad en redacción de informes técnico-legales. Auditoría legal asistida en procedimientos administrativos.

Stack

RAG + re-rankerCohere / BGEChunking semántico legalLLM con citaciones

Ejemplo concreto

Para un servicio jurídico público de 40 técnicos: el agente resuelve consultas operativas (procedimiento aplicable, plazos, artículo relevante) que antes ocupaban 30-90 min, en menos de 1 min con cita verificable.

Solicitar reunión →
04 · B2B / Tech

Agentes de QA y testing automatizado

Agentes que generan tests, detectan regresiones y validan patrones OWASP sobre código legacy.

B2BDevOpsQASeguridad

Problema

Equipos de desarrollo aceleran con copilots pero el QA sigue siendo manual o muy parcial. Código legacy sin tests acumula deuda. Las regresiones llegan a producción.

Solución

Agentes IA que analizan código fuente y aplicaciones desplegadas. Generan tests unitarios y de integración. Ejecutan pruebas E2E. Detectan regresiones cruzando comportamiento histórico. Validan patrones OWASP top 10. Reportan con explicación accionable, no solo "test fallido".

  • Cobertura incremental sobre código que antes no tenía tests
  • Detección de regresiones automática en cada PR
  • Validación de seguridad continua, no auditoría puntual
  • Reporting agregado para tech lead y CTO

Business case

Reducción del tiempo de release. Aumento de cobertura de tests sin coste lineal en plantilla. Detección temprana de regresiones críticas. Reducción del coste de incidentes en producción.

Stack

Claude Code SDKpytest / JestStatic analysisAgentes tool use

Ejemplo concreto

Para un producto SaaS B2B con 40K LOC heredados sin tests: en 6 semanas se alcanza 65% de cobertura efectiva con tests generados por agente y validados por el equipo. Las regresiones detectadas en CI caen un 70%.

Solicitar reunión →
05 · B2B / Tech

Agente de observabilidad predictiva

Monitoriza logs y métricas, predice incidencias antes de que ocurran, propone remediation en lenguaje natural.

B2BSREPredictivoMCP

Problema

Plataformas críticas con SLA estricto requieren SRE senior 24/7. El MTTD (mean time to detect) es la métrica que mata. Cuando un incidente entra en pánico al equipo, la ventana de prevención ya pasó.

Solución

Agente IA que ingiere logs, métricas y trazas (OpenTelemetry, Prometheus, Grafana). Modelo de anomaly detection sobre series temporales. Cuando detecta drift respecto al baseline, predice probabilidad de incidente y genera alerta explicada en lenguaje natural con runbook propuesto. Ejecutable vía MCP sobre la infra del cliente.

  • MTTD reducido del orden de horas a minutos
  • Runbooks ejecutables (con autorización humana) para remediation común
  • Reducción del toil del SRE on-call
  • Postmortem asistido: el agente correlaciona y propone causa raíz

Business case

Reducción del MTTD del 70-80%. Disminución de incidentes críticos por anticipación. Descarga del equipo de operaciones de toil repetitivo. SLA defendible con métricas reales.

Stack

Prometheus + GrafanaOpenTelemetryLLM análisis logsAnomaly detectionRunbooks MCP

Ejemplo concreto

Para una plataforma SaaS B2B con 99,9% SLA contractual: el agente anticipa el 60% de incidentes de saturación 8-15 min antes de que tumben servicio. El equipo on-call duerme mejor.

Solicitar reunión →
06 · B2B / Sales

Agente comercial de outreach multi-canal

Prospección y secuencias por LinkedIn, email y X con personalización IA, detección de respuestas reales y supresión automática.

B2BSalesLinkedInEmail

Problema

Equipos comerciales B2B necesitan escalar prospección. Contratar más SDRs es caro y de calidad inestable. Las plantillas estáticas tienen open rates ridículos. La gestión de buzones, bounces, opt-outs y respuestas reales es trabajo aburrido y crítico.

Solución

Sistema multi-plataforma (LinkedIn vía API gestionada, email SMTP/IMAP propios, X/Twitter) que prospecta, enriquece datos vía IA (extracción de info pública del perfil), redacta mensajes personalizados según perfil objetivo y gestiona secuencias completas. Detección de respuestas reales mediante IMAP + NLP, supresión automática de bouncers y opt-outs. Warm-up de buzones nuevos.

  • 5-10× más prospección con misma plantilla
  • Mejor personalización que plantillas estáticas: el agente lee el perfil real
  • Compliance con CAN-SPAM y GDPR vía suppression list automatizada
  • Cron de queue processing con calentamiento progresivo (20→50→100→200/día)

Business case

Coste por meeting bookeado típicamente 70-85% inferior al de un SDR humano para volúmenes equivalentes. Mejora del CTR por personalización IA. Compliance auditable.

Stack

Node + TypeScriptGeminiIMAP/SMTP propiosLinkedIn APIMongoDB

Ejemplo concreto

Para un equipo comercial B2B de 4 personas: el sistema gestiona 2.500 prospects/mes con 18% de open rate y 4,2% de reply rate, generando 32 meetings calificados al mes. Coste operativo bajo control y métricas auditables.

Solicitar reunión →
07 · Educación / B2B

Agente de generación de evaluaciones

Cuestionarios desde texto, PDF, URL o YouTube. Tipos test, abiertas, relación, orden. Anti-cheat y auto-corrección.

EducaciónRRHHYouTube → QuizAnti-cheat

Problema

Formadores, academias y departamentos de RRHH gastan horas preparando exámenes a mano. Cada nueva versión es un proyecto. Cada nueva sesión de formación implica preparar evaluación desde cero.

Solución

Sistema de generación automática de cuestionarios desde fuentes heterogéneas: texto, PDF, URL, vídeo de YouTube. Tipos: test, abiertas, de relación, de orden. Detección de pasajes ambiguos. Validación de coherencia. Acceso del alumno sin registro (link + contraseña). Anti-cheat con detección de cambio de pestaña. Auto-corrección server-side. Certificados PDF automáticos.

  • YouTube → quiz en menos de 30 segundos (único en el mercado)
  • Banco de preguntas reutilizable por curso
  • Modelo freemium + Pro para escalado SaaS
  • Outreach automático integrado para captación de formadores

Business case

Reducción del tiempo de preparación de exámenes en torno al 90%. Certificación digital automatizada. Modelo escalable por suscripción. Aplicable a formadores independientes, academias y bootcamps.

Stack

OpenAI GPT-3.5React + ExpressMongoDBjsPDF certificadosWebSockets timer

Ejemplo concreto

Para un formador independiente que imparte 12 cursos al año: pasa de 8 horas/curso preparando exámenes a 20 minutos. Genera evaluaciones por sesión, no solo por curso, mejorando feedback continuo.

Solicitar reunión →
FAQ · 04

Las que más nos preguntan.

Sobre agentes que tocan sistemas reales, las dudas suelen ser parecidas. Aquí las cinco más frecuentes.

¿Qué diferencia hay con RPA tradicional?

El RPA clásico (UiPath, Blue Prism, Automation Anywhere) automatiza clicks sobre interfaces. Es frágil ante cambios de UI y no entiende contexto. Un agente IA con LangGraph entiende el objetivo, planifica los pasos, consulta los sistemas vía API o MCP y se adapta cuando hay variabilidad. Coste similar, robustez muy superior.

¿Cómo me aseguro de que no rompa producción?

Tres mecanismos: (1) sandboxing inicial, el agente trabaja contra un entorno espejo durante semanas de validación, (2) human-in-the-loop en acciones críticas, sin aprobación humana el agente no ejecuta, (3) audit log inmutable con capacidad de rollback automático. La autonomía se gana progresivamente.

¿Necesito que mis sistemas tengan API?

Es lo ideal. Si no la tienen, podemos usar MCP, conectores intermedios o, en último caso, agentes que operan sobre la interfaz como RPA. Pero te lo decimos honestamente: si tu ERP de 1998 no tiene API, primero hay que modernizarlo o trabajar con sus exports nativos.

¿Cuánto cuesta un agente?

El piloto de un agente concreto (un proceso, un alcance definido) suele rondar 8.000-25.000€ según complejidad. Operación mensual entre 600-3.500€ dependiendo de volumen, modelos usados (open weights vs APIs) e infraestructura. Pricing por outcome disponible cuando el resultado es medible (ej. agente de outreach: por meeting bookeado).

¿Cumple con AI Act?

Sí. Todos los agentes se diseñan con audit log inmutable, evaluación de impacto previa, clasificación de riesgo según AI Act y monitorización de drift y bias en producción. Para sectores de alto riesgo (RRHH, salud, justicia) ampliamos el set de controles con marco ALTAI completo.

Empezar · 05

Identifica un proceso. Lo pilotamos en 6 semanas.

Solicite una reunión de 30 minutos por videollamada. Asistimos en identificar qué proceso de back-office tiene mejor ratio de impacto vs complejidad para empezar. Si el cálculo no sale a tu favor, no avanzamos.

D

Diego Torres

Founder · AI Twin · Familia 02

Asistente IA del portfolio, especializado en agentes autónomos. Consulte sobre uno de los 7 casos, por tu proceso concreto, o describa el proceso a automatizar para recibir orientación.