Portfolio/Familia 07
Familia 07 · Entrenamiento de modelos LLM y predictivos

Cuando un modelo general no es suficiente.

Hay problemas donde GPT-4 o Gemini no llegan: vocabulario técnico de tu sector, datos confidenciales que no pueden salir, predicciones específicas de tu operativa. Cinco capacidades de entrenamiento propio: fine-tuning de LLMs open weights, forecasting, clasificación supervisada, OCR custom y evaluación de modelos.

Coste de inferencia
10–30×
menor con modelo open-weight fine-tuned self-hosted que con API gestionada para volúmenes altos. Soberanía EU como bonus.
El problema · 01

Los modelos generales no saben tu dominio.

Los LLMs comerciales han leído internet pero no han leído tus pólizas, tus historiales clínicos, tus expedientes administrativos ni tu jerga interna. Para casos críticos donde el dominio importa, un modelo general da resultados mediocres.

Además: para volúmenes altos, el coste de API gestionada se dispara. Para casos sensibles (salud, defensa, jurídico) los datos no pueden salir. Para casos predictivos (forecasting, anomaly detection) no necesitas LLM, necesitas un modelo entrenado sobre tu serie temporal. La respuesta es entrenar lo necesario para tu caso, no usar lo más grande disponible.

Principios · 02

Cinco reglas de entrenamiento honesto.

El entrenamiento mal hecho produce modelos peores que la API de OpenAI a coste enorme. Estas son las reglas que aplicamos para que el resultado merezca la pena.

01 · Empieza pequeño

Mistral 7B antes que Llama 70B

El modelo pequeño fine-tuned suele superar al grande sin tuning sobre tu tarea. Empezamos con 7B, validamos, escalamos solo si hace falta.

02 · Benchmark con harness propio

Métricas tuyas, no MMLU

Los benchmarks genéricos (MMLU, HellaSwag) no dicen nada sobre tu caso. Construimos harness reproducible con preguntas y métricas relevantes para tu negocio.

03 · Datos sintéticos para arranque

Cold start sin pedir más datos

Cuando no hay suficientes ejemplos reales, generamos sintéticos validados antes de pedir más datos al cliente. Acelera el arranque significativamente.

04 · Retraining incremental

El modelo no es entregable estático

Pipeline de retraining incremental con feedback humano. Cada error corregido entra al training set. El modelo mejora en producción.

05 · Documentación de modelo

Model Card como entregable

Cada modelo entregado lleva Model Card: datos de entrenamiento, métricas en benchmark, sesgos detectados, limitaciones conocidas. Compatible con AI Act.

06 · Reproducibilidad

Mismo training, mismo modelo

Seeds fijadas, versiones de datos, hiperparámetros versionados. Si hay que reentrenar dentro de 1 año, el mismo training genera el mismo modelo.

Las 5 capacidades · 03

Cinco tipos de entrenamiento.

Desde fine-tuning de LLMs verticales hasta modelos clásicos de forecasting. La elección depende de tu tarea, no de la moda del momento.

01 · B2B / Legal / Salud

Fine-tuning de LLM open weights verticales

Ajuste de Mistral o Llama sobre corpus propio del cliente. Cumple soberanía EU y reduce coste de inferencia.

B2BLegalSaludOpen weights

Problema

Una API LLM gestionada (Gemini, Claude, GPT) responde bien en general pero no domina vocabulario sectorial. Para volúmenes altos el coste se dispara. Para datos confidenciales (médicos, jurídicos, defensa), enviarlos a US es inviable.

Solución

Fine-tuning supervisado de un modelo open-weights europeo (Mistral 7B/22B, Llama 3 en su caso) sobre corpus específico del cliente. LoRA o QLoRA para eficiencia. Datos de entrenamiento curados con tu equipo. Validación contra benchmark propio. Despliegue self-hosted en Hetzner Frankfurt o tu infra. Pipeline reproducible.

  • Modelos europeos cuando es viable (Mistral La Plateforme)
  • LoRA / QLoRA para reducir coste de training
  • Benchmark propio del cliente, no MMLU
  • Model Card como entregable AI Act-compatible

Business case

Coste de inferencia 10-30× inferior a APIs gestionadas para volúmenes altos. Soberanía EU completa. Latencia menor (modelo self-hosted, sin viaje a US). Capacidad de incorporar conocimiento dominio que ningún modelo general tiene.

Stack

Mistral / LlamaLoRA / QLoRAHugging Face TRLHetzner GPUvLLM serving

Ejemplo concreto

Para una organización jurídica que procesa 50K consultas/mes: Mistral 7B fine-tuned sobre 12K pares pregunta-respuesta jurídicas reales. Acierto en benchmark propio del 87% vs 72% del modelo base. Coste por consulta 0,003€ vs 0,12€ de API gestionada.

Solicitar reunión →
02 · B2B / Público / Turismo

Forecasting y detección de anomalías

Modelos de serie temporal (Prophet, ARIMA, deep learning) y anomaly detection sobre métricas operativas.

B2BTurismoPredicciónAnomaly

Problema

Negocios con estacionalidad (turismo, retail, energía) y operaciones críticas (SaaS, infraestructura) necesitan predecir demanda y detectar anomalías. Las hojas de Excel con medias no escalan. Contratar data scientist por cada caso es caro.

Solución

Modelos de serie temporal apropiados para tu caso: Prophet para tendencias con estacionalidad clara, ARIMA para series estables, deep learning (LSTM, Temporal Fusion Transformer) cuando hay relaciones complejas. Anomaly detection sobre métricas operativas con thresholds adaptativos. Re-training automático ante drift detectado.

  • Elección del modelo según tu serie, no según moda
  • Pipeline de re-training mensual o trimestral
  • Detección de drift que reentrenar automáticamente
  • Explicabilidad: por qué el modelo predice eso

Business case

Dimensionamiento ajustado a demanda real. Detección temprana de anomalías que evita incidentes. Decisiones de inversión basadas en predicción defendible. Reducción del coste por sobre-dimensionamiento preventivo.

Stack

Prophet / ARIMAPyTorch / LightningMLflow trackingPipeline re-training

Ejemplo concreto

Para un destino turístico con datos de ocupación hotelera de 8 años: modelo predice ocupación a 30 días con MAPE de 6.2% (vs 14% del método estadístico tradicional). El sector hotelero local ajusta pricing y plantilla con anticipación.

Solicitar reunión →
03 · Salud

Clasificación supervisada para triaje clínico

Modelo de triaje sintomático para asistente sanitario remoto entrenado sobre datos sintéticos. Auditable y reproducible.

SaludTriajeDatos sintéticosAI Act

Problema

Sistemas de salud bajo presión: 24/7 con personal limitado, demanda creciente. La población llama, llega a urgencias o usa servicios online sin filtro previo. Casos urgentes esperan, casos no urgentes saturan recursos. Un modelo de triaje fiable es crítico, pero entrenarlo con datos reales de pacientes es jurídicamente complejo.

Solución

Modelo de clasificación supervisada para triaje sintomático en asistente sanitario remoto (chatbot o teleasistencia). Entrenado sobre dataset sintético generado a partir de literatura clínica validada y casos reales anonimizados con synthetic data overlay (SDV + diferencial privacy). Output: categoría de urgencia (verde/amarillo/rojo) + recomendación (autocuidado, cita ambulatoria, urgencias). Auditable y reproducible. Diseñado conforme a AI Act alto riesgo (sector salud).

  • Datos sintéticos para entrenamiento, evita gestión RGPD compleja en fase de R&D
  • Validación clínica con panel de profesionales sanitarios
  • Audit log de cada predicción para revisión post-hoc
  • Escalado automático a humano cuando el modelo no tiene confianza suficiente
  • Reentrenamiento periódico con feedback de profesional supervisor

Business case

Mejora del flujo asistencial sin contratar personal adicional. Reducción de saturación en urgencias por casos no críticos. Detección temprana de casos rojos que llegarían tarde. Modelo compatible con AI Act alto riesgo, documentación obligatoria generada. Aplicable a teleconsulta, mutuas y servicios sanitarios públicos.

Stack

SDV datos sintéticosXGBoost / Random ForestValidación clínica panelAudit logs inmutablesAI Act high-risk docs

Ejemplo concreto

Para un servicio de teleasistencia sanitaria piloto: modelo clasifica el 78% de consultas iniciales correctamente, deriva el 22% restante a profesional con contexto completo. Sensibilidad para casos rojos del 96% (objetivo clínico: nunca rebajar urgencia real). Reducción del 35% en derivaciones inadecuadas a urgencias presenciales.

Solicitar reunión →
04 · Legal / B2B / Público

OCR custom para documentación específica

Extracción estructurada de campos en pólizas, facturas, recetas o expedientes. Re-entrenamiento incremental con feedback.

LegalB2BOCRExtracción

Problema

Los OCR genéricos (Tesseract, Azure Document Intelligence) funcionan bien en documentos estándar pero fallan en plantillas específicas del cliente (pólizas propias, facturas con formato heredado, recetas, expedientes administrativos). Cada error pasa a cola humana, eliminando el ahorro de la automatización.

Solución

OCR custom entrenado sobre los documentos reales del cliente. Combinación de OCR base (texto plano) + modelo de extracción estructurada (campos relevantes: importe, fecha, NIF, identificadores). Re-entrenamiento incremental: cada error corregido por humano entra al training set. Confianza por campo: si baja del umbral, escala a humano.

  • Active learning: el modelo pide al humano corregir solo los casos dudosos
  • Modelo específico por tipo de documento
  • Auditoría: cada extracción lleva confianza por campo
  • Compatible con flujos de aprobación (RPA o agente IA)

Business case

Reducción del trabajo manual de captura de datos. Mejora del tiempo de procesamiento de documentación entrante (pólizas, facturas, expedientes). Tasa de error baja con auditoría por campo. ROI medible al primer mes para volúmenes >5.000 docs/mes.

Stack

Tesseract / Azure DI baseLayoutLM / DonutActive learning loopConfianza por campo

Ejemplo concreto

Para una organización que procesa 12.000 documentos/mes con formato propio: precisión inicial del 78%, tras 6 meses de active learning sube al 96%. Equivale a no necesitar 4 personas dedicadas a captura manual.

Solicitar reunión →
05 · B2B

Evaluación y benchmarking de modelos

Harness reproducible para comparar LLMs y modelos clásicos sobre tu tarea concreta con métricas tuyas, no genéricas.

B2BMLOpsBenchmarkA/B

Problema

Cómo eliges entre Gemini, Claude, GPT-4, Mistral fine-tuned y un XGBoost clásico para tu caso. Los benchmarks públicos (MMLU, HellaSwag) miden tareas genéricas, no la tuya. Elegir mal cuesta dinero (10× coste, latencia mala) o calidad (modelo demasiado pequeño).

Solución

Harness de evaluación reproducible específico de tu tarea. Conjunto de prompts/inputs representativos. Métricas definidas con tu equipo (no accuracy genérico: NPS, tiempo a respuesta correcta, coste por consulta, factualidad, hallucination rate). Ejecuta varios modelos en paralelo. Reporte comparativo objetivo. A/B testing de variantes de prompt y de modelo en producción.

  • Conjunto de evaluación versionado y curado con expertos del cliente
  • Métricas multidimensionales: calidad + coste + latencia + privacidad
  • Reporte ejecutivo y técnico
  • Integración con observability para A/B en producción

Business case

Decisión de modelo basada en datos de tu caso, no en marketing. Capacidad de cambiar modelo cuando aparece uno mejor (proceso reproducible). Justificación ante auditoría regulatoria de por qué elegiste un modelo concreto. Optimización continua de coste vs calidad.

Stack

Harness propio reproducibleMLflow / Weights & BiasesLangSmith para LLM evalA/B testing prod

Ejemplo concreto

Para una empresa eligiendo entre 5 modelos LLM para asistente vertical: harness con 240 casos representativos validados por experto. Resultado: Mistral 22B fine-tuned bate a GPT-4 en calidad (+8%) a coste 14× menor. Decisión defendible ante CFO y auditor.

Solicitar reunión →
FAQ · 04

Lo crítico antes de entrenar.

Cuatro dudas que aparecen al evaluar entrenar modelo propio vs usar API.

¿Cuándo merece la pena fine-tunear un modelo en lugar de usar GPT o Gemini?

Tres criterios: (1) volumen alto que dispara el coste de API (típicamente desde 100K consultas/mes), (2) datos confidenciales que no pueden salir, (3) vocabulario sectorial donde el modelo general da resultados mediocres. Si no se cumple ninguno, API gestionada suele ser la decisión correcta.

¿Cuántos datos necesito para fine-tuning supervisado?

Depende. Para LoRA sobre Mistral 7B: 1.000-5.000 pares pregunta-respuesta de calidad suelen mover la aguja. Calidad importa más que cantidad: 1.000 ejemplos curados baten a 10.000 ruidosos. Cuando faltan datos reales arrancamos con sintéticos validados.

¿Cuánto cuesta un fine-tuning?

Setup + training inicial: 8.000-20.000€ según tamaño del modelo y tareas. Operación mensual self-hosted: 300-1.800€ según volumen. Retraining trimestral: 1.000-2.500€. Punto de equilibrio vs API suele estar entre 80K-200K consultas/mes.

¿Y los modelos clásicos (XGBoost, Prophet, etc.)?

Sin moda. Para clasificación tabular, anomaly detection, forecasting: los modelos clásicos siguen siendo la respuesta correcta y barata. No usamos LLM si XGBoost es mejor. La elección depende de la tarea, no de la moda.

Empezar · 05

¿API o modelo propio? Decidimos con números.

30 minutos por videollamada. Hacemos el cálculo de fine-tuning vs API para tu volumen y caso. Si no compensa, no lo haces.

D

Diego Torres

Founder · AI Twin · Familia 07

Asistente IA del portfolio, especializado en entrenamiento de modelos. Consulte si compensa fine-tunear en tu caso, qué modelo elegir o cómo se entrena con datos sintéticos en salud.