Entrenamiento de modelos LLM y predictivos · Portfolio

01 · B2B / Legal / Salud

Fine-tuning de LLM open weights verticales

Ajuste de Mistral o Llama sobre corpus propio del cliente. Cumple soberanía EU y reduce coste de inferencia.

B2BLegalSaludOpen weights

Problema

Una API LLM gestionada (Gemini, Claude, GPT) responde bien en general pero no domina vocabulario sectorial. Para volúmenes altos el coste se dispara. Para datos confidenciales (médicos, jurídicos, defensa), enviarlos a US es inviable.

Solución

Fine-tuning supervisado de un modelo open-weights europeo (Mistral 7B/22B, Llama 3 en su caso) sobre corpus específico del cliente. LoRA o QLoRA para eficiencia. Datos de entrenamiento curados con tu equipo. Validación contra benchmark propio. Despliegue self-hosted en Hetzner Frankfurt o tu infra. Pipeline reproducible.

Modelos europeos cuando es viable (Mistral La Plateforme)
LoRA / QLoRA para reducir coste de training
Benchmark propio del cliente, no MMLU
Model Card como entregable AI Act-compatible

Business case

Coste de inferencia 10-30× inferior a APIs gestionadas para volúmenes altos. Soberanía EU completa. Latencia menor (modelo self-hosted, sin viaje a US). Capacidad de incorporar conocimiento dominio que ningún modelo general tiene.

Stack

Mistral / LlamaLoRA / QLoRAHugging Face TRLHetzner GPUvLLM serving

Ejemplo concreto

Para una organización jurídica que procesa 50K consultas/mes: Mistral 7B fine-tuned sobre 12K pares pregunta-respuesta jurídicas reales. Acierto en benchmark propio del 87% vs 72% del modelo base. Coste por consulta 0,003€ vs 0,12€ de API gestionada.

Solicitar reunión →

02 · B2B / Público / Turismo

Forecasting y detección de anomalías

Modelos de serie temporal (Prophet, ARIMA, deep learning) y anomaly detection sobre métricas operativas.

B2BTurismoPredicciónAnomaly

Problema

Negocios con estacionalidad (turismo, retail, energía) y operaciones críticas (SaaS, infraestructura) necesitan predecir demanda y detectar anomalías. Las hojas de Excel con medias no escalan. Contratar data scientist por cada caso es caro.

Solución

Modelos de serie temporal apropiados para tu caso: Prophet para tendencias con estacionalidad clara, ARIMA para series estables, deep learning (LSTM, Temporal Fusion Transformer) cuando hay relaciones complejas. Anomaly detection sobre métricas operativas con thresholds adaptativos. Re-training automático ante drift detectado.

Elección del modelo según tu serie, no según moda
Pipeline de re-training mensual o trimestral
Detección de drift que reentrenar automáticamente
Explicabilidad: por qué el modelo predice eso

Business case

Dimensionamiento ajustado a demanda real. Detección temprana de anomalías que evita incidentes. Decisiones de inversión basadas en predicción defendible. Reducción del coste por sobre-dimensionamiento preventivo.

Stack

Prophet / ARIMAPyTorch / LightningMLflow trackingPipeline re-training

Ejemplo concreto

Para un destino turístico con datos de ocupación hotelera de 8 años: modelo predice ocupación a 30 días con MAPE de 6.2% (vs 14% del método estadístico tradicional). El sector hotelero local ajusta pricing y plantilla con anticipación.

Solicitar reunión →

03 · Salud

Clasificación supervisada para triaje clínico

Modelo de triaje sintomático para asistente sanitario remoto entrenado sobre datos sintéticos. Auditable y reproducible.

SaludTriajeDatos sintéticosAI Act

Problema

Sistemas de salud bajo presión: 24/7 con personal limitado, demanda creciente. La población llama, llega a urgencias o usa servicios online sin filtro previo. Casos urgentes esperan, casos no urgentes saturan recursos. Un modelo de triaje fiable es crítico, pero entrenarlo con datos reales de pacientes es jurídicamente complejo.

Solución

Modelo de clasificación supervisada para triaje sintomático en asistente sanitario remoto (chatbot o teleasistencia). Entrenado sobre dataset sintético generado a partir de literatura clínica validada y casos reales anonimizados con synthetic data overlay (SDV + diferencial privacy). Output: categoría de urgencia (verde/amarillo/rojo) + recomendación (autocuidado, cita ambulatoria, urgencias). Auditable y reproducible. Diseñado conforme a AI Act alto riesgo (sector salud).

Datos sintéticos para entrenamiento, evita gestión RGPD compleja en fase de R&D
Validación clínica con panel de profesionales sanitarios
Audit log de cada predicción para revisión post-hoc
Escalado automático a humano cuando el modelo no tiene confianza suficiente
Reentrenamiento periódico con feedback de profesional supervisor

Business case

Mejora del flujo asistencial sin contratar personal adicional. Reducción de saturación en urgencias por casos no críticos. Detección temprana de casos rojos que llegarían tarde. Modelo compatible con AI Act alto riesgo, documentación obligatoria generada. Aplicable a teleconsulta, mutuas y servicios sanitarios públicos.

Stack

SDV datos sintéticosXGBoost / Random ForestValidación clínica panelAudit logs inmutablesAI Act high-risk docs

Ejemplo concreto

Para un servicio de teleasistencia sanitaria piloto: modelo clasifica el 78% de consultas iniciales correctamente, deriva el 22% restante a profesional con contexto completo. Sensibilidad para casos rojos del 96% (objetivo clínico: nunca rebajar urgencia real). Reducción del 35% en derivaciones inadecuadas a urgencias presenciales.

Solicitar reunión →

04 · Legal / B2B / Público

OCR custom para documentación específica

Extracción estructurada de campos en pólizas, facturas, recetas o expedientes. Re-entrenamiento incremental con feedback.

LegalB2BOCRExtracción

Problema

Los OCR genéricos (Tesseract, Azure Document Intelligence) funcionan bien en documentos estándar pero fallan en plantillas específicas del cliente (pólizas propias, facturas con formato heredado, recetas, expedientes administrativos). Cada error pasa a cola humana, eliminando el ahorro de la automatización.

Solución

OCR custom entrenado sobre los documentos reales del cliente. Combinación de OCR base (texto plano) + modelo de extracción estructurada (campos relevantes: importe, fecha, NIF, identificadores). Re-entrenamiento incremental: cada error corregido por humano entra al training set. Confianza por campo: si baja del umbral, escala a humano.

Active learning: el modelo pide al humano corregir solo los casos dudosos
Modelo específico por tipo de documento
Auditoría: cada extracción lleva confianza por campo
Compatible con flujos de aprobación (RPA o agente IA)

Business case

Reducción del trabajo manual de captura de datos. Mejora del tiempo de procesamiento de documentación entrante (pólizas, facturas, expedientes). Tasa de error baja con auditoría por campo. ROI medible al primer mes para volúmenes >5.000 docs/mes.

Stack

Tesseract / Azure DI baseLayoutLM / DonutActive learning loopConfianza por campo

Ejemplo concreto

Para una organización que procesa 12.000 documentos/mes con formato propio: precisión inicial del 78%, tras 6 meses de active learning sube al 96%. Equivale a no necesitar 4 personas dedicadas a captura manual.

Solicitar reunión →

05 · B2B

Evaluación y benchmarking de modelos

Harness reproducible para comparar LLMs y modelos clásicos sobre tu tarea concreta con métricas tuyas, no genéricas.

B2BMLOpsBenchmarkA/B

Problema

Cómo eliges entre Gemini, Claude, GPT-4, Mistral fine-tuned y un XGBoost clásico para tu caso. Los benchmarks públicos (MMLU, HellaSwag) miden tareas genéricas, no la tuya. Elegir mal cuesta dinero (10× coste, latencia mala) o calidad (modelo demasiado pequeño).

Solución

Harness de evaluación reproducible específico de tu tarea. Conjunto de prompts/inputs representativos. Métricas definidas con tu equipo (no accuracy genérico: NPS, tiempo a respuesta correcta, coste por consulta, factualidad, hallucination rate). Ejecuta varios modelos en paralelo. Reporte comparativo objetivo. A/B testing de variantes de prompt y de modelo en producción.

Conjunto de evaluación versionado y curado con expertos del cliente
Métricas multidimensionales: calidad + coste + latencia + privacidad
Reporte ejecutivo y técnico
Integración con observability para A/B en producción

Business case

Decisión de modelo basada en datos de tu caso, no en marketing. Capacidad de cambiar modelo cuando aparece uno mejor (proceso reproducible). Justificación ante auditoría regulatoria de por qué elegiste un modelo concreto. Optimización continua de coste vs calidad.

Stack

Harness propio reproducibleMLflow / Weights & BiasesLangSmith para LLM evalA/B testing prod

Ejemplo concreto

Para una empresa eligiendo entre 5 modelos LLM para asistente vertical: harness con 240 casos representativos validados por experto. Resultado: Mistral 22B fine-tuned bate a GPT-4 en calidad (+8%) a coste 14× menor. Decisión defendible ante CFO y auditor.

Solicitar reunión →

Cuando un modelo general no es suficiente.

Los modelos generales no saben tu dominio.

Cinco reglas de entrenamiento honesto.

Mistral 7B antes que Llama 70B

Métricas tuyas, no MMLU

Cold start sin pedir más datos

El modelo no es entregable estático

Model Card como entregable

Mismo training, mismo modelo

Cinco tipos de entrenamiento.

Fine-tuning de LLM open weights verticales

Problema

Solución

Business case

Stack

Ejemplo concreto

Forecasting y detección de anomalías

Problema

Solución

Business case

Stack

Ejemplo concreto

Clasificación supervisada para triaje clínico

Problema

Solución

Business case

Stack

Ejemplo concreto

OCR custom para documentación específica

Problema

Solución

Business case

Stack

Ejemplo concreto

Evaluación y benchmarking de modelos

Problema

Solución

Business case

Stack

Ejemplo concreto

Lo crítico antes de entrenar.

¿API o modelo propio? Decidimos con números.

Diego Torres