Fine-tuning de LLM open weights verticales
Ajuste de Mistral o Llama sobre corpus propio del cliente. Cumple soberanía EU y reduce coste de inferencia.
Problema
Una API LLM gestionada (Gemini, Claude, GPT) responde bien en general pero no domina vocabulario sectorial. Para volúmenes altos el coste se dispara. Para datos confidenciales (médicos, jurídicos, defensa), enviarlos a US es inviable.
Solución
Fine-tuning supervisado de un modelo open-weights europeo (Mistral 7B/22B, Llama 3 en su caso) sobre corpus específico del cliente. LoRA o QLoRA para eficiencia. Datos de entrenamiento curados con tu equipo. Validación contra benchmark propio. Despliegue self-hosted en Hetzner Frankfurt o tu infra. Pipeline reproducible.
- Modelos europeos cuando es viable (Mistral La Plateforme)
- LoRA / QLoRA para reducir coste de training
- Benchmark propio del cliente, no MMLU
- Model Card como entregable AI Act-compatible
Business case
Coste de inferencia 10-30× inferior a APIs gestionadas para volúmenes altos. Soberanía EU completa. Latencia menor (modelo self-hosted, sin viaje a US). Capacidad de incorporar conocimiento dominio que ningún modelo general tiene.
Stack
Ejemplo concreto
Para una organización jurídica que procesa 50K consultas/mes: Mistral 7B fine-tuned sobre 12K pares pregunta-respuesta jurídicas reales. Acierto en benchmark propio del 87% vs 72% del modelo base. Coste por consulta 0,003€ vs 0,12€ de API gestionada.