Búsqueda y conocimiento (RAG) · Portfolio

El problema · 01

El conocimiento existe. Pero no se encuentra.

Cada organización mediana acumula miles de documentos: ordenanzas, procedimientos, manuales, normativas, sentencias, plenos grabados, FAQs. El conocimiento está, pero está fragmentado en sharepoints, drives, wikis y grabaciones que nadie volverá a abrir.

La búsqueda full-text tradicional no resuelve: no entiende sinónimos, no respeta contexto, no diferencia entre normativa vigente y derogada, no busca en lo que se dijo en una reunión grabada. Lo que necesitas es búsqueda semántica con RAG, citas verificables y control de acceso heredado de tus permisos existentes.

Principios · 02

Cinco reglas que diferencian RAG bueno de RAG mediocre.

El RAG de presentación funciona en una demo. El RAG de producción requiere disciplina en estos cinco frentes desde el primer día.

01 · Sin alucinación

Cita obligatoria a fuente

Cada respuesta lleva enlace al documento exacto, página o timestamp. Si no encuentra fuente, dice "no lo sé" en vez de inventar.

02 · Permisos heredados

Ves solo lo que ya podías ver

El RAG hereda los permisos del sistema origen. No se convierte en una puerta de atrás a documentos restringidos.

03 · Chunking semántico

Cortar bien para encontrar bien

Chunking por estructura (artículo legal, sección, párrafo coherente), no por bytes arbitrarios. Re-ranker post-recuperación para precisión.

04 · Indexación incremental

Se actualiza sola

Documentos nuevos entran al índice automáticamente. Documentos derogados se marcan como históricos. Sin batch jobs manuales.

05 · Trazabilidad temporal

"Qué decía esto en X fecha"

El índice mantiene versiones. Permite preguntar por el estado de un documento en un momento concreto.

06 · Multilingüe

Idioma de la consulta, idioma del documento

Embeddings multilingües. Pregunta en castellano, encuentra documento en inglés, responde en castellano citando original.

Las 4 capacidades · 03

Cuatro tipos de conocimiento.

Comparten arquitectura RAG pero divergen en fuente de datos, requisitos de acceso y formato de respuesta esperado.

01 · B2B

RAG sobre documentación corporativa

Búsqueda semántica con control de acceso por roles sobre intranet, manuales y procedimientos. Citas a fuente verificables.

B2BIntranetSSORAG

Problema

Empleados de organizaciones grandes pierden entre 30 y 60 minutos al día buscando información interna. La búsqueda full-text del sharepoint no sirve. El conocimiento de los seniors no está documentado y, cuando lo está, está disperso.

Solución

Sistema de búsqueda semántica sobre toda la documentación interna indexada incrementalmente. Control de acceso heredado del SSO corporativo: un empleado solo busca documentos a los que ya tenía permiso. Citaciones a fuente con enlace al documento original. Indexación de nuevos documentos automática.

Indexa SharePoint, Google Drive, Notion, Confluence, S3
Permisos respetados a nivel de chunk, no de documento
Re-ranking post-retrieval para precisión
Integración con SSO corporativo (Okta, Entra ID, Google)

Business case

30-60 min/empleado/día recuperados. Onboarding de nuevos empleados acelerado. Captura de conocimiento implícito de la organización. Reducción del shadow-IT de copias locales de documentación.

Stack

pgvector / Pineconegemini-embedding-001Re-rankerLLM con citacionesSSO integration

Ejemplo concreto

Para una organización con 300 empleados y 40.000 documentos internos: el 65% de búsquedas internas se resuelven con el primer resultado citado. La curva de productividad del nuevo empleado se acorta en 2-3 semanas.

Solicitar reunión →

02 · Legal / B2B

RAG multi-marco para compliance EU

Plataforma RGPD + NIS2 + EAA + AI Act que analiza tu web y docs, mapea obligaciones y genera documentación obligatoria.

LegalComplianceRGPDAI Act

Problema

PYMEs europeas tienen que cumplir múltiples regulaciones simultáneas: RGPD desde 2018, NIS2 desde 2024, EAA desde 2025, AI Act 2026. Cada una pide documentación específica. Mantener un equipo legal/técnico dedicado no es viable.

Solución

Plataforma SaaS de compliance multi-marco. Analiza automáticamente tu web corporativa y documentación interna. Mapea obligaciones por marco regulatorio. Genera documentación obligatoria: declaración de accesibilidad, política de privacidad, registro de actividades de tratamiento, registro de sistemas IA. Dashboard de cumplimiento con score por marco. Sin necesidad de contratar consultoría especialista para cada regulación.

Scanner técnico (axe-core para accesibilidad, análisis estructural)
Generación de docs con LLM sobre plantillas legales validadas
Alertas de cambios regulatorios y obligaciones nuevas
Pricing por módulo: solo pagas las regulaciones que te aplican

Business case

Automatización del 80% del trabajo de compliance. Reducción del coste de consultoría legal. Prevención de sanciones (RGPD hasta 4% de facturación, AI Act hasta 7%). Tiempo desde decisión hasta primer informe: horas en vez de meses.

Stack

Next.js + SupabaseGemini 2.0 Flashaxe-core scannerpgvector RAGLemon Squeezy MoR

Ejemplo concreto

Para una PYME de 50 empleados que opera en 3 países EU: en menos de 1 día completa registro de actividades RGPD, declaración de accesibilidad EAA y registro inicial AI Act. Lo que con consultoría tradicional costaría 6.000-12.000€ y 3 meses.

Solicitar reunión →

03 · Público / Educación

RAG sobre transcripciones audiovisuales

Transcripción Whisper + búsqueda semántica con timestamps sobre plenos, clases o formación en vídeo.

Sector públicoEducaciónWhisperAccesibilidad

Problema

Ayuntamientos graban plenos por obligación legal pero nadie los vuelve a abrir. Universidades graban clases que se pierden tras el examen. Empresas tienen horas de formación en vídeo no buscable. Búsqueda por texto sobre vídeo no existe en sistemas tradicionales.

Solución

Pipeline asíncrono que transcribe audio con Whisper o Gemini Audio, indexa la transcripción con embeddings y permite búsqueda semántica con marcado temporal. Click en el resultado y el player se posiciona en el momento exacto del vídeo donde se dijo. Subtitulado automático para accesibilidad. API pública opcional para datos abiertos.

Transcripción multilingüe con detección automática de idioma
Diarización: identifica quién habla (alcalde, concejal, oposición)
Resúmenes automáticos por sesión
Compatible con obligación de publicación de plenos

Business case

Cumplimiento de obligación de publicación de plenos con valor real, no archivo muerto. Mejora de transparencia y accesibilidad. Subtitulado automático para discapacidad auditiva. Reutilización de contenido formativo en empresas.

Stack

Whisper largePipeline asíncronopgvectorPlayer web con timestampsCKAN datos abiertos

Ejemplo concreto

Para un ayuntamiento con 4 años de plenos grabados (380 horas): en 2 semanas todo el histórico queda transcrito, indexado y buscable. Periodistas, ciudadanos y técnicos municipales acceden a "qué dijo X concejal sobre Y en mayo 2024" en 5 segundos.

Solicitar reunión →

04 · Legal

Búsqueda semántica sobre jurisprudencia

RAG sobre sentencias y normativa con validación de citas legales y comparativa entre cuerpos jurisprudenciales.

LegalJurisprudenciaCitas validadasComparativa

Problema

Despachos y servicios jurídicos internos dedican muchas horas a búsqueda jurisprudencial. La búsqueda por palabra clave devuelve cientos de sentencias irrelevantes. La interpretación correcta requiere cruzar normativa y jurisprudencia, distinguir vigente y derogada.

Solución

RAG sobre cuerpos jurídicos completos (sentencias por instancia, normativa vigente y derogada). Validación automática de cada cita legal generada (el LLM no se inventa artículos). Comparativa entre cuerpos jurisprudenciales (TS, TC, TJUE) sobre una misma materia. Indexación incremental sobre publicaciones oficiales.

Validador de citas: comprueba que el artículo citado existe y dice eso
Comparativa entre instancias para ver evolución doctrinal
Distinción explícita entre obiter dictum y ratio decidendi
Filtros por materia, instancia, fecha, ponente

Business case

Aumento de productividad del abogado/jurista en búsqueda. Foco humano en análisis de casos complejos, no en buscar referencias. Calidad consistente en escritos básicos. Reducción del time-to-first-draft.

Stack

RAG con citas validablesModelos especializadosChunking jurídicoWorkflow humano-en-bucle

Ejemplo concreto

Para un despacho jurídico mediano (15 abogados): tiempo medio de búsqueda jurisprudencial sobre un caso pasa de 4-6 horas a 30-45 minutos. La diferencia se invierte en análisis y estrategia procesal.

Solicitar reunión →

FAQ · 04

Lo que pregunta todo el mundo.

Sobre RAG las dudas son recurrentes. Aquí las cuatro más comunes.

¿Necesito limpiar mi documentación antes de empezar?

No. Trabajamos con tu documentación tal y como está hoy (PDFs escaneados incluidos, sharepoints con duplicados, drives caóticos). El preprocesado se hace automático: OCR cuando hace falta, deduplicación, chunking semántico. Solo necesitamos saber qué fuentes son canónicas y cuáles obsoletas.

¿Mis datos se quedan dentro o salen a un proveedor cloud?

Configurable. Opción A: API de modelo gestionado (Gemini, Claude) con compromiso de no entrenamiento sobre tus datos. Opción B: modelo open weights (Mistral, Llama) self-hosted en Hetzner Frankfurt o tu infraestructura. Para salud, legal y administración recomendamos opción B.

¿Cómo evita que cite cosas que no dicen lo que el LLM cree?

Dos mecanismos. Primero, RAG estricto: el LLM solo puede referenciar chunks recuperados, no su memoria. Segundo, validador de citas post-generación: verifica que la cita textual coincide con el documento fuente. Si el LLM se desvía, lo detectamos.

¿Soporta múltiples idiomas en una misma instalación?

Sí. Embeddings multilingües por defecto. Pregunta en castellano y encuentra documentos en inglés o catalán. La respuesta llega en el idioma de la pregunta, con la cita en el idioma original del documento.

Encuentra lo que sabes. Sin reorganizarlo todo.

El conocimiento existe. Pero no se encuentra.

Cinco reglas que diferencian RAG bueno de RAG mediocre.

Cita obligatoria a fuente

Ves solo lo que ya podías ver

Cortar bien para encontrar bien

Se actualiza sola

"Qué decía esto en X fecha"

Idioma de la consulta, idioma del documento

Cuatro tipos de conocimiento.

RAG sobre documentación corporativa

Problema

Solución

Business case

Stack

Ejemplo concreto

RAG multi-marco para compliance EU

Problema

Solución

Business case

Stack

Ejemplo concreto

RAG sobre transcripciones audiovisuales

Problema

Solución

Business case

Stack

Ejemplo concreto

Búsqueda semántica sobre jurisprudencia

Problema

Solución

Business case

Stack

Ejemplo concreto

Lo que pregunta todo el mundo.

Empieza con 1.000 documentos. Mide y escala.

Encuentra lo que sabes. Sin reorganizarlo todo.

El conocimiento existe. Pero no se encuentra.

Cinco reglas que diferencian RAG bueno de RAG mediocre.

Cita obligatoria a fuente

Ves solo lo que ya podías ver

Cortar bien para encontrar bien

Se actualiza sola

"Qué decía esto en X fecha"

Idioma de la consulta, idioma del documento

Cuatro tipos de conocimiento.

RAG sobre documentación corporativa

Problema

Solución

Business case

Stack

Ejemplo concreto

RAG multi-marco para compliance EU

Problema

Solución

Business case

Stack

Ejemplo concreto

RAG sobre transcripciones audiovisuales

Problema

Solución

Business case

Stack

Ejemplo concreto

Búsqueda semántica sobre jurisprudencia

Problema

Solución

Business case

Stack

Ejemplo concreto

Lo que pregunta todo el mundo.

Empieza con 1.000 documentos. Mide y escala.

Diego Torres