Búsqueda híbrida y reranking
La búsqueda semántica encuentra ideas parecidas; la búsqueda por palabras clave encuentra nombres, códigos, fechas y términos exactos. Un RAG bueno usa ambas y reordena antes de responder.
Objetivos de aprendizaje
- Entender cuándo falla la búsqueda puramente vectorial.
- Combinar dense search, sparse search y filtros.
- Usar reranking para mejorar los fragmentos finales.
En cristiano: reranking. Es una segunda revisión de los resultados encontrados. Primero recuperas candidatos; luego un modelo o algoritmo más preciso decide cuáles son los mejores para responder.
Pipeline recomendado
Terminal
query -> reescritura opcional -> filtros de permisos -> dense retrieval -> sparse retrieval -> fusión de resultados -> reranking -> top chunks con citas -> generación
Idea clave. La búsqueda híbrida es especialmente buena para documentos de empresa: combina significado con códigos de contrato, referencias de factura, nombres propios y fechas exactas.
Señales para usar híbrida
- Los usuarios preguntan por códigos, IDs o cláusulas exactas.
- Hay mucha terminología interna.
- Los documentos mezclan tablas, texto y referencias.
- La búsqueda semántica trae respuestas “casi correctas”.
Cuidado. Más recuperación no siempre mejora. Si mandas demasiados chunks al modelo, metes ruido, subes coste y aumentas la superficie de prompt injection.
Comprueba que funciona. Prepara diez preguntas con respuesta conocida y compara: vectorial sola, keyword sola e híbrida con reranking. Quédate con evidencia, no con intuición.
Guardar y reabrir el proyecto.
El objetivo no es recuperar mucho; es recuperar lo justo, permitido y citable.