Ingesta, limpieza y chunking
El chunking no es cortar texto cada mil caracteres. Es preservar sentido, títulos, tablas, fechas, permisos y origen para que la recuperación encuentre contexto útil.
Objetivos de aprendizaje
- Preparar documentos antes de convertirlos en vectores.
- Elegir estrategia de chunking según tipo de documento.
- Guardar metadatos para permisos, citas y auditoría.
En cristiano: chunk. Es un fragmento de documento. Debe ser suficientemente pequeño para recuperarse bien y suficientemente grande para conservar significado.
Metadatos mínimos
Terminal
{
"document_id": "contrato-2026-001",
"title": "Contrato proveedor",
"source": "drive/legal/contrato.pdf",
"page": 12,
"section": "penalizaciones",
"owner": "legal",
"visibility": "internal",
"updated_at": "2026-07-02"
} Idea clave. Los metadatos son lo que permite responder “según la página 12 del contrato” y también impedir que alguien lea documentos que no debe.
Estrategias de chunking
- Por títulos: manuales, políticas, documentación técnica.
- Por página: contratos, expedientes, PDFs con citas por página.
- Por tabla: facturas, catálogos, inventarios.
- Con solape: texto narrativo donde una idea cruza párrafos.
Cuidado. No indexas documentos; indexas interpretaciones de documentos. Si la extracción rompe tablas, columnas o notas al pie, el RAG puede responder con contexto incompleto.
Comprueba que funciona. Elige tres chunks al azar y pregúntate: ¿puedo entenderlos sin abrir el PDF completo? ¿sé de qué documento salen? ¿puedo citarlos?
Guardar y reabrir el proyecto.
Antes de generar embeddings, guarda una carpeta o tabla de “chunks revisables”. Si no puedes inspeccionar lo que indexas, no puedes depurar el RAG.