Cursos/RAG avanzado y seguro/Ingesta y chunking

Ingesta, limpieza y chunking

El chunking no es cortar texto cada mil caracteres. Es preservar sentido, títulos, tablas, fechas, permisos y origen para que la recuperación encuentre contexto útil.

Objetivos de aprendizaje
  • Preparar documentos antes de convertirlos en vectores.
  • Elegir estrategia de chunking según tipo de documento.
  • Guardar metadatos para permisos, citas y auditoría.
En cristiano: chunk. Es un fragmento de documento. Debe ser suficientemente pequeño para recuperarse bien y suficientemente grande para conservar significado.

Metadatos mínimos

Terminal
{
  "document_id": "contrato-2026-001",
  "title": "Contrato proveedor",
  "source": "drive/legal/contrato.pdf",
  "page": 12,
  "section": "penalizaciones",
  "owner": "legal",
  "visibility": "internal",
  "updated_at": "2026-07-02"
}
Idea clave. Los metadatos son lo que permite responder “según la página 12 del contrato” y también impedir que alguien lea documentos que no debe.

Estrategias de chunking

  • Por títulos: manuales, políticas, documentación técnica.
  • Por página: contratos, expedientes, PDFs con citas por página.
  • Por tabla: facturas, catálogos, inventarios.
  • Con solape: texto narrativo donde una idea cruza párrafos.
Cuidado. No indexas documentos; indexas interpretaciones de documentos. Si la extracción rompe tablas, columnas o notas al pie, el RAG puede responder con contexto incompleto.
Comprueba que funciona. Elige tres chunks al azar y pregúntate: ¿puedo entenderlos sin abrir el PDF completo? ¿sé de qué documento salen? ¿puedo citarlos?
Guardar y reabrir el proyecto.
Antes de generar embeddings, guarda una carpeta o tabla de “chunks revisables”. Si no puedes inspeccionar lo que indexas, no puedes depurar el RAG.