Datasets de instrucciones de calidad

La calidad del fine-tuning depende más del dataset que del comando de entrenamiento. Un dataset pequeño, limpio y representativo gana a miles de ejemplos ruidosos.

Objetivos de aprendizaje

Crear ejemplos de instrucción útiles para SFT.
Separar train, validation y test sin contaminar resultados.
Eliminar datos sensibles, duplicados y respuestas mediocres.

En cristiano: SFT. Supervised fine-tuning: enseñas con ejemplos de entrada y salida deseada. El modelo aprende el patrón, no solo una orden.

Formato simple

Terminal

{"instruction":"Clasifica el email","input":"Hola, quiero cambiar mi factura...","output":"categoria: facturacion\nprioridad: media\naccion: pedir numero de factura"}
{"instruction":"Redacta respuesta breve","input":"Cliente pide plazo de entrega","output":"Hola, gracias por escribir. El plazo estimado es..."}
{"instruction":"Extrae campos","input":"Presupuesto para 3 licencias anuales","output":"{"producto":"licencia anual","cantidad":3}"}

Idea clave. TRL incluye SFTTrainer y documentación sobre formatos de dataset y entrenamiento. Úsalo con formatos consistentes; el modelo aprende tus rarezas también.

Checklist de limpieza

Sin emails, teléfonos, DNI, claves ni nombres reales si no hay base legal.
Sin ejemplos duplicados entre train y test.
Sin respuestas contradictorias para la misma instrucción.
Con errores reales del dominio, no solo casos perfectos.
Con ejemplos donde el modelo debe rechazar o pedir aclaración.

Terminal

dataset/
  train.jsonl
  validation.jsonl
  test.jsonl
  README.md
  data_card.md
  redactions.log

Cuidado. Los datos sintéticos ayudan, pero si todos suenan igual, enseñas al modelo a ser artificial. Mezcla ejemplos reales anonimizados, plantillas y revisión humana.

Comprueba que funciona. Revisa 50 ejemplos al azar. Si 10 te dan vergüenza, no entrenes todavía.

Guardar y reabrir el proyecto.

Un buen dataset es producto editorial: selección, limpieza, tono, límites y evaluación.

← Mapa post-training LoRA y QLoRA →