Datasets de instrucciones de calidad

La calidad del fine-tuning depende más del dataset que del comando de entrenamiento. Un dataset pequeño, limpio y representativo gana a miles de ejemplos ruidosos.

Objetivos de aprendizaje
  • Crear ejemplos de instrucción útiles para SFT.
  • Separar train, validation y test sin contaminar resultados.
  • Eliminar datos sensibles, duplicados y respuestas mediocres.
En cristiano: SFT. Supervised fine-tuning: enseñas con ejemplos de entrada y salida deseada. El modelo aprende el patrón, no solo una orden.

Formato simple

Terminal
{"instruction":"Clasifica el email","input":"Hola, quiero cambiar mi factura...","output":"categoria: facturacion\nprioridad: media\naccion: pedir numero de factura"}
{"instruction":"Redacta respuesta breve","input":"Cliente pide plazo de entrega","output":"Hola, gracias por escribir. El plazo estimado es..."}
{"instruction":"Extrae campos","input":"Presupuesto para 3 licencias anuales","output":"{"producto":"licencia anual","cantidad":3}"}
Idea clave. TRL incluye SFTTrainer y documentación sobre formatos de dataset y entrenamiento. Úsalo con formatos consistentes; el modelo aprende tus rarezas también.

Checklist de limpieza

  • Sin emails, teléfonos, DNI, claves ni nombres reales si no hay base legal.
  • Sin ejemplos duplicados entre train y test.
  • Sin respuestas contradictorias para la misma instrucción.
  • Con errores reales del dominio, no solo casos perfectos.
  • Con ejemplos donde el modelo debe rechazar o pedir aclaración.
Terminal
dataset/
  train.jsonl
  validation.jsonl
  test.jsonl
  README.md
  data_card.md
  redactions.log
Cuidado. Los datos sintéticos ayudan, pero si todos suenan igual, enseñas al modelo a ser artificial. Mezcla ejemplos reales anonimizados, plantillas y revisión humana.
Comprueba que funciona. Revisa 50 ejemplos al azar. Si 10 te dan vergüenza, no entrenes todavía.
Guardar y reabrir el proyecto.
Un buen dataset es producto editorial: selección, limpieza, tono, límites y evaluación.