Datasets de instrucciones de calidad
La calidad del fine-tuning depende más del dataset que del comando de entrenamiento. Un dataset pequeño, limpio y representativo gana a miles de ejemplos ruidosos.
Objetivos de aprendizaje
- Crear ejemplos de instrucción útiles para SFT.
- Separar train, validation y test sin contaminar resultados.
- Eliminar datos sensibles, duplicados y respuestas mediocres.
En cristiano: SFT. Supervised fine-tuning: enseñas con ejemplos de entrada y salida deseada. El modelo aprende el patrón, no solo una orden.
Formato simple
Terminal
{"instruction":"Clasifica el email","input":"Hola, quiero cambiar mi factura...","output":"categoria: facturacion\nprioridad: media\naccion: pedir numero de factura"}
{"instruction":"Redacta respuesta breve","input":"Cliente pide plazo de entrega","output":"Hola, gracias por escribir. El plazo estimado es..."}
{"instruction":"Extrae campos","input":"Presupuesto para 3 licencias anuales","output":"{"producto":"licencia anual","cantidad":3}"} Idea clave. TRL incluye SFTTrainer y documentación sobre formatos de dataset y entrenamiento. Úsalo con formatos consistentes; el modelo aprende tus rarezas también.
Checklist de limpieza
- Sin emails, teléfonos, DNI, claves ni nombres reales si no hay base legal.
- Sin ejemplos duplicados entre train y test.
- Sin respuestas contradictorias para la misma instrucción.
- Con errores reales del dominio, no solo casos perfectos.
- Con ejemplos donde el modelo debe rechazar o pedir aclaración.
Terminal
dataset/ train.jsonl validation.jsonl test.jsonl README.md data_card.md redactions.log
Cuidado. Los datos sintéticos ayudan, pero si todos suenan igual, enseñas al modelo a ser artificial. Mezcla ejemplos reales anonimizados, plantillas y revisión humana.
Comprueba que funciona. Revisa 50 ejemplos al azar. Si 10 te dan vergüenza, no entrenes todavía.
Guardar y reabrir el proyecto.
Un buen dataset es producto editorial: selección, limpieza, tono, límites y evaluación.