Mapa: SFT, LoRA, QLoRA y DPO
Fine-tuning no es el martillo para todo. Antes de entrenar, decide si el problema se arregla con mejor prompt, RAG, herramientas, datos limpios o adaptación real del modelo.
Objetivos de aprendizaje
- Distinguir prompt engineering, RAG, SFT, LoRA, QLoRA y DPO.
- Elegir la técnica adecuada según coste, datos y objetivo.
- Evitar entrenar un modelo cuando solo necesitas recuperar información.
En cristiano: post-training. Es adaptar un modelo ya entrenado para que responda mejor a una tarea, formato, estilo o política concreta.
Decisión rápida
- Prompt: quieres cambiar formato, tono o instrucciones simples.
- RAG: quieres que use documentos actualizables o privados.
- SFT: quieres que aprenda patrones de pregunta-respuesta de tu dominio.
- LoRA: quieres entrenar pocos parámetros y guardar un adaptador ligero.
- QLoRA: quieres LoRA usando cuantización para reducir memoria.
- DPO: quieres alinear preferencias comparando respuestas buenas y malas.
Idea clave. PEFT permite adaptar modelos entrenando solo una parte pequeña de parámetros, reduciendo memoria y coste frente a fine-tuning completo.
Ficha de decisión
Terminal
objetivo: "responder emails de soporte con tono de marca" datos_disponibles: ejemplos_buenos: 800 ejemplos_malos: 120 documentos_actualizables: true mejor_opcion: - RAG para políticas que cambian - SFT/LoRA para tono y formato no_entrenar_para: - memorizar precios - guardar contratos privados - sustituir permisos
Cuidado. No metas conocimiento cambiante al modelo si puede vivir en RAG. Entrenar para recordar información que cambia suele crear deuda.
Comprueba que funciona. Escribe tres objetivos de adaptación. Marca cuál necesita prompt, cuál necesita RAG y cuál sí justifica fine-tuning.
Guardar y reabrir el proyecto.
Fine-tuning bueno empieza con una pregunta incómoda: ¿de verdad necesito entrenar?