Cursos/Fine-tuning local/Mapa post-training

Mapa: SFT, LoRA, QLoRA y DPO

Fine-tuning no es el martillo para todo. Antes de entrenar, decide si el problema se arregla con mejor prompt, RAG, herramientas, datos limpios o adaptación real del modelo.

Objetivos de aprendizaje

Distinguir prompt engineering, RAG, SFT, LoRA, QLoRA y DPO.
Elegir la técnica adecuada según coste, datos y objetivo.
Evitar entrenar un modelo cuando solo necesitas recuperar información.

En cristiano: post-training. Es adaptar un modelo ya entrenado para que responda mejor a una tarea, formato, estilo o política concreta.

Decisión rápida

Prompt: quieres cambiar formato, tono o instrucciones simples.
RAG: quieres que use documentos actualizables o privados.
SFT: quieres que aprenda patrones de pregunta-respuesta de tu dominio.
LoRA: quieres entrenar pocos parámetros y guardar un adaptador ligero.
QLoRA: quieres LoRA usando cuantización para reducir memoria.
DPO: quieres alinear preferencias comparando respuestas buenas y malas.

Idea clave. PEFT permite adaptar modelos entrenando solo una parte pequeña de parámetros, reduciendo memoria y coste frente a fine-tuning completo.

Ficha de decisión

Terminal

objetivo: "responder emails de soporte con tono de marca"
datos_disponibles:
  ejemplos_buenos: 800
  ejemplos_malos: 120
  documentos_actualizables: true
mejor_opcion:
  - RAG para políticas que cambian
  - SFT/LoRA para tono y formato
no_entrenar_para:
  - memorizar precios
  - guardar contratos privados
  - sustituir permisos

Cuidado. No metas conocimiento cambiante al modelo si puede vivir en RAG. Entrenar para recordar información que cambia suele crear deuda.

Comprueba que funciona. Escribe tres objetivos de adaptación. Marca cuál necesita prompt, cuál necesita RAG y cuál sí justifica fine-tuning.

Guardar y reabrir el proyecto.

Fine-tuning bueno empieza con una pregunta incómoda: ¿de verdad necesito entrenar?

Datasets de instrucciones →