Axolotl para entrenamientos reproducibles

Cuando el entrenamiento deja de ser un experimento puntual, necesitas configuración versionable. Axolotl permite describir dataset, modelo, LoRA y entrenamiento en archivos claros.

Objetivos de aprendizaje
  • Crear una configuración YAML legible para fine-tuning.
  • Versionar datasets, hiperparámetros y checkpoints.
  • Separar experimento rápido de pipeline reproducible.
En cristiano: config reproducible. Un archivo que permite repetir el entrenamiento sin depender de memoria, capturas o comandos sueltos en la terminal.

YAML mínimo orientativo

Terminal
base_model: Qwen/Qwen3-4B-Instruct
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer

datasets:
  - path: data/train.jsonl
    type: alpaca

sequence_len: 2048
adapter: lora
lora_r: 16
lora_alpha: 32
lora_dropout: 0.05

learning_rate: 0.0002
num_epochs: 1
micro_batch_size: 1
gradient_accumulation_steps: 8
output_dir: outputs/soporte-qwen-lora
Idea clave. Axolotl se presenta como herramienta open source para simplificar post-training y fine-tuning de modelos recientes. Su valor está en configuración, compatibilidad y repetición.

Qué versionar

  • Config YAML.
  • Hash o versión del dataset.
  • Modelo base exacto.
  • Versión de librerías.
  • Resultados de eval.
  • Decisión de publicar o descartar.
Cuidado. No subas checkpoints grandes ni datasets privados al repo. Sube configs, manifests, data cards y resultados.
Comprueba que funciona. Otra persona debe poder leer tu YAML y entender qué entrenaste, con qué datos y para qué.
Guardar y reabrir el proyecto.
Axolotl te ayuda a tratar el fine-tuning como ingeniería, no como una libreta misteriosa.