Axolotl para entrenamientos reproducibles

Cuando el entrenamiento deja de ser un experimento puntual, necesitas configuración versionable. Axolotl permite describir dataset, modelo, LoRA y entrenamiento en archivos claros.

Objetivos de aprendizaje

Crear una configuración YAML legible para fine-tuning.
Versionar datasets, hiperparámetros y checkpoints.
Separar experimento rápido de pipeline reproducible.

En cristiano: config reproducible. Un archivo que permite repetir el entrenamiento sin depender de memoria, capturas o comandos sueltos en la terminal.

YAML mínimo orientativo

Terminal

base_model: Qwen/Qwen3-4B-Instruct
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer

datasets:
  - path: data/train.jsonl
    type: alpaca

sequence_len: 2048
adapter: lora
lora_r: 16
lora_alpha: 32
lora_dropout: 0.05

learning_rate: 0.0002
num_epochs: 1
micro_batch_size: 1
gradient_accumulation_steps: 8
output_dir: outputs/soporte-qwen-lora

Idea clave. Axolotl se presenta como herramienta open source para simplificar post-training y fine-tuning de modelos recientes. Su valor está en configuración, compatibilidad y repetición.

Qué versionar

Config YAML.
Hash o versión del dataset.
Modelo base exacto.
Versión de librerías.
Resultados de eval.
Decisión de publicar o descartar.

Cuidado. No subas checkpoints grandes ni datasets privados al repo. Sube configs, manifests, data cards y resultados.

Comprueba que funciona. Otra persona debe poder leer tu YAML y entender qué entrenaste, con qué datos y para qué.

Guardar y reabrir el proyecto.

Axolotl te ayuda a tratar el fine-tuning como ingeniería, no como una libreta misteriosa.

← SFT con Unsloth Evals y overfitting →