Exportar a GGUF y Ollama

Entrenar es solo la mitad. Si el modelo adaptado no se puede usar con tu stack local, no has terminado. Exportar bien significa conservar comportamiento, cuantizar con criterio y probar en la app real.

Objetivos de aprendizaje

Entender cuándo usar adaptador separado y cuándo mergear.
Preparar GGUF para llama.cpp/Ollama.
Crear un Modelfile con prompt de sistema y parámetros.

En cristiano: merge. Es combinar el adaptador LoRA con el modelo base para generar un modelo completo. A veces conviene; otras prefieres cargar adaptador separado.

Flujo de salida

Terminal

adapter LoRA
  -> evaluar
  -> merge con modelo base si procede
  -> export safetensors
  -> convertir a GGUF
  -> cuantizar Q4/Q5/Q8
  -> crear Modelfile Ollama
  -> probar en la app real

Idea clave. Unsloth documenta export de modelos fine-tuned a formatos como safetensors y GGUF para usarlos con llama.cpp, vLLM, Ollama y otros runtimes.

Modelfile de Ollama

Terminal

FROM ./soporte-qwen-lora-q5_k_m.gguf

PARAMETER temperature 0.2
PARAMETER num_ctx 4096

SYSTEM """
Eres un asistente interno de soporte.
Responde en español claro.
Si faltan datos, pide aclaración.
No inventes políticas, precios ni datos personales.
"""

Terminal

ollama create soporte-pyme -f Modelfile
ollama run soporte-pyme "Clasifica este email de ejemplo"

Cuidado. Cuantizar puede cambiar comportamiento. Repite evals después de convertir a GGUF, no solo antes.

Comprueba que funciona. Compara modelo base, adaptador sin cuantizar y GGUF cuantizado con los mismos 20 casos. Si el GGUF cae mucho, cambia quant o parámetros.

Guardar y reabrir el proyecto.

Un modelo adaptado publicado debe tener manifest: base, adaptador, dataset, evals, quant, Modelfile y fecha.

← Evals y overfitting Proyecto pyme →