Cuantización y modelos para coding
Para programar con modelos locales no gana siempre el modelo más grande. Gana el que responde suficientemente bien, cabe con contexto útil y puede repetir tareas sin arrastrarte a OOM o latencia imposible.
Objetivos de aprendizaje
- Elegir quant según hardware y tarea.
- Medir velocidad, calidad y contexto en vez de fiarte de rankings.
- Preparar una prueba mínima para coding agents locales.
En cristiano: cuantización. Es comprimir los números del modelo para que ocupe menos memoria. Puede hacerlo más rápido y viable en tu equipo, pero si aprietas demasiado pierde calidad o estabilidad.
Regla práctica
- Q4: entra en más hardware, buena velocidad, puede perder matices.
- Q5: equilibrio frecuente para uso diario.
- Q8: más calidad, más memoria, menos margen para contexto.
- FP8/KV cache: útil en serving, pero hay que validar estabilidad.
Idea clave. Para agentes de código, contexto y verificación importan más que un benchmark aislado. Un modelo pequeño con buen contexto y tests puede ser más útil que uno grande que se cae.
Terminal
# Prueba repetible para comparar modelos ollama run qwen2.5-coder:7b "Crea tests para una función que parsea fechas ISO." ollama run qwen2.5-coder:14b "Crea tests para una función que parsea fechas ISO." # Observa contexto y carga efectiva ollama ps # Guarda resultados: # - tokens/s # - tiempo al primer token # - calidad del test # - si compila # - memoria usada
Test mínimo para un modelo de coding
- Explicar un bug real de tu repo.
- Generar tests que fallen antes del fix.
- Proponer parche pequeño.
- Ejecutar lint y build.
- Comparar diff y errores.
Cuidado. Cambiar de quant puede cambiar mucho la velocidad y también el comportamiento. No actualices modelo o quant en un flujo de producción sin repetir evals.
Comprueba que funciona. Mantén un archivo `models-eval.md` con modelo, quant, contexto, hardware, tokens/segundo, tarea y resultado. En IA local, la memoria humana miente rápido.
Guardar y reabrir el proyecto.
La mejor recomendación de modelo siempre tiene fecha. En 2026, modelos y quants cambian demasiado rápido para prometer rankings eternos.