Cursos/Claude Code + IA Local/Modelos para coding

Cuantización y modelos para coding

Para programar con modelos locales no gana siempre el modelo más grande. Gana el que responde suficientemente bien, cabe con contexto útil y puede repetir tareas sin arrastrarte a OOM o latencia imposible.

Objetivos de aprendizaje
  • Elegir quant según hardware y tarea.
  • Medir velocidad, calidad y contexto en vez de fiarte de rankings.
  • Preparar una prueba mínima para coding agents locales.
En cristiano: cuantización. Es comprimir los números del modelo para que ocupe menos memoria. Puede hacerlo más rápido y viable en tu equipo, pero si aprietas demasiado pierde calidad o estabilidad.

Regla práctica

  • Q4: entra en más hardware, buena velocidad, puede perder matices.
  • Q5: equilibrio frecuente para uso diario.
  • Q8: más calidad, más memoria, menos margen para contexto.
  • FP8/KV cache: útil en serving, pero hay que validar estabilidad.
Idea clave. Para agentes de código, contexto y verificación importan más que un benchmark aislado. Un modelo pequeño con buen contexto y tests puede ser más útil que uno grande que se cae.
Terminal
# Prueba repetible para comparar modelos
ollama run qwen2.5-coder:7b "Crea tests para una función que parsea fechas ISO."
ollama run qwen2.5-coder:14b "Crea tests para una función que parsea fechas ISO."

# Observa contexto y carga efectiva
ollama ps

# Guarda resultados:
# - tokens/s
# - tiempo al primer token
# - calidad del test
# - si compila
# - memoria usada

Test mínimo para un modelo de coding

  1. Explicar un bug real de tu repo.
  2. Generar tests que fallen antes del fix.
  3. Proponer parche pequeño.
  4. Ejecutar lint y build.
  5. Comparar diff y errores.
Cuidado. Cambiar de quant puede cambiar mucho la velocidad y también el comportamiento. No actualices modelo o quant en un flujo de producción sin repetir evals.
Comprueba que funciona. Mantén un archivo `models-eval.md` con modelo, quant, contexto, hardware, tokens/segundo, tarea y resultado. En IA local, la memoria humana miente rápido.
Guardar y reabrir el proyecto.
La mejor recomendación de modelo siempre tiene fecha. En 2026, modelos y quants cambian demasiado rápido para prometer rankings eternos.