Cursos/Claude Code + IA Local/Modelos para coding

Cuantización y modelos para coding

Para programar con modelos locales no gana siempre el modelo más grande. Gana el que responde suficientemente bien, cabe con contexto útil y puede repetir tareas sin arrastrarte a OOM o latencia imposible.

Objetivos de aprendizaje

Elegir quant según hardware y tarea.
Medir velocidad, calidad y contexto en vez de fiarte de rankings.
Preparar una prueba mínima para coding agents locales.

En cristiano: cuantización. Es comprimir los números del modelo para que ocupe menos memoria. Puede hacerlo más rápido y viable en tu equipo, pero si aprietas demasiado pierde calidad o estabilidad.

Regla práctica

Q4: entra en más hardware, buena velocidad, puede perder matices.
Q5: equilibrio frecuente para uso diario.
Q8: más calidad, más memoria, menos margen para contexto.
FP8/KV cache: útil en serving, pero hay que validar estabilidad.

Idea clave. Para agentes de código, contexto y verificación importan más que un benchmark aislado. Un modelo pequeño con buen contexto y tests puede ser más útil que uno grande que se cae.

Terminal

# Prueba repetible para comparar modelos
ollama run qwen2.5-coder:7b "Crea tests para una función que parsea fechas ISO."
ollama run qwen2.5-coder:14b "Crea tests para una función que parsea fechas ISO."

# Observa contexto y carga efectiva
ollama ps

# Guarda resultados:
# - tokens/s
# - tiempo al primer token
# - calidad del test
# - si compila
# - memoria usada

Test mínimo para un modelo de coding

Explicar un bug real de tu repo.
Generar tests que fallen antes del fix.
Proponer parche pequeño.
Ejecutar lint y build.
Comparar diff y errores.

Cuidado. Cambiar de quant puede cambiar mucho la velocidad y también el comportamiento. No actualices modelo o quant en un flujo de producción sin repetir evals.

Comprueba que funciona. Mantén un archivo `models-eval.md` con modelo, quant, contexto, hardware, tokens/segundo, tarea y resultado. En IA local, la memoria humana miente rápido.

Guardar y reabrir el proyecto.

La mejor recomendación de modelo siempre tiene fecha. En 2026, modelos y quants cambian demasiado rápido para prometer rankings eternos.

Fuentes oficiales

← Homelab RTX 3090 Agentes de código locales →