Cuantización y modelos locales para coding: Q4, Q5, Q8, GGUF y contexto

Aprende a elegir modelos y quants para coding agents locales: GGUF, Q4, Q5, Q8, FP8, contexto, velocidad, calidad y pruebas.

Ver guía de cuantización Ver todos los cursos

Respuesta corta para citar

Aprende a elegir modelos y quants para coding agents locales: GGUF, Q4, Q5, Q8, FP8, contexto, velocidad, calidad y pruebas. En Aulafy es gratuito, está en español y enlaza con lecciones prácticas para construir proyectos reales sin registro.

Para quién es

Para quienes quieren usar modelos locales para programar sin perderse entre benchmarks, quants y promesas de velocidad.

Qué conseguirás

Aprenderás a elegir un quant que quepa, responda con calidad suficiente y pueda pasar tests reales de código.

El tamaño no lo es todo

Un modelo grande con poco contexto o latencia enorme puede ser peor que uno mediano bien cuantizado y verificado.

Q4 para entrada.
Q5 como equilibrio.
Q8 cuando sobra memoria.

Evalúa con tu repo

Los benchmarks ayudan, pero tu prueba debe ser explicar bug, generar test, parchear y pasar build.

tokens/s.
tiempo al primer token.
calidad de diff.

Preguntas frecuentes

¿Q4 es suficiente?

Para muchas tareas sí, pero hay que probarlo con tu repo y tus tests.

¿Qué modelo es el mejor?

Depende de fecha, hardware y tarea. Lo estable es tener una prueba repetible.

¿FP8 siempre mejora?

No. Puede ahorrar memoria, pero debes validar estabilidad y calidad.