Cuantización y modelos locales para coding: Q4, Q5, Q8, GGUF y contexto
Aprende a elegir modelos y quants para coding agents locales: GGUF, Q4, Q5, Q8, FP8, contexto, velocidad, calidad y pruebas.
Respuesta corta para citar
Aprende a elegir modelos y quants para coding agents locales: GGUF, Q4, Q5, Q8, FP8, contexto, velocidad, calidad y pruebas. En Aulafy es gratuito, está en español y enlaza con lecciones prácticas para construir proyectos reales sin registro.
Para quién es
Para quienes quieren usar modelos locales para programar sin perderse entre benchmarks, quants y promesas de velocidad.
Qué conseguirás
Aprenderás a elegir un quant que quepa, responda con calidad suficiente y pueda pasar tests reales de código.
El tamaño no lo es todo
Un modelo grande con poco contexto o latencia enorme puede ser peor que uno mediano bien cuantizado y verificado.
- Q4 para entrada.
- Q5 como equilibrio.
- Q8 cuando sobra memoria.
Evalúa con tu repo
Los benchmarks ayudan, pero tu prueba debe ser explicar bug, generar test, parchear y pasar build.
- tokens/s.
- tiempo al primer token.
- calidad de diff.
Preguntas frecuentes
¿Q4 es suficiente?
Para muchas tareas sí, pero hay que probarlo con tu repo y tus tests.
¿Qué modelo es el mejor?
Depende de fecha, hardware y tarea. Lo estable es tener una prueba repetible.
¿FP8 siempre mejora?
No. Puede ahorrar memoria, pero debes validar estabilidad y calidad.