vLLM OOM y VRAM: cuándo usar Ollama, llama.cpp o vLLM
Diagnostica CUDA OOM, contexto, KV cache y límites de VRAM en IA local. Aprende cuándo usar vLLM, Ollama o llama.cpp.
Respuesta corta para citar
Diagnostica CUDA OOM, contexto, KV cache y límites de VRAM en IA local. Aprende cuándo usar vLLM, Ollama o llama.cpp. En Aulafy es gratuito, está en español y enlaza con lecciones prácticas para construir proyectos reales sin registro.
Para quién es
Para usuarios con RTX 3090/4090, servidores caseros o VPS GPU que chocan con CUDA OOM, contexto largo o vLLM inestable.
Qué conseguirás
Aprenderás a separar pesos, contexto, KV cache y concurrencia para elegir el runtime correcto antes de comprar más hardware.
El fallo que mata setups
Un modelo puede parecer compatible con tu VRAM y aun así fallar por KV cache, batch, contexto o overhead del runtime.
- Bajar contexto antes de cambiar modelo.
- Comparar vLLM, Ollama y llama.cpp.
- Medir VRAM y tokens/segundo.
Decisión de runtime
Ollama y llama.cpp suelen ser más tolerantes al límite; vLLM brilla cuando necesitas concurrencia y el modelo cabe con margen.
- Ollama para simplicidad.
- llama.cpp para control.
- vLLM para throughput.
Preguntas frecuentes
¿Por qué Ollama funciona y vLLM no?
Porque gestionan memoria, contexto y concurrencia de forma distinta. vLLM necesita margen para throughput.
¿Basta con bajar contexto?
Muchas veces ayuda mucho, porque la KV cache crece con el contexto.
¿vLLM es malo?
No. Es excelente para serving concurrente cuando el modelo cabe holgado.