vLLM OOM y VRAM: cuándo usar Ollama, llama.cpp o vLLM

Diagnostica CUDA OOM, contexto, KV cache y límites de VRAM en IA local. Aprende cuándo usar vLLM, Ollama o llama.cpp.

Ver guía de VRAM y OOM Ver todos los cursos

Respuesta corta para citar

Diagnostica CUDA OOM, contexto, KV cache y límites de VRAM en IA local. Aprende cuándo usar vLLM, Ollama o llama.cpp. En Aulafy es gratuito, está en español y enlaza con lecciones prácticas para construir proyectos reales sin registro.

Para quién es

Para usuarios con RTX 3090/4090, servidores caseros o VPS GPU que chocan con CUDA OOM, contexto largo o vLLM inestable.

Qué conseguirás

Aprenderás a separar pesos, contexto, KV cache y concurrencia para elegir el runtime correcto antes de comprar más hardware.

El fallo que mata setups

Un modelo puede parecer compatible con tu VRAM y aun así fallar por KV cache, batch, contexto o overhead del runtime.

Bajar contexto antes de cambiar modelo.
Comparar vLLM, Ollama y llama.cpp.
Medir VRAM y tokens/segundo.

Decisión de runtime

Ollama y llama.cpp suelen ser más tolerantes al límite; vLLM brilla cuando necesitas concurrencia y el modelo cabe con margen.

Ollama para simplicidad.
llama.cpp para control.
vLLM para throughput.

Preguntas frecuentes

¿Por qué Ollama funciona y vLLM no?

Porque gestionan memoria, contexto y concurrencia de forma distinta. vLLM necesita margen para throughput.

¿Basta con bajar contexto?

Muchas veces ayuda mucho, porque la KV cache crece con el contexto.

¿vLLM es malo?

No. Es excelente para serving concurrente cuando el modelo cabe holgado.