Ollama no usa la GPU en Windows
Si Ollama responde lento y el procesador se pone al 100%, probablemente el modelo está corriendo en CPU. Esta guía te da un diagnóstico ordenado para NVIDIA, AMD, WSL2 y Docker sin tocar cosas al azar.
- Comprobar si Ollama está usando GPU o CPU.
- Revisar drivers, compatibilidad y VRAM en Windows.
- Decidir cuándo usar Windows nativo, WSL2, LM Studio o un modelo menor.
Diagnóstico rápido
Abre PowerShell y prueba esto mientras generas una respuesta larga en Ollama:
ollama ps ollama run qwen3:4b "Escribe una explicación larga sobre IA local" # En otra terminal, si tienes NVIDIA: nvidia-smi -l 1
nvidia-smi muestra memoria y uso de GPU subiendo mientras Ollama responde, la GPU está trabajando. Si no cambia nada y la CPU se dispara, sigue el checklist.Lee los logs antes de tocar nada
Los logs suelen decir si Ollama encontró una GPU, si cayó a CPU o si un driver falló durante la detección.
# PowerShell Get-ChildItem "$env:LOCALAPPDATA\Ollama" -Recurse -Filter "*.log" # Abre el log más reciente: notepad "$env:LOCALAPPDATA\Ollama\server.log"
Busca palabras como cuda, rocm, vulkan, gpu, fallback, memory o no compatible GPUs. Si no aparece nada de GPU, Windows ni siquiera se la está presentando bien a Ollama.
Checklist NVIDIA
- Actualiza el driver NVIDIA. Ollama documenta soporte para GPUs NVIDIA con compute capability compatible y drivers recientes.
- Reinicia Windows después de instalar el driver.
- Comprueba que
nvidia-smifunciona en PowerShell. - Si tienes portátil híbrido, fuerza la GPU dedicada para Ollama desde Configuración de gráficos de Windows o Panel de NVIDIA.
- Prueba un modelo pequeño para descartar falta de VRAM.
nvidia-smi ollama pull qwen3:4b ollama run qwen3:4b "Responde con 20 frases para probar rendimiento"
Portátiles híbridos NVIDIA + Intel
Este es el caso más traicionero: Windows puede arrancar Ollama con la iGPU Intel aunque tengas una NVIDIA dedicada.
- Abre Configuración → Sistema → Pantalla → Gráficos.
- Añade la app de Ollama si no aparece.
- Marca Alto rendimiento para usar la GPU dedicada.
- En el Panel de control de NVIDIA, usa Procesador NVIDIA de alto rendimiento para Ollama si tu equipo lo permite.
- Cierra Ollama desde la bandeja del sistema y vuelve a abrirlo.
# Comprueba antes y después: nvidia-smi -l 1 ollama run qwen3:4b "Haz una prueba larga de rendimiento"
Checklist AMD Radeon
Ollama para Windows incluye soporte AMD Radeon, pero la compatibilidad práctica depende mucho de GPU, driver y backend disponible.
- Actualiza AMD Adrenalin y reinicia.
- Prueba primero Ollama nativo en Windows, no Docker.
- Si tu iGPU o APU no acelera bien, prueba LM Studio con Vulkan para ese equipo.
- En Linux, revisa la versión de ROCm y drivers; si son antiguos, Ollama puede caer a CPU.
Vulkan como plan B para AMD, iGPU y equipos raros
Si tu GPU no entra por CUDA o ROCm, Vulkan puede ser una vía útil en algunos equipos. No lo trates como garantía universal: pruébalo y mide.
# PowerShell: variables persistentes para tu usuario setx OLLAMA_VULKAN 1 setx OLLAMA_IGPU_ENABLE 1 # Cierra Ollama completamente, abre una terminal nueva y prueba: ollama run qwen3:4b "Prueba de Vulkan en Ollama"
setx no afecta a la terminal ya abierta. Cierra y abre PowerShell, y reinicia Ollama desde la bandeja del sistema.Windows Defender puede ralentizar modelos
Los modelos son archivos enormes. En algunas máquinas, Defender puede escanear cada descarga o lectura y dar la sensación de que Ollama está roto.
# Ruta habitual de modelos: %USERPROFILE%\.ollama # PowerShell: explorer "$env:USERPROFILE\.ollama"
Añade esa carpeta a exclusiones de Windows Security solo si entiendes el riesgo y descargas modelos de fuentes confiables. No excluyas carpetas genéricas como Descargas o todo tu usuario.
WSL2 o Windows nativo
Para la mayoría, Windows nativo es más simple. WSL2 tiene sentido si ya trabajas en Linux, Docker o desarrollo backend.
wsl --status wsl --shutdown # Dentro de Ubuntu/WSL, si tienes NVIDIA: nvidia-smi
Docker en Windows
Si corres Ollama en Docker, necesitas pasar la GPU al contenedor. Antes de culpar a Ollama, comprueba que Docker ve la GPU.
docker run --rm --gpus all nvidia/cuda:12.6.0-base-ubuntu22.04 nvidia-smi
Si sigue usando CPU
- Reinicia Ollama desde el icono de la bandeja o reinicia Windows.
- Actualiza Ollama a la última versión.
- Prueba un modelo menor o una cuantización más ligera.
- Comprueba VRAM libre antes de lanzar el modelo.
- En portátil híbrido, conecta el cargador y activa modo alto rendimiento.
- Compara con LM Studio si tienes iGPU o AMD y necesitas offload Vulkan fácil.
ollama ps mientras responde. Sin eso, cualquier diagnóstico es adivinar.