Cursos/Claude Code + IA Local/Ollama GPU Windows

Ollama no usa la GPU en Windows

Si Ollama responde lento y el procesador se pone al 100%, probablemente el modelo está corriendo en CPU. Esta guía te da un diagnóstico ordenado para NVIDIA, AMD, WSL2 y Docker sin tocar cosas al azar.

Objetivos de aprendizaje
  • Comprobar si Ollama está usando GPU o CPU.
  • Revisar drivers, compatibilidad y VRAM en Windows.
  • Decidir cuándo usar Windows nativo, WSL2, LM Studio o un modelo menor.
En cristiano: offload a GPU. Significa que parte del modelo se carga en la memoria de la tarjeta gráfica. Si no cabe en VRAM, Ollama usa RAM/CPU y todo va mucho más lento.

Diagnóstico rápido

Abre PowerShell y prueba esto mientras generas una respuesta larga en Ollama:

Terminal
ollama ps
ollama run qwen3:4b "Escribe una explicación larga sobre IA local"

# En otra terminal, si tienes NVIDIA:
nvidia-smi -l 1
Comprueba que funciona. Si nvidia-smi muestra memoria y uso de GPU subiendo mientras Ollama responde, la GPU está trabajando. Si no cambia nada y la CPU se dispara, sigue el checklist.

Lee los logs antes de tocar nada

Los logs suelen decir si Ollama encontró una GPU, si cayó a CPU o si un driver falló durante la detección.

Terminal
# PowerShell
Get-ChildItem "$env:LOCALAPPDATA\Ollama" -Recurse -Filter "*.log"

# Abre el log más reciente:
notepad "$env:LOCALAPPDATA\Ollama\server.log"

Busca palabras como cuda, rocm, vulkan, gpu, fallback, memory o no compatible GPUs. Si no aparece nada de GPU, Windows ni siquiera se la está presentando bien a Ollama.

Checklist NVIDIA

  1. Actualiza el driver NVIDIA. Ollama documenta soporte para GPUs NVIDIA con compute capability compatible y drivers recientes.
  2. Reinicia Windows después de instalar el driver.
  3. Comprueba que nvidia-smi funciona en PowerShell.
  4. Si tienes portátil híbrido, fuerza la GPU dedicada para Ollama desde Configuración de gráficos de Windows o Panel de NVIDIA.
  5. Prueba un modelo pequeño para descartar falta de VRAM.
Terminal
nvidia-smi
ollama pull qwen3:4b
ollama run qwen3:4b "Responde con 20 frases para probar rendimiento"
Idea clave. Empieza con un modelo pequeño. Si un 4B usa GPU y un 14B no cabe, el problema no es Ollama: es VRAM.

Portátiles híbridos NVIDIA + Intel

Este es el caso más traicionero: Windows puede arrancar Ollama con la iGPU Intel aunque tengas una NVIDIA dedicada.

  1. Abre ConfiguraciónSistemaPantallaGráficos.
  2. Añade la app de Ollama si no aparece.
  3. Marca Alto rendimiento para usar la GPU dedicada.
  4. En el Panel de control de NVIDIA, usa Procesador NVIDIA de alto rendimiento para Ollama si tu equipo lo permite.
  5. Cierra Ollama desde la bandeja del sistema y vuelve a abrirlo.
Terminal
# Comprueba antes y después:
nvidia-smi -l 1
ollama run qwen3:4b "Haz una prueba larga de rendimiento"
Cuidado. Algunos portátiles solo activan la GPU dedicada con el cargador conectado o en modo alto rendimiento. Si pruebas con batería, puedes diagnosticar mal.

Checklist AMD Radeon

Ollama para Windows incluye soporte AMD Radeon, pero la compatibilidad práctica depende mucho de GPU, driver y backend disponible.

  • Actualiza AMD Adrenalin y reinicia.
  • Prueba primero Ollama nativo en Windows, no Docker.
  • Si tu iGPU o APU no acelera bien, prueba LM Studio con Vulkan para ese equipo.
  • En Linux, revisa la versión de ROCm y drivers; si son antiguos, Ollama puede caer a CPU.
Cuidado. AMD en Windows puede ser más irregular que NVIDIA para LLMs locales. Si tu objetivo es aprender o trabajar ya, no te cases con una herramienta: compara Ollama, LM Studio y llama.cpp en tu máquina.

Vulkan como plan B para AMD, iGPU y equipos raros

Si tu GPU no entra por CUDA o ROCm, Vulkan puede ser una vía útil en algunos equipos. No lo trates como garantía universal: pruébalo y mide.

Terminal
# PowerShell: variables persistentes para tu usuario
setx OLLAMA_VULKAN 1
setx OLLAMA_IGPU_ENABLE 1

# Cierra Ollama completamente, abre una terminal nueva y prueba:
ollama run qwen3:4b "Prueba de Vulkan en Ollama"
Cuidado. setx no afecta a la terminal ya abierta. Cierra y abre PowerShell, y reinicia Ollama desde la bandeja del sistema.

Windows Defender puede ralentizar modelos

Los modelos son archivos enormes. En algunas máquinas, Defender puede escanear cada descarga o lectura y dar la sensación de que Ollama está roto.

Terminal
# Ruta habitual de modelos:
%USERPROFILE%\.ollama

# PowerShell:
explorer "$env:USERPROFILE\.ollama"

Añade esa carpeta a exclusiones de Windows Security solo si entiendes el riesgo y descargas modelos de fuentes confiables. No excluyas carpetas genéricas como Descargas o todo tu usuario.

WSL2 o Windows nativo

Para la mayoría, Windows nativo es más simple. WSL2 tiene sentido si ya trabajas en Linux, Docker o desarrollo backend.

Terminal
wsl --status
wsl --shutdown

# Dentro de Ubuntu/WSL, si tienes NVIDIA:
nvidia-smi

Docker en Windows

Si corres Ollama en Docker, necesitas pasar la GPU al contenedor. Antes de culpar a Ollama, comprueba que Docker ve la GPU.

Terminal
docker run --rm --gpus all nvidia/cuda:12.6.0-base-ubuntu22.04 nvidia-smi
Cuidado. No mezcles tres entornos a la vez. Prueba primero Windows nativo. Luego WSL2. Luego Docker. Si cambias todo al mismo tiempo, no sabrás qué arregló o rompió el rendimiento.

Si sigue usando CPU

  • Reinicia Ollama desde el icono de la bandeja o reinicia Windows.
  • Actualiza Ollama a la última versión.
  • Prueba un modelo menor o una cuantización más ligera.
  • Comprueba VRAM libre antes de lanzar el modelo.
  • En portátil híbrido, conecta el cargador y activa modo alto rendimiento.
  • Compara con LM Studio si tienes iGPU o AMD y necesitas offload Vulkan fácil.
Guardar y reabrir el proyecto.
Guarda siempre cuatro datos cuando pidas ayuda: GPU exacta, driver, modelo usado y salida de ollama ps mientras responde. Sin eso, cualquier diagnóstico es adivinar.