🧠 IA local: elige el modelo para tu máquina

Vas a poner un “cerebro” de IA a funcionar en tu propio ordenador y a elegir el adecuado según tu equipo. Este capítulo es la base de casi todos los proyectos del libro.

🎯 Objetivos de aprendizaje
  • Qué programas usar para ejecutar modelos en local (Ollama y LM Studio).
  • Qué es la cuantización y por qué te deja usar modelos grandes en equipos modestos.
  • Qué modelo elegir según tu portátil, tu GPU o tu Mac.

Dos programas para ejecutar IA en local

  • Ollama — gratuito, se maneja con comandos sencillos. Ideal para conectar modelos a tus aplicaciones. Es el que usamos por defecto. ollama.com
  • LM Studio — aplicación con ventana gráfica para descargar y chatear con modelos sin tocar la terminal. Perfecto para probar y comparar. lmstudio.ai
🧠 En cristiano: ¿cuál elijo?. Usa LM Studio para trastear y ver qué modelo te gusta (todo con el ratón). Usa Ollama cuando quieras que tus aplicaciones hablen con el modelo automáticamente. En la práctica muchos tienen los dos.

Cuantización: modelos grandes en equipos pequeños

Un modelo “en crudo” puede ocupar muchísima memoria. La cuantización lo comprime para que quepa en tu equipo perdiendo muy poca calidad.

🧠 En cristiano: cuantización (los Q4, Q8...). Es como pasar una foto RAW enorme a un JPG: ocupa mucho menos y a simple vista se ve casi igual. Q4 comprime bastante (rápido, poca memoria); Q8 comprime menos (más fiel, más pesado). Para empezar, Q4 es una gran relación calidad/tamaño.

Qué modelo elegir (edición 2026)

Los modelos evolucionan rápido; estas familias son las recomendables a fecha de 2026. Elige por la memoria de tu equipo:

Tu equipoModelos recomendados (empieza por el primero)
Portátil 8 GB RAMQwen3.5 (2B–4B), Gemma 4 pequeño, Llama 3.2 (1B–3B), Phi-4-mini
Portátil 16 GB RAMQwen3.5 4B, Gemma 4 mediano, Ministral 3 (8B), Phi-4-mini
GPU RTX 8–12 GBQwen3.5 9B, Gemma 4 (Q4), Llama 3.1 8B, phi-4 (14B, Q4)
GPU RTX 16–24 GBQwen3.6 (27B / 35B MoE), Phi-4-reasoning, Gemma 4 grande
💡 Idea clave. Regla sencilla: empieza pequeño. Un modelo de 4B que responde al instante es más útil para aprender que uno enorme que va a trompicones. Cuando domines el flujo, sube de tamaño y compara.
🧠 En cristiano: ¿y un PC sin GPU potente, o un Mac?. Los Mac con chip M (Apple Silicon) ejecutan modelos sorprendentemente bien gracias a su memoria unificada; Ollama los aprovecha automáticamente. En un PC con tarjeta NVIDIA RTX, el modelo corre en la GPU y vuela. Y equipos nuevos tipo NVIDIA DGX Spark están pensados justo para esto. Sin GPU, funciona igual pero más despacio: usa modelos pequeños.

Pruébalo ahora

Descarga un modelo y háblale, sin escribir código:

⌨️ Terminal
ollama pull qwen3:4b
ollama run qwen3:4b "Explícame qué es la energía solar en dos frases"
✅ Comprueba que funciona. Si te responde en tu terminal con un par de frases coherentes, ya tienes inteligencia artificial corriendo en tu ordenador, gratis y sin conexión. Escribe /bye para salir del chat.
💾 Guardar y reabrir el proyecto.
Los modelos que descargas con ollama pull se guardan una sola vez en tu ordenador y quedan disponibles para todos tus proyectos. Para ver los que tienes: ollama list. Para liberar espacio y borrar uno: ollama rm nombre-del-modelo.

Reto para practicar

Descarga dos modelos de distinto tamaño (por ejemplo qwen3:4b y un Gemma). Hazles la misma pregunta con ollama run y compara la calidad y la velocidad. Así aprendes a elegir el equilibrio que te conviene.