🧠 IA local: elige el modelo para tu máquina
Vas a poner un “cerebro” de IA a funcionar en tu propio ordenador y a elegir el adecuado según tu equipo. Este capítulo es la base de casi todos los proyectos del libro.
🎯 Objetivos de aprendizaje
- Qué programas usar para ejecutar modelos en local (Ollama y LM Studio).
- Qué es la cuantización y por qué te deja usar modelos grandes en equipos modestos.
- Qué modelo elegir según tu portátil, tu GPU o tu Mac.
Dos programas para ejecutar IA en local
- Ollama — gratuito, se maneja con comandos sencillos. Ideal para conectar modelos a tus aplicaciones. Es el que usamos por defecto. ollama.com
- LM Studio — aplicación con ventana gráfica para descargar y chatear con modelos sin tocar la terminal. Perfecto para probar y comparar. lmstudio.ai
🧠 En cristiano: ¿cuál elijo?. Usa LM Studio para trastear y ver qué modelo te gusta (todo con el ratón). Usa Ollama cuando quieras que tus aplicaciones hablen con el modelo automáticamente. En la práctica muchos tienen los dos.
Cuantización: modelos grandes en equipos pequeños
Un modelo “en crudo” puede ocupar muchísima memoria. La cuantización lo comprime para que quepa en tu equipo perdiendo muy poca calidad.
🧠 En cristiano: cuantización (los Q4, Q8...). Es como pasar una foto RAW enorme a un JPG: ocupa mucho menos y a simple vista se ve casi igual.
Q4 comprime bastante (rápido, poca memoria); Q8 comprime menos (más fiel, más pesado). Para empezar, Q4 es una gran relación calidad/tamaño.Qué modelo elegir (edición 2026)
Los modelos evolucionan rápido; estas familias son las recomendables a fecha de 2026. Elige por la memoria de tu equipo:
| Tu equipo | Modelos recomendados (empieza por el primero) |
|---|---|
| Portátil 8 GB RAM | Qwen3.5 (2B–4B), Gemma 4 pequeño, Llama 3.2 (1B–3B), Phi-4-mini |
| Portátil 16 GB RAM | Qwen3.5 4B, Gemma 4 mediano, Ministral 3 (8B), Phi-4-mini |
| GPU RTX 8–12 GB | Qwen3.5 9B, Gemma 4 (Q4), Llama 3.1 8B, phi-4 (14B, Q4) |
| GPU RTX 16–24 GB | Qwen3.6 (27B / 35B MoE), Phi-4-reasoning, Gemma 4 grande |
💡 Idea clave. Regla sencilla: empieza pequeño. Un modelo de 4B que responde al instante es más útil para aprender que uno enorme que va a trompicones. Cuando domines el flujo, sube de tamaño y compara.
🧠 En cristiano: ¿y un PC sin GPU potente, o un Mac?. Los Mac con chip M (Apple Silicon) ejecutan modelos sorprendentemente bien gracias a su memoria unificada; Ollama los aprovecha automáticamente. En un PC con tarjeta NVIDIA RTX, el modelo corre en la GPU y vuela. Y equipos nuevos tipo NVIDIA DGX Spark están pensados justo para esto. Sin GPU, funciona igual pero más despacio: usa modelos pequeños.
Pruébalo ahora
Descarga un modelo y háblale, sin escribir código:
⌨️ Terminal
ollama pull qwen3:4b ollama run qwen3:4b "Explícame qué es la energía solar en dos frases"
✅ Comprueba que funciona. Si te responde en tu terminal con un par de frases coherentes, ya tienes inteligencia artificial corriendo en tu ordenador, gratis y sin conexión. Escribe
/bye para salir del chat.💾 Guardar y reabrir el proyecto.
Los modelos que descargas con
ollama pull se guardan una sola vez en tu ordenador y quedan disponibles para todos tus proyectos. Para ver los que tienes: ollama list. Para liberar espacio y borrar uno: ollama rm nombre-del-modelo.Reto para practicar
Descarga dos modelos de distinto tamaño (por ejemplo qwen3:4b y un Gemma). Hazles la misma pregunta con ollama run y compara la calidad y la velocidad. Así aprendes a elegir el equilibrio que te conviene.