Cursos/Claude Code + IA Local/Conecta Claude Code con tu IA local

Conecta Claude Code con tu IA local

Es una de las preguntas más repetidas de la comunidad: “tengo Ollama y tengo Claude Code… ¿cómo los junto?”. En esta lección ves las tres formas de combinarlos, cuándo usar cada una y cómo montar la conexión paso a paso.

Objetivos de aprendizaje

Las tres arquitecturas: app→local, Claude Code→local y el híbrido.
Montar una pasarela para que Claude Code hable con Ollama o LM Studio.
Elegir con criterio: qué tarea va al modelo local y cuál a la nube.

Las tres formas de juntarlos

Tus apps usan la IA local — Claude Code construye la aplicación y la aplicación habla con Ollama. Es lo que has hecho en todo este curso (chatbot legal, PDF, voz…). La más útil en la práctica.
Claude Code usa un modelo local como cerebro — en vez de los modelos de Anthropic, Claude Code envía sus peticiones a tu Ollama/LM Studio a través de una pasarela. Máxima privacidad, pero con límites importantes (ahora los vemos).
Híbrido — cada tarea a su modelo: la nube para construir y razonar, lo local para lo repetitivo, lo privado y lo gratuito. Es lo que recomiendo y lo que usa la mayoría de gente con experiencia.

En cristiano: pasarela (proxy). Claude Code habla “idioma Anthropic” y Ollama/LM Studio hablan “idioma OpenAI”. Una pasarela es un pequeño programa traductor que se pone en medio: recibe las peticiones de Claude Code y se las pasa a tu modelo local en su idioma. La más usada es LiteLLM (open source).

Cuidado. Expectativas honestas: un modelo local de 4–14B no rinde como Claude para trabajo de agente (editar muchos archivos, usar herramientas, razonar largo). Funciona para chat, resúmenes o código sencillo. Si pones un modelo local de cerebro de Claude Code, notarás la diferencia: úsalo para tareas ligeras o cuando la privacidad mande, no para todo.

Requisitos

Claude Code, Ollama con un modelo descargado (por ejemplo qwen3:4b) y Python (para instalar la pasarela LiteLLM). Con LM Studio el proceso es el mismo: su servidor local también habla “idioma OpenAI”.

Vía 1 (repaso): tu app habla con Ollama

Ya la dominas: Ollama expone un servidor local en http://localhost:11434 y tus aplicaciones le piden respuestas. Es la arquitectura de todos los proyectos de este curso. Si vienes directo a esta lección, empieza por el capítulo de IA local.

Vía 2: Claude Code con cerebro local (pasarela)

Paso 1: instala y configura LiteLLM

Terminal

pip install 'litellm[proxy]'

Crea un archivo config.yaml en una carpeta nueva (por ejemplo ~/proyectos-ia/pasarela):

Terminal

model_list:
  - model_name: local
    litellm_params:
      model: ollama/qwen3:4b
      api_base: http://localhost:11434

Paso 2: arranca la pasarela

Terminal

litellm --config config.yaml
# queda escuchando en http://localhost:4000

Paso 3: apunta Claude Code a tu pasarela

En otra terminal, arranca Claude Code con estas variables de entorno:

Terminal

export ANTHROPIC_BASE_URL=http://localhost:4000
export ANTHROPIC_AUTH_TOKEN=local
export ANTHROPIC_MODEL=local
claude

En cristiano: variables de entorno. Son “notas” que le dejas a un programa antes de arrancarlo. Aquí le dicen a Claude Code: “no llames a Anthropic; llama a esta dirección de mi ordenador”. Solo valen para esa terminal: al cerrarla, todo vuelve a la normalidad. Para volver a la nube, abre una terminal nueva y ejecuta claude como siempre.

Comprueba que funciona. Con la pasarela en marcha, pregunta algo sencillo en Claude Code (“¿de qué color es el cielo?”). Si responde, la cadena Claude Code → LiteLLM → Ollama funciona. Verás la petición aparecer en la terminal de LiteLLM: esa es la prueba de que todo pasa por tu máquina.

Cuidado. Si Claude Code se queja o responde raro con herramientas (leer archivos, ejecutar comandos), es la limitación esperada del modelo pequeño, no un fallo de tu montaje. Prueba un modelo mayor si tu equipo puede, o usa esta vía solo para chat y consultas.

Vía 3: el híbrido (recomendado)

La configuración ganadora en 2026 no es “todo local” ni “todo nube”, sino repartir:

Claude Code (nube) → construir apps, refactorizar, depurar, tareas de agente.
Ollama/LM Studio (local) → el cerebro de tus aplicaciones, chat privado con documentos, resúmenes masivos, todo lo repetitivo que no quieres pagar.

Así cada euro de tu suscripción va a lo que de verdad lo necesita, y tus datos sensibles nunca salen de casa. Además alivia otro dolor típico: quemar los límites del plan — de eso hablamos en la lección de contexto y costes del curso de Claude Code.

Idea clave. Regla mental rápida: si la tarea necesita criterio (decidir, diseñar, tocar muchos archivos), nube. Si necesita volumen (mucho texto, muchas veces, datos privados), local.

Guardar y reabrir el proyecto.

Tu pasarela es la carpeta ~/proyectos-ia/pasarela (el config.yaml). Para cerrarla: Ctrl + C en su terminal. Para reabrirla otro día: cd ~/proyectos-ia/pasarela y litellm --config config.yaml. Recuerda que las variables de entorno hay que ponerlas en cada terminal nueva (o pídele a Claude Code que te cree un alias para no repetirlas).

Si algo falla

“connection refused” en el puerto 4000 — la pasarela no está arrancada, o la arrancaste en otra carpeta sin el config.
La pasarela no encuentra el modelo — comprueba ollama list: el nombre en config.yaml debe coincidir exactamente (ollama/qwen3:4b).
Respuestas lentas — normal: tu máquina hace todo el trabajo. Modelo más pequeño o vía híbrida.

Reto para practicar

Monta la pasarela y haz la misma pregunta a Claude Code en modo local y en modo nube. Compara calidad y velocidad. Ese contraste te dará el criterio exacto de qué tareas merecen cada cerebro.

← IA local: elige tu modelo Depurar y proteger →