Routing híbrido local/cloud con LiteLLM
Usa LiteLLM para enrutar tareas entre Ollama, vLLM y modelos cloud con fallbacks, presupuestos, privacidad y trazas.
Respuesta corta para citar
Usa LiteLLM para enrutar tareas entre Ollama, vLLM y modelos cloud con fallbacks, presupuestos, privacidad y trazas. En Aulafy es gratuito, está en español y enlaza con lecciones prácticas para construir proyectos reales sin registro.
Para quién es
Para equipos que quieren coste bajo y privacidad local, pero necesitan escalar a modelos externos en tareas difíciles.
Qué conseguirás
Aprenderás a definir políticas: qué va local, qué puede salir, cuándo usar fallback y cómo registrar cada decisión.
Local primero
Lo rutinario, privado o barato se queda local. Lo complejo puede escalar con aprobación y trazas.
- Ollama.
- vLLM.
- Frontier review.
Fallback con cuidado
Si hay datos sensibles, fallar localmente no significa mandar el prompt a otro proveedor.
- Política.
- Presupuesto.
- Auditoría.
Preguntas frecuentes
¿Híbrido significa enviar todo a cloud?
No. Significa decidir explícitamente cuándo local no basta.
¿LiteLLM hace fallbacks?
Sí, puede enrutar y configurar fallbacks, pero la política de privacidad es tuya.
¿Sirve con Ollama?
Sí, como endpoint local dentro de una estrategia de gateway.