LiteLLM como gateway y control de costes
Cuando una app puede llamar a varios modelos, necesitas una puerta común: claves, límites, presupuestos, fallbacks, caché y trazas. Ese es el papel de un gateway LLM.
Objetivos de aprendizaje
- Entender LiteLLM como proxy entre tu app y varios modelos.
- Diseñar claves por usuario, equipo o entorno.
- Controlar coste, fallbacks y caché antes de que haya sustos.
En cristiano: gateway LLM. Es una capa intermedia. Tu app habla con el gateway y el gateway decide a qué modelo llamar, con qué clave, presupuesto, límites y trazas.
Configuración conceptual
Terminal
model_list:
- model_name: local-qwen
litellm_params:
model: openai/Qwen/Qwen3-8B
api_base: http://127.0.0.1:8000/v1
api_key: local
- model_name: backup-cloud
litellm_params:
model: openai/gpt-4.1-mini
api_key: os.environ/OPENAI_API_KEY Idea clave. LiteLLM documenta proxy self-hosted con claves virtuales, presupuestos, rate limits, spend tracking, caché y fallbacks. Eso lo convierte en una pieza útil incluso cuando el modelo principal es local.
Qué medir por clave
- Tokens de entrada y salida.
- Coste estimado o coste real.
- Modelo usado y fallback aplicado.
- Latencia y errores.
- Usuario, equipo o tenant.
Cuidado. Un gateway mal configurado puede abrir más puertas de las que cierra. Empieza con pocos modelos, pocas claves y logs claros.
Comprueba que funciona. Crea una clave de desarrollo y otra de producción. La de desarrollo debe tener presupuesto bajo y acceso limitado.
Guardar y reabrir el proyecto.
El gateway es la caja de fusibles: cuando algo consume demasiado, falla o se desvía, quieres enterarte ahí.