LiteLLM como gateway y control de costes

Cuando una app puede llamar a varios modelos, necesitas una puerta común: claves, límites, presupuestos, fallbacks, caché y trazas. Ese es el papel de un gateway LLM.

Objetivos de aprendizaje
  • Entender LiteLLM como proxy entre tu app y varios modelos.
  • Diseñar claves por usuario, equipo o entorno.
  • Controlar coste, fallbacks y caché antes de que haya sustos.
En cristiano: gateway LLM. Es una capa intermedia. Tu app habla con el gateway y el gateway decide a qué modelo llamar, con qué clave, presupuesto, límites y trazas.

Configuración conceptual

Terminal
model_list:
  - model_name: local-qwen
    litellm_params:
      model: openai/Qwen/Qwen3-8B
      api_base: http://127.0.0.1:8000/v1
      api_key: local

  - model_name: backup-cloud
    litellm_params:
      model: openai/gpt-4.1-mini
      api_key: os.environ/OPENAI_API_KEY
Idea clave. LiteLLM documenta proxy self-hosted con claves virtuales, presupuestos, rate limits, spend tracking, caché y fallbacks. Eso lo convierte en una pieza útil incluso cuando el modelo principal es local.

Qué medir por clave

  • Tokens de entrada y salida.
  • Coste estimado o coste real.
  • Modelo usado y fallback aplicado.
  • Latencia y errores.
  • Usuario, equipo o tenant.
Cuidado. Un gateway mal configurado puede abrir más puertas de las que cierra. Empieza con pocos modelos, pocas claves y logs claros.
Comprueba que funciona. Crea una clave de desarrollo y otra de producción. La de desarrollo debe tener presupuesto bajo y acceso limitado.
Guardar y reabrir el proyecto.
El gateway es la caja de fusibles: cuando algo consume demasiado, falla o se desvía, quieres enterarte ahí.