LiteLLM como gateway y control de costes

Cuando una app puede llamar a varios modelos, necesitas una puerta común: claves, límites, presupuestos, fallbacks, caché y trazas. Ese es el papel de un gateway LLM.

Objetivos de aprendizaje

Entender LiteLLM como proxy entre tu app y varios modelos.
Diseñar claves por usuario, equipo o entorno.
Controlar coste, fallbacks y caché antes de que haya sustos.

En cristiano: gateway LLM. Es una capa intermedia. Tu app habla con el gateway y el gateway decide a qué modelo llamar, con qué clave, presupuesto, límites y trazas.

Configuración conceptual

Terminal

model_list:
  - model_name: local-qwen
    litellm_params:
      model: openai/Qwen/Qwen3-8B
      api_base: http://127.0.0.1:8000/v1
      api_key: local

  - model_name: backup-cloud
    litellm_params:
      model: openai/gpt-4.1-mini
      api_key: os.environ/OPENAI_API_KEY

Idea clave. LiteLLM documenta proxy self-hosted con claves virtuales, presupuestos, rate limits, spend tracking, caché y fallbacks. Eso lo convierte en una pieza útil incluso cuando el modelo principal es local.

Qué medir por clave

Tokens de entrada y salida.
Coste estimado o coste real.
Modelo usado y fallback aplicado.
Latencia y errores.
Usuario, equipo o tenant.

Cuidado. Un gateway mal configurado puede abrir más puertas de las que cierra. Empieza con pocos modelos, pocas claves y logs claros.

Comprueba que funciona. Crea una clave de desarrollo y otra de producción. La de desarrollo debe tener presupuesto bajo y acceso limitado.

Guardar y reabrir el proyecto.

El gateway es la caja de fusibles: cuando algo consume demasiado, falla o se desvía, quieres enterarte ahí.

← vLLM OpenAI-compatible Observabilidad →