Cursos/MLOps local/Routing híbrido

Routing híbrido local/cloud con LiteLLM

El objetivo no es usar local para todo. El objetivo es usar local para lo rutinario, privado o barato, y escalar a un modelo externo solo cuando el caso lo justifique y quede registrado.

Objetivos de aprendizaje
  • Diseñar grupos de modelos por tarea, coste y sensibilidad.
  • Usar fallbacks sin ocultar errores importantes.
  • Registrar cuándo una tarea salió de local a cloud.
En cristiano: routing híbrido. Es una capa que decide qué modelo usar: local para tareas normales, vLLM para concurrencia, y cloud para tareas complejas o revisión final.
Terminal
model_list:
  - model_name: local-fast
    litellm_params:
      model: ollama/qwen2.5:7b
      api_base: http://localhost:11434

  - model_name: local-gpu
    litellm_params:
      model: openai/Qwen/Qwen2.5-14B-Instruct
      api_base: http://localhost:8000/v1
      api_key: none

  - model_name: frontier-review
    litellm_params:
      model: openai/gpt-4.1-mini
      api_key: os.environ/OPENAI_API_KEY
Idea clave. La política importa más que el YAML: qué datos pueden salir, quién aprueba, cuánto puede gastar y qué logs se guardan.

Política práctica

  • Local-fast: borradores, clasificación, resumen de documentos no sensibles.
  • Local-gpu: tareas largas, RAG interno y agentes con más contexto.
  • Frontier-review: revisión final, razonamiento difícil o fallo repetido local.
Terminal
routing_rules:
  sensitive_data: local_only
  max_local_retries: 2
  allow_cloud_fallback:
    - public_code_review
    - generic_planning
    - final_quality_check
  require_human_approval:
    - customer_data
    - legal_docs
    - financial_docs
Cuidado. Un fallback automático puede convertirse en fuga de datos. Si local falla sobre datos sensibles, la acción correcta puede ser parar, no mandar el prompt a otro proveedor.
Comprueba que funciona. Crea una traza por petición: modelo elegido, motivo, coste estimado, si hubo fallback y si había datos sensibles. Sin esa traza, no hay control real.
Guardar y reabrir el proyecto.
Híbrido no significa “todo conectado”. Significa tener una política explícita para decidir cuándo local basta y cuándo merece la pena escalar.