vLLM con API compatible OpenAI

vLLM está pensado para servir modelos de forma eficiente en GPU. Su gran ventaja práctica: expone una API compatible con OpenAI, así muchas apps pueden cambiar de backend con pocos cambios.

Objetivos de aprendizaje

Levantar un servidor vLLM para pruebas locales o de laboratorio.
Conectar una app usando el cliente OpenAI apuntando a tu endpoint.
Medir latencia, tokens por segundo y errores básicos.

En cristiano: API compatible OpenAI. Tu servidor acepta rutas y formato parecidos a OpenAI. La app no necesita saber si detrás hay OpenAI, vLLM, llama.cpp o un gateway.

Servidor mínimo

Terminal

python -m venv .venv
source .venv/bin/activate
pip install -U vllm

vllm serve Qwen/Qwen3-8B \
  --host 127.0.0.1 \
  --port 8000

Idea clave. La documentación oficial de vLLM indica que puede servir modelos con protocolo compatible OpenAI y que por defecto suele escuchar en localhost:8000.

Cliente OpenAI contra vLLM

Terminal

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "local",
  baseURL: "http://127.0.0.1:8000/v1",
});

const response = await client.chat.completions.create({
  model: "Qwen/Qwen3-8B",
  messages: [{ role: "user", content: "Dame una checklist de despliegue LLM." }],
});

console.log(response.choices[0].message.content);

Cuidado. vLLM no convierte automáticamente una demo en producción. Aún necesitas autenticación, límites, logs, colas, monitorización y gestión de fallos.

Comprueba que funciona. Haz 20 peticiones seguidas y mide latencia media, p95 y errores. Si no tienes esos números, no sabes si tu servicio aguanta.

Guardar y reabrir el proyecto.

vLLM es el motor; tu producto necesita también gateway, observabilidad, evals y límites.

← llama.cpp server LiteLLM gateway →