vLLM con API compatible OpenAI
vLLM está pensado para servir modelos de forma eficiente en GPU. Su gran ventaja práctica: expone una API compatible con OpenAI, así muchas apps pueden cambiar de backend con pocos cambios.
Objetivos de aprendizaje
- Levantar un servidor vLLM para pruebas locales o de laboratorio.
- Conectar una app usando el cliente OpenAI apuntando a tu endpoint.
- Medir latencia, tokens por segundo y errores básicos.
En cristiano: API compatible OpenAI. Tu servidor acepta rutas y formato parecidos a OpenAI. La app no necesita saber si detrás hay OpenAI, vLLM, llama.cpp o un gateway.
Servidor mínimo
Terminal
python -m venv .venv source .venv/bin/activate pip install -U vllm vllm serve Qwen/Qwen3-8B \ --host 127.0.0.1 \ --port 8000
Idea clave. La documentación oficial de vLLM indica que puede servir modelos con protocolo compatible OpenAI y que por defecto suele escuchar en localhost:8000.
Cliente OpenAI contra vLLM
Terminal
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "local",
baseURL: "http://127.0.0.1:8000/v1",
});
const response = await client.chat.completions.create({
model: "Qwen/Qwen3-8B",
messages: [{ role: "user", content: "Dame una checklist de despliegue LLM." }],
});
console.log(response.choices[0].message.content); Cuidado. vLLM no convierte automáticamente una demo en producción. Aún necesitas autenticación, límites, logs, colas, monitorización y gestión de fallos.
Comprueba que funciona. Haz 20 peticiones seguidas y mide latencia media, p95 y errores. Si no tienes esos números, no sabes si tu servicio aguanta.
Guardar y reabrir el proyecto.
vLLM es el motor; tu producto necesita también gateway, observabilidad, evals y límites.