llama.cpp server en local

llama.cpp server es una forma directa de servir modelos GGUF en local. Es ligero, controlable y perfecto para aprender qué significa tener un modelo detrás de una API propia.

Objetivos de aprendizaje

Compilar o instalar llama.cpp y levantar un servidor local.
Probar una petición HTTP sin depender de una interfaz gráfica.
Registrar modelo, puerto, contexto y parámetros usados.

En cristiano: GGUF. Es un formato habitual para modelos cuantizados usados por llama.cpp. Permite ejecutar modelos en equipos modestos, ajustando memoria y velocidad.

Servidor mínimo

Terminal

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build --config Release

./build/bin/llama-server \
  -m models/modelo.gguf \
  --host 127.0.0.1 \
  --port 8080 \
  -c 4096

Idea clave. La documentación oficial describe llama-server como un servidor HTTP ligero con APIs REST y una web UI. Úsalo como backend local, no como frontera pública de seguridad.

Prueba con curl

Terminal

curl http://127.0.0.1:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "local-gguf",
    "messages": [
      {"role": "user", "content": "Explica qué es una cola en MLOps IA en 3 frases"}
    ],
    "temperature": 0.2
  }'

Cuidado. Cambiar contexto, cuantización o GPU layers cambia mucho el comportamiento. Guarda esos parámetros junto con cada prueba.

Manifest del servicio

Terminal

servicio: llama-server-local
modelo: models/modelo.gguf
hash_modelo: sha256:...
host: 127.0.0.1
puerto: 8080
contexto: 4096
cuantizacion: Q4_K_M
uso: desarrollo local
fecha: 2026-07-03

Comprueba que funciona. Reinicia el servidor y repite la misma llamada. Si no puedes reconstruir la configuración desde el manifest, aún no es reproducible.

Guardar y reabrir el proyecto.

llama.cpp server es ideal para aprender serving local: pequeño, explícito y fácil de poner detrás de una API propia.

← Mapa de serving vLLM OpenAI-compatible →