llama.cpp server en local
llama.cpp server es una forma directa de servir modelos GGUF en local. Es ligero, controlable y perfecto para aprender qué significa tener un modelo detrás de una API propia.
Objetivos de aprendizaje
- Compilar o instalar llama.cpp y levantar un servidor local.
- Probar una petición HTTP sin depender de una interfaz gráfica.
- Registrar modelo, puerto, contexto y parámetros usados.
En cristiano: GGUF. Es un formato habitual para modelos cuantizados usados por llama.cpp. Permite ejecutar modelos en equipos modestos, ajustando memoria y velocidad.
Servidor mínimo
Terminal
git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp cmake -B build cmake --build build --config Release ./build/bin/llama-server \ -m models/modelo.gguf \ --host 127.0.0.1 \ --port 8080 \ -c 4096
Idea clave. La documentación oficial describe llama-server como un servidor HTTP ligero con APIs REST y una web UI. Úsalo como backend local, no como frontera pública de seguridad.
Prueba con curl
Terminal
curl http://127.0.0.1:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "local-gguf",
"messages": [
{"role": "user", "content": "Explica qué es una cola en MLOps IA en 3 frases"}
],
"temperature": 0.2
}' Cuidado. Cambiar contexto, cuantización o GPU layers cambia mucho el comportamiento. Guarda esos parámetros junto con cada prueba.
Manifest del servicio
Terminal
servicio: llama-server-local modelo: models/modelo.gguf hash_modelo: sha256:... host: 127.0.0.1 puerto: 8080 contexto: 4096 cuantizacion: Q4_K_M uso: desarrollo local fecha: 2026-07-03
Comprueba que funciona. Reinicia el servidor y repite la misma llamada. Si no puedes reconstruir la configuración desde el manifest, aún no es reproducible.
Guardar y reabrir el proyecto.
llama.cpp server es ideal para aprender serving local: pequeño, explícito y fácil de poner detrás de una API propia.