🎙️ Un chatbot que te escucha y te habla
Un asistente al que le hablas por el micrófono y te responde en voz alta. Todo con IA local: reconocimiento de voz, cerebro y voz sintética, sin enviar tu audio a ningún servidor. Ideal para accesibilidad, atención al cliente o manos libres.
- Qué son STT (voz a texto) y TTS (texto a voz).
- Qué herramientas open source usar en 2026 y por qué.
- Montar un asistente de voz completo en local.
Conceptos clave
Un asistente de voz encadena tres piezas:
- STT (Speech To Text): convierte tu voz en texto.
- El modelo de lenguaje (Ollama) piensa la respuesta.
- TTS (Text To Speech): convierte la respuesta en voz.
Como son tres piezas en cadena, el tiempo total de respuesta es la suma de las tres: lo que tarda en entenderte, en pensar y en hablar. Por eso, para que la conversación sea fluida, conviene que cada pieza sea rápida.
Qué herramientas usar (edición 2026)
El panorama cambió respecto a años anteriores. Recomendaciones actuales:
| Pieza | Opciones recomendadas 2026 |
|---|---|
| STT (oído) | Moonshine (rápido, tiempo real, ideal en portátil); Nemotron 3.5 ASR (muchos idiomas, con GPU); faster-whisper para transcripción de archivos. |
| TTS (boca) | Kokoro y piper1-gpl (ligeros, rápidos); MagpieTTS (multi-idioma con GPU); F5-TTS si quieres clonar una voz. |
qwen3:4b) y un micrófono. Las herramientas de voz las instalará Claude Code; en algún caso hará falta Python, que también te ayudará a instalar.Paso a paso
cd ~/proyectos-ia mkdir asistente-voz cd asistente-voz claude
Un ejemplo, paso a paso, de lo que ocurre
Imagina que dices “¿qué tiempo hará mañana?”. Por dentro sucede esto, en menos de un par de segundos:
- El oído (Moonshine) escucha y escribe:
¿qué tiempo hará mañana? - Ese texto va al cerebro (Ollama), que redacta una respuesta.
- El texto de la respuesta va a la boca (Kokoro), que genera el audio.
- El navegador reproduce ese audio: oyes la contestación.
Entender esta secuencia te ayuda a depurar: si no te entiende, el problema está en el oído; si responde raro, en el cerebro; si no suena, en la boca.
Ejecutar en tu ordenador
npm install npm run dev
Abre la dirección local, pulsa el botón del micrófono y di algo.
asistente-voz. Cerrar: Ctrl + C. Reabrir: cd ~/proyectos-ia/asistente-voz y npm run dev. Si añadiste piezas de Python, no hace falta reinstalarlas cada vez.Si algo falla
- No capta el micrófono — revisa el permiso del navegador y que el micro correcto esté seleccionado.
- La voz suena robótica o en otro idioma — pide a Claude Code otra voz/idioma de Kokoro o prueba MagpieTTS.
- Tarda mucho — usa un modelo de lenguaje más pequeño; la voz en sí es rápida.
Reto para practicar
Une este capítulo con el anterior: haz que puedas preguntarle por voz a tus PDF y te conteste hablando. Es combinar dos proyectos que ya entiendes.