Voz local: Whisper y Piper

La voz es una de las formas más útiles de IA generativa para educación: transcribir clases, crear subtítulos, narrar cápsulas y hacer materiales accesibles sin depender siempre de la nube.

Objetivos de aprendizaje

Transcribir audio a texto y subtítulos con Whisper.
Generar una narración local con Piper.
Preparar archivos limpios para vídeo, web o podcast.

En cristiano: STT y TTS. STT convierte voz en texto. TTS convierte texto en voz. Un flujo educativo completo suele usar ambos: primero transcribes o escribes guion; luego generas audio revisable.

Transcribir con Whisper

Terminal

python -m venv .venv
source .venv/bin/activate
pip install -U openai-whisper

whisper clase.mp3 \
  --model medium \
  --language Spanish \
  --output_format srt \
  --output_dir subtitulos/

Idea clave. Whisper publica código y pesos bajo MIT. Aun así, no subas audios con datos personales a repositorios ni a herramientas externas sin base legal y permiso.

Narrar con Piper

Terminal

pip install -U piper-tts

cat guion.txt | piper \
  --model voces/es_ES-modelo.onnx \
  --output_file narracion.wav

Cuidado. La licencia del motor no siempre es la licencia de cada voz. Guarda la ficha del modelo de voz y evita imitar personas reales sin consentimiento.

Guion preparado para TTS

Terminal

Título: Qué es RAG
Duración objetivo: 90 segundos
Tono: claro, docente, sin bromas internas

Texto:
RAG significa generación aumentada por recuperación.
En lugar de pedir al modelo que recuerde, primero buscamos documentos relevantes.
Después el modelo responde usando solo esas fuentes.

Comprueba que funciona. Escucha el audio con auriculares y altavoces. Corrige palabras raras escribiéndolas de forma fonética o cambiando la puntuación.

Guardar y reabrir el proyecto.

Voz educativa buena significa guion limpio, pausas naturales, subtítulos y permiso claro para cada voz usada.

← Control y LoRA Vídeo local →