Voz local: Whisper y Piper
La voz es una de las formas más útiles de IA generativa para educación: transcribir clases, crear subtítulos, narrar cápsulas y hacer materiales accesibles sin depender siempre de la nube.
Objetivos de aprendizaje
- Transcribir audio a texto y subtítulos con Whisper.
- Generar una narración local con Piper.
- Preparar archivos limpios para vídeo, web o podcast.
En cristiano: STT y TTS. STT convierte voz en texto. TTS convierte texto en voz. Un flujo educativo completo suele usar ambos: primero transcribes o escribes guion; luego generas audio revisable.
Transcribir con Whisper
Terminal
python -m venv .venv source .venv/bin/activate pip install -U openai-whisper whisper clase.mp3 \ --model medium \ --language Spanish \ --output_format srt \ --output_dir subtitulos/
Idea clave. Whisper publica código y pesos bajo MIT. Aun así, no subas audios con datos personales a repositorios ni a herramientas externas sin base legal y permiso.
Narrar con Piper
Terminal
pip install -U piper-tts cat guion.txt | piper \ --model voces/es_ES-modelo.onnx \ --output_file narracion.wav
Cuidado. La licencia del motor no siempre es la licencia de cada voz. Guarda la ficha del modelo de voz y evita imitar personas reales sin consentimiento.
Guion preparado para TTS
Terminal
Título: Qué es RAG Duración objetivo: 90 segundos Tono: claro, docente, sin bromas internas Texto: RAG significa generación aumentada por recuperación. En lugar de pedir al modelo que recuerde, primero buscamos documentos relevantes. Después el modelo responde usando solo esas fuentes.
Comprueba que funciona. Escucha el audio con auriculares y altavoces. Corrige palabras raras escribiéndolas de forma fonética o cambiando la puntuación.
Guardar y reabrir el proyecto.
Voz educativa buena significa guion limpio, pausas naturales, subtítulos y permiso claro para cada voz usada.