Migliorare la sintesi vocale con mbrola
Abbiamo visto come convertire un pdf in un file mp3 in tre soli passi, ora vediamo come migliorare notevolmente la qualità del parlato con un solo passo aggiuntivo.
Nell’articolo precedente abbiamo usato espeak per tutto il processo di conversione da testo a audio, ora invece lo useremo solo per generare i fonemi, poi utilizzeremo mbrola per trasformare i fonemi in un audio di qualità superiore rispetto a quello che è in grado di generare espeak da solo.
L’esempio che segue è stato testato su Ubuntu Karmic (9.10).
Devi installare i pacchetti espeak e mbrola (sudo apt-get install espeak mbrola) e poi scaricare le voci per le lingue che ti interessano da questa pagina. Ti consiglio di scaricare la lingua it3 che è quella usata nell’esempio che segue.
[AGGIORNAMENTO: Con una versione recente di ubuntu puoi installare le voci con apt (sudo apt-get install mbrola-it3) e puoi evitare la ricerca, lo scaricamento e la scompattazione del file zip]
Scompatta il file .zip contenente la lingua e, senza cambiare directory, digita i seguenti comandi per ottenere il file audio:
[AGGIORNAMENTO: ti consiglio di installare gespeaker (sudo apt-get install gespeaker) che è un frontend che ti semplifica la vita]
espeak -v mb-it3 -f inputfile > fonemi
Con il comando precedente hai detto ad espeak di generare i fonemi per la voce it3 di mbrola. Il testo da leggere è nel file inputfile (un semplice file di testo) e i fonemi vengono scriti nel file fonemi.
Ora trasformiamo i fonemi in audio:
mbrola -e ./it3/it3 fonemi parlato.wav
Con questo comando hai detto a mbrola di ignorare i fonemi sconosciuti (-e), di usare il file di lingua it3 (quello che hai appena scaricato), di leggere i fonemi dal file fonemi e di generare il file parlato.wav contenente l’audio.
Ora hai il tuo file audio, puoi confrontare la qualità con quella ottenuta usando solo espeak e vedrai che è migliore.
Per quanto riguarda la conversione da pdf a file di testo e quella da wav a mp3 fai riferimento all’articolo precedente.
Tags: espeak, mbrola, sintesi vocale
This entry was posted on giovedì, aprile 1st, 2010 at 12:42 pm and is filed under tecnologia, ubuntu. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.