FBL S.r.l.
SVILUPPO DI PRODOTTI DI GESTIONE VOCALE
CONTRATTO N. 12376 - 96 - 11 F1EI ISP I
RELAZIONE FINALE
Dr. Angelo Paglino
luglio 1997
La presenta relazione si compone di due parti:
In ogni parte abbiamo sintetizzato il lavoro svolto, i problemi riscontrati, i
risultati raggiunti e aggiunto anche alcune informazioni che possono essere la base di
partenza per futuri sviluppi.
Comunicazione telefonica
Quando abbiamo iniziato questo progetto sapevamo che ci saremmo subito scontrati con un
ostacolo, che in quel momento pareva veramente grande.
Analizzando la trasmissione telefonica avevamo già verificato che il segnale era
"sporco", aveva cioè un rumore di fondo, continuo, che non permetteva ai
sistemi voce per il riconoscimento del parlato "discreto" IBM VoiceType
Dictation (VTD) e DragonDictate for Windows (DDWin) di delimitare il suono legato ad una
singola parola. Il rumore di fondo univa tutte le parole.
Anche l'addestramento di un prodotto basato sulla definizione sonora della singola parola,
come DDWin, presentava grosse difficoltà. Per raggiungere un minimo obiettivo si sono
dovute disabilitare tutte le opzioni di correzione automatica delle parole ed insistere
più volte sul singolo lemma. Il risultato è stato, comunque, insoddisfacente.
Con IBM VTD le cose sono un poco migliorate, poiché il meccanismo di correzione della
frase insito nel prodotto e non disinseribile, funzionava a tratti, ma il profilo vocale
molto presto si deformava e il livello di comprensione - interpretazione scendeva a
livelli non accettabili.
Da poco abbiamo a disposizione il dimostrativo del prodotto IBM MedSpeak che è un primo
sistema di riconoscimento in parlato continuo in lingua italiana, pur con la limitazione
di un dizionario di base specialistico (diagnostica medica).
Le prime verifiche hanno portato a risultati incoraggianti: il "motore" dovendo
gestire frasi intere e non più singole parole, cioè suoni lunghi senza intervallo fra
una parola e l'altra, sembra "assorbire" il rumore di fondo.
L'algoritmo di riconoscimento, basato su suoni lunghi, ha dimostrato una discreta
affidabilità, di gran lunga superiore a quella del parlato discreto, anche se non ancora
in linea con i nostri obiettivi.
Ci risulta che anche Dragon Systems ha rilasciato un prodotto in parlato continuo in
inglese e che lo rilascerà anche per altre lingue tra cui l'italiano. E' anche prevista
una implementazione con profili vocali di tipo telefonico.
Ritornando al prodotto IBM dobbiamo notare due particolarità:
1) dispone di una funzione di analisi di testi, tipo files di MSWord, che controlla le
parole mancanti nel dizionario del prodotto e permette una loro introduzione rapida e
precisa. Utilizzando questa funzione potremo introdurre nel dizionario parole e frasi
selezionate appositamente per un colloquio telefonico con il disabile audioleso. Le
Associazioni si sono impegnate a selezionare un certo numero di frasi che saranno poi da
noi addestrate.
2) permette un setup del microfono molto accurato. Abbiamo provato a cambiare diversi
microfoni su una stesso PC con l'identico profilo vocale: la sostituzione del microfono
provocava cadute verticali di affidabilità nella comprensione. Facendo un nuovo setup con
il nuovo microfono il prodotto ritornava ai livelli iniziali di affidabilità. E'
importante notare che il setup è a due stadi: verifica del rumore di fondo, verifica
della pronuncia di alcune parole base.
Il prodotto di cui disponiamo è, purtroppo, ancora un prototipo con alcune lacune proprio
nella funzione di setup. Dobbiamo attendere il prodotto definitivo per verificare
l'effettiva capacità della funzione nella "pulizia" del rumore di fondo, nel
nostro caso quello creato dalla linea telefonica.
Se le speranze si dimostreranno fondate, potremo far a meno di filtri Hw da installare
sulla linea telefonica.
Problemi per effettuare il setup ci derivano, oggi ancora, dal mezzo (hardware) che
abbiamo sperimentato per portare un segnale abbastanza pulito al PC. Il segnale in
questione è, ovviamente, la voce del parlatore.
Per quanto riguarda l'inserimento della sintesi vocale all'interno del prodotto per
permettere il controllo del testo acquisito dalla telefonata, il text-to-speech che è
stato sviluppato integrando alcune DLL dello CSELT, ha subito ulteriori miglioramenti e
può essere facilmente utilizzato in future applicazioni di gestione delle comunicazioni
telefoniche. Oggi sa, infatti, riconoscere e rispettare la punteggiatura e la lettura di
un testo non appare più monotona, con grande vantaggio per gli utilizzatori. In questo
caso una risposta scritta viene tradotta in voce in modo più gradevole.
Sottotitolazione
Si tratta del secondo obiettivo del contratto.
L'utilizzo delle tecniche voce per la sottotitolazione di filmati, programmi televisivi e
conferenze ci ha portato alla realizzazione di programmi ad hoc.
Quando abbiamo iniziato lo sviluppo disponevamo dello strumento voce in parlato
"discreto" ed abbiamo sviluppato una serie di programmi che visualizzassero dei
sottotitoli relativi ad un testo pronunciato da un "interprete" (che fosse
sintesi dei concetti espressi dall'oratore o che riducesse a poche parole le informazioni
che lo speaker passava agli ascoltatori). Eravamo costretti a lavorare così poichè lo
strumento software di trascrizione (IBM Voice Type e/o DragonDictate) non permetteva una
velocità di acquisizione e di trascrizione vicine a quelle del parlatore.
Lo sviluppo ha seguito le seguenti fasi:
Sono stati da noi predisposti programmi per due stazioni di lavoro
- una per l'acquisizione e l'elaborazione della voce,
- l'altra per l'integrazione dei sottotitoli con l'immagine.
La prima stazione di lavoro, più potente (con almeno un processore Pentium 100 con
16MB RAM, multimediale) lavora con il programma vocale integrato nell'applicativo:
l'operatore ascolta le parole dell'oratore ed esegue mentalmente una sintesi, detta al
computer le frasi sintetizzate. Il PC elabora la voce, la traduce in uno scritto,
costruisce delle righe di testo la cui dimensione (numero di caratteri per riga, una riga
o più righe di testo) è parametrica, definibile cioè dall'utente volta per volta, e le
evidenzia sulla stazione di lavoro affinchè l'operatore possa controllare il corretto
funzionamento ed intervenire in caso d'errore.
Contemporaneamente il testo viene salvato in un archivio (il comando è opzionale).
Durante questa operazione il programma associa al testo un "tempo" cioè il
numero dei secondi intercorsi dal rilascio della didascalia precedente, questo per
permettere una "rilettura" tempificata.
La seconda stazione di lavoro è connessa alla prima tramite rete.
Legge l'archivio creato dalla stazione di dettatura e evidenzia sul monitor i sottotitoli,
permettendo all'utente impostazioni grafiche: colore di fondo e delle parole, tipo e
dimensione del carattere.
È in grado di lavorare "in diretta" o in "differita", sfruttando in
questo secondo caso la tempificazione che è stata creata dalla prima stazione. In caso di
differita è anche possibile correggere i testi acquisiti, variare i tempi di
differimento, aggiungere/togliere sottotitoli.
Abbiamo previto di poter inviare il segnale della seconda stazione ad un mixer, attraverso
un convertitore VGA to PAL, realizzando un'immagine sottotitolata da proiettare su grande
schermo o registrare su cassetta.
Alla metà di giugno 1997 la IBM ha annunciato il parlato continuo. La nuova versione di
IBM Voice Type si chiama IBM ViaVoice e sarà disponibile nel terzo quadrimestre '97.
FBL è rivenditore certificato del prodotto Voice IBM ed ha a disposizione il dimostrativo
di MedSpeak, sistema di dettatura in parlato continuo per la refertazione medica. Il
motore di ricoscimento di MedSpeak non dovrebbe essere molto diverso da quello di
ViaVoice, il dizionario, invece, è prettamente medico. Questa premessa per dire che
abbiamo provato ad integrare il programma di sottotitolazione con il motore in parlato
continuo e abbiamo capito che non si tratta di un semplice miglioramento, bensì di una
sostanziale rivoluzione.
Addio ai concetti di sintesi, non più brevi didascalie, ma ritrascrizione integrale della
conferenza.
La velocià di dettatura, reale, supera le 100/120 parole al minuto (più di 800
caratteri/minuto) e fa scomparire la figura dell'operatore sostituita dal conferenziere
stesso, purchè addestrato.
Il ritardo fra dettatura e scrittura del testo è contenibile in 1-2 secondi, dipendendo
solamente dalla velocità del processore, che deve essere almeno un Pentium 166MMX con
64Mb RAM.
Se il parlatore si addestra a gestire delle piccole pause fra le frasi, la trascrizione
risulta pressochè contemporanea.
Dobbiamo rivedere una parte della logica dei programmi. Abbiamo iniziato a sperimentare
l'adattamento del nuovo motore alla vecchia carrozzeria: riusciremo a recuperare molte
parti dello sviluppo iniziale ed in particolar modo la presentazione dei sottotoli.
La nuova esperienza si presenta con orizzonti molto vasti:
- nella scuola (legge 104) per permettere ai disabili audiolesi di seguire in diretta le
lezioni.
- nella scuola sarà possibile agli insegnanti di lingue straniere mostrare agli allievi
come si scrive la parola che stanno pronunciando.
- nell'università si protranno produrre le dispense in diretta, nelle conferenze
rilasciare in pochi minuti il testo dattiloscritto.
- nelle conferenze sarà anche possibile una traduzione simultanea anche dove non esistono
strutture. Basterà un PC ed un operatore-interprete addestrato.
Voice
Project Homepage | Voice
Projects | Exploratory
Research 1997
JRC-ISIS
Voice Project contact points.
|