FBL report

FBL S.r.l.

SVILUPPO DI PRODOTTI DI GESTIONE VOCALE
CONTRATTO N. 12376 - 96 - 11 F1EI ISP I

RELAZIONE FINALE

Dr. Angelo Paglino

luglio 1997

La presenta relazione si compone di due parti:

comunicazione telefonica;
sottotitolazione.

In ogni parte abbiamo sintetizzato il lavoro svolto, i problemi riscontrati, i risultati raggiunti e aggiunto anche alcune informazioni che possono essere la base di partenza per futuri sviluppi.

Comunicazione telefonica
Quando abbiamo iniziato questo progetto sapevamo che ci saremmo subito scontrati con un ostacolo, che in quel momento pareva veramente grande.
Analizzando la trasmissione telefonica avevamo già verificato che il segnale era "sporco", aveva cioè un rumore di fondo, continuo, che non permetteva ai sistemi voce per il riconoscimento del parlato "discreto" IBM VoiceType Dictation (VTD) e DragonDictate for Windows (DDWin) di delimitare il suono legato ad una singola parola. Il rumore di fondo univa tutte le parole.

Anche l'addestramento di un prodotto basato sulla definizione sonora della singola parola, come DDWin, presentava grosse difficoltà. Per raggiungere un minimo obiettivo si sono dovute disabilitare tutte le opzioni di correzione automatica delle parole ed insistere più volte sul singolo lemma. Il risultato è stato, comunque, insoddisfacente.
Con IBM VTD le cose sono un poco migliorate, poiché il meccanismo di correzione della frase insito nel prodotto e non disinseribile, funzionava a tratti, ma il profilo vocale molto presto si deformava e il livello di comprensione - interpretazione scendeva a livelli non accettabili.

Da poco abbiamo a disposizione il dimostrativo del prodotto IBM MedSpeak che è un primo sistema di riconoscimento in parlato continuo in lingua italiana, pur con la limitazione di un dizionario di base specialistico (diagnostica medica).
Le prime verifiche hanno portato a risultati incoraggianti: il "motore" dovendo gestire frasi intere e non più singole parole, cioè suoni lunghi senza intervallo fra una parola e l'altra, sembra "assorbire" il rumore di fondo.
L'algoritmo di riconoscimento, basato su suoni lunghi, ha dimostrato una discreta affidabilità, di gran lunga superiore a quella del parlato discreto, anche se non ancora in linea con i nostri obiettivi.
Ci risulta che anche Dragon Systems ha rilasciato un prodotto in parlato continuo in inglese e che lo rilascerà anche per altre lingue tra cui l'italiano. E' anche prevista una implementazione con profili vocali di tipo telefonico.

Ritornando al prodotto IBM dobbiamo notare due particolarità:
1) dispone di una funzione di analisi di testi, tipo files di MSWord, che controlla le parole mancanti nel dizionario del prodotto e permette una loro introduzione rapida e precisa. Utilizzando questa funzione potremo introdurre nel dizionario parole e frasi selezionate appositamente per un colloquio telefonico con il disabile audioleso. Le Associazioni si sono impegnate a selezionare un certo numero di frasi che saranno poi da noi addestrate.
2) permette un setup del microfono molto accurato. Abbiamo provato a cambiare diversi microfoni su una stesso PC con l'identico profilo vocale: la sostituzione del microfono provocava cadute verticali di affidabilità nella comprensione. Facendo un nuovo setup con il nuovo microfono il prodotto ritornava ai livelli iniziali di affidabilità. E' importante notare che il setup è a due stadi: verifica del rumore di fondo, verifica della pronuncia di alcune parole base.

Il prodotto di cui disponiamo è, purtroppo, ancora un prototipo con alcune lacune proprio nella funzione di setup. Dobbiamo attendere il prodotto definitivo per verificare l'effettiva capacità della funzione nella "pulizia" del rumore di fondo, nel nostro caso quello creato dalla linea telefonica.
Se le speranze si dimostreranno fondate, potremo far a meno di filtri Hw da installare sulla linea telefonica.
Problemi per effettuare il setup ci derivano, oggi ancora, dal mezzo (hardware) che abbiamo sperimentato per portare un segnale abbastanza pulito al PC. Il segnale in questione è, ovviamente, la voce del parlatore.

Per quanto riguarda l'inserimento della sintesi vocale all'interno del prodotto per permettere il controllo del testo acquisito dalla telefonata, il text-to-speech che è stato sviluppato integrando alcune DLL dello CSELT, ha subito ulteriori miglioramenti e può essere facilmente utilizzato in future applicazioni di gestione delle comunicazioni telefoniche. Oggi sa, infatti, riconoscere e rispettare la punteggiatura e la lettura di un testo non appare più monotona, con grande vantaggio per gli utilizzatori. In questo caso una risposta scritta viene tradotta in voce in modo più gradevole.

Sottotitolazione
Si tratta del secondo obiettivo del contratto.
L'utilizzo delle tecniche voce per la sottotitolazione di filmati, programmi televisivi e conferenze ci ha portato alla realizzazione di programmi ad hoc.
Quando abbiamo iniziato lo sviluppo disponevamo dello strumento voce in parlato "discreto" ed abbiamo sviluppato una serie di programmi che visualizzassero dei sottotitoli relativi ad un testo pronunciato da un "interprete" (che fosse sintesi dei concetti espressi dall'oratore o che riducesse a poche parole le informazioni che lo speaker passava agli ascoltatori). Eravamo costretti a lavorare così poichè lo strumento software di trascrizione (IBM Voice Type e/o DragonDictate) non permetteva una velocità di acquisizione e di trascrizione vicine a quelle del parlatore.

Lo sviluppo ha seguito le seguenti fasi:

Sono stati da noi predisposti programmi per due stazioni di lavoro

una per l'acquisizione e l'elaborazione della voce,
l'altra per l'integrazione dei sottotitoli con l'immagine.

La prima stazione di lavoro, più potente (con almeno un processore Pentium 100 con 16MB RAM, multimediale) lavora con il programma vocale integrato nell'applicativo: l'operatore ascolta le parole dell'oratore ed esegue mentalmente una sintesi, detta al computer le frasi sintetizzate. Il PC elabora la voce, la traduce in uno scritto, costruisce delle righe di testo la cui dimensione (numero di caratteri per riga, una riga o più righe di testo) è parametrica, definibile cioè dall'utente volta per volta, e le evidenzia sulla stazione di lavoro affinchè l'operatore possa controllare il corretto funzionamento ed intervenire in caso d'errore.

Contemporaneamente il testo viene salvato in un archivio (il comando è opzionale).
Durante questa operazione il programma associa al testo un "tempo" cioè il numero dei secondi intercorsi dal rilascio della didascalia precedente, questo per permettere una "rilettura" tempificata.

La seconda stazione di lavoro è connessa alla prima tramite rete.
Legge l'archivio creato dalla stazione di dettatura e evidenzia sul monitor i sottotitoli, permettendo all'utente impostazioni grafiche: colore di fondo e delle parole, tipo e dimensione del carattere.
È in grado di lavorare "in diretta" o in "differita", sfruttando in questo secondo caso la tempificazione che è stata creata dalla prima stazione. In caso di differita è anche possibile correggere i testi acquisiti, variare i tempi di differimento, aggiungere/togliere sottotitoli.
Abbiamo previto di poter inviare il segnale della seconda stazione ad un mixer, attraverso un convertitore VGA to PAL, realizzando un'immagine sottotitolata da proiettare su grande schermo o registrare su cassetta.

Alla metà di giugno 1997 la IBM ha annunciato il parlato continuo. La nuova versione di IBM Voice Type si chiama IBM ViaVoice e sarà disponibile nel terzo quadrimestre '97.
FBL è rivenditore certificato del prodotto Voice IBM ed ha a disposizione il dimostrativo di MedSpeak, sistema di dettatura in parlato continuo per la refertazione medica. Il motore di ricoscimento di MedSpeak non dovrebbe essere molto diverso da quello di ViaVoice, il dizionario, invece, è prettamente medico. Questa premessa per dire che abbiamo provato ad integrare il programma di sottotitolazione con il motore in parlato continuo e abbiamo capito che non si tratta di un semplice miglioramento, bensì di una sostanziale rivoluzione.
Addio ai concetti di sintesi, non più brevi didascalie, ma ritrascrizione integrale della conferenza.
La velocià di dettatura, reale, supera le 100/120 parole al minuto (più di 800 caratteri/minuto) e fa scomparire la figura dell'operatore sostituita dal conferenziere stesso, purchè addestrato.
Il ritardo fra dettatura e scrittura del testo è contenibile in 1-2 secondi, dipendendo solamente dalla velocità del processore, che deve essere almeno un Pentium 166MMX con 64Mb RAM.
Se il parlatore si addestra a gestire delle piccole pause fra le frasi, la trascrizione risulta pressochè contemporanea.
Dobbiamo rivedere una parte della logica dei programmi. Abbiamo iniziato a sperimentare l'adattamento del nuovo motore alla vecchia carrozzeria: riusciremo a recuperare molte parti dello sviluppo iniziale ed in particolar modo la presentazione dei sottotoli.
La nuova esperienza si presenta con orizzonti molto vasti:
- nella scuola (legge 104) per permettere ai disabili audiolesi di seguire in diretta le lezioni.
- nella scuola sarà possibile agli insegnanti di lingue straniere mostrare agli allievi come si scrive la parola che stanno pronunciando.
- nell'università si protranno produrre le dispense in diretta, nelle conferenze rilasciare in pochi minuti il testo dattiloscritto.
- nelle conferenze sarà anche possibile una traduzione simultanea anche dove non esistono strutture. Basterà un PC ed un operatore-interprete addestrato.

Voice Project Homepage | Voice Projects | Exploratory Research 1997

JRC-ISIS Voice Project contact points.