VOICE Project > Events > IDD' 97 Bologna Conference (Pirelli)

Abstract: the difficulties of the deaf are beyond the loss of hearing itself, and underline a more general problem of lack of communication. Help in reducing the gap between the deaf and the hearing world should be enforced. Automatic recognition of speech in conversation, conferences and telephone calls, with their translation into PC screen messages, could be a powerful help for the deaf. The paper presents an overview of the VOICE Project of the Institute for Systems, Informatics and Safety of the Joint Research Centre. The project proposes not only the promotion of new technologies in the field of voice to text recognition, but also to stimulate and increase the use of new, widely diffused technologies, namely the Internet. The objective of the project is that of uniting, by means of an Internet VOICE Forum, Associations, companies, universities, schools, public administrations and anyone else interested in voice recognition that could benefit from such research.

Il riconoscimento vocale

I sistemi di riconoscimento vocale, per la conversione da voce a testo, cominciano a diffondersi ed il testo che state leggendo è stato dettato al computer, senza l'uso della tastiera.

E' spontaneo pensare subito ai prossimi passi: parlare e vedere comparire sullo schermo di un PC l'intero testo di quanto è stato appena dettato, … una lezione in classe, una conferenza, una trasmissione televisiva che genererebbero automaticamente i propri sottotitoli !

Un sogno affascinante per molti. Una necessità reale per chi è confrontato a problemi di comunicazione dovuti alla sordità o più semplicemente alla limitata conoscenza di una lingua o all'incalzare dell'età.

Un sogno ostacolato da problemi tecnici, che richiedono ulteriori ricerche, ma anche da condizioni al contorno di tipo operativo, che possono essere esaminate fin d'ora e contribuire alla diffusione dei sistemi di riconoscimento vocale per le necessità specifiche degli audiolesi.

Il Centro Comune di Ricerca della Commissione Europea

L'Unione Europea ha definito diversi programmi di azione nel campo della disabilità. Il Centro Comune di Ricerca della Commissione Europea (CCR), sito di Ispra (Varese), svolge la sua attività nei settori più diversi di interesse dell'Unione Europea: dal campo nucleare a quello ecologico, da quello biochimico a quello informatico, con un particolare accento agli aspetti della sicurezza. Il CCR esamina inoltre la possibilità di trasferire nel campo della vita umana e della disabilità i risultati raggiunti e le esperienze acquisite in altri settori.

Il Progetto VOICE dell'Istituto per i Sistemi, l'Informatica e la Sicurezza

L'Istituto per i Sistemi, l'Informatica e la Sicurezza (ISIS) svolge degli studi nel campo dell'Information technologies for people with special needs. Più in particolare, il Progetto Brain Actuated Control - using EEG pattern recognition to help the disabled esamina la possibilità di riconoscere dei segnali dell'elettroencefalogramma per il controllo di robot da parte dei tetraplegici. Il Progetto VOICE - voice conversion for deaf people si occupa invece della definizione e lo sviluppo di ausili nel campo della comunicazione, in collaborazione con delle Associazioni di audiolesi. Il progetto ha per tema centrale il riconoscimento della voce e mira al superamento di alcuni ostacoli che impediscono l'inizio di nuove attività in questo campo di grandi potenzialità.

Il CCR-ISIS partecipa alla soluzione degli aspetti tecnici e cura il coordinamento delle attività e la sensibilizzazione degli organismi potenziali utenti o fornitori di servizi nel settore. In particolare, poichè le applicazioni informatiche nel campo del disabilità sono spesso limitate dalla scarsa conoscenza delle necessità degli utenti da un lato e delle possibilità della tecnologia dall'altro, il CCR-ISIS assicura che i bisogni degli utenti siano tradotti in specifiche tecniche e recepiti dagli sviluppatori ed i produttori partecipanti al progetto.

La definizione dei bisogni degli utenti procede di pari passo con la presentazione di essi in documenti accessibili via Internet e miranti all'informazione di ditte, Università ed Associazioni, che hanno manifestato interesse a collaborare. La diffusione dell'uso di Internet fra gli audiolesi costituisce un secondo obiettivo del progetto, poichè si tratta di un mezzo semplice di larga diffusione, particolarmente corrispondente alle loro necessità.

La sperimentazione di alcuni prototipi realizzati nel corso del progetto viene stimolata e discussa via posta elettronica ed i risultati di tale sperimentazione sono resi accessibili tramite pagine Web, insieme ad altre informazioni pratiche per lo svolgimento della sperimentazione stessa. A tal fine è stato creato su Internet un sito VOICE Forum al quale partecipa l'Associazione Lombarda Famiglie Audiolesi (ALFA), il Centro Comunicare è Vivere (CECOEV) ed il Centro Servizi Silenziosi dell'Ente Nazionale Sordi (ENS). L'Associazione Famiglie Audiolesi (AFA), l'Associazione nazionale per la lotta alla sordità e la tutela dei diritti degli audiolesi (AUDIES), la Commissione Disabilità e Handicap dell'Università di Padova, il Dipartimento di Elettronica dell'Università di York, l'Educational Endeavour Computer Science for the Blind della Kepler University di Linz (Austria) e l'Institute for Auditory and Visual Training di Linz hanno manifestato il loro intere sse a collaborare. Il campo di attività ed il numero dei partecipanti dovrebbero estendersi via via.

Il progetto va inteso nell'ambito della realizzazione di Azioni Positive, che possano non solo portare alla risoluzione di un problema, ma anche costituire un punto di riferimento importante per altre applicazioni successive. In questo senso il Progetto VOICE intende potenziare la voce delle Associazioni degli audiolesi per stimolare la ricerca e diffondere l'uso dei sistemi basati sul riconoscimento della voce.

Oltre agli obiettivi predetti, è da tenere presente l'importanza di acquisire un'esperienza in questo campo, allo scopo di prevenire applicazioni e sviluppi non desiderabili perché inutilmente complessi o troppo lontani da alcune realtà degli utenti. L'uso di soluzioni informatiche inappropriate potrebbe creare ulteriori inutili barriere, invece di ridurre quelle esistenti.

Aree del Progetto

Dettatura di documenti: questa è la prima finalità per la quale sono stati sviluppati i sistemi di riconoscimento vocale per uso commerciale. La possibilità di parlare in un microfono e vedere apparire sullo schermo di un computer quanto viene detto può essere usata dagli audiolesi per visualizzare i dialoghi con ospiti regolari, che abbiano svolto alcune sessioni di addestramento del computer e così definito il profilo vocale utente.

Sottotitolazione di conferenze e di lezioni: è possibile la sottotitolazione di oratori che parlino chiaramente e lentamente e che abbiano effettuato l'addestramento del computer. Per gli altri oratori si può ricorrere ad un interprete, cioè ad una persona che ascolti in cuffia l'oratore e ripeta o riassuma il testo al microfono del computer.

Nel corso del Progetto VOICE è stato sviluppato un programma apposito per la sincronizzazione e la miscelazione dei segnali e per facilitare la visualizzazione dei sottotitoli allo schermo, secondo le scelte dell'utente. Tale programma registra tra l'altro una scala dei tempi e consente la rielaborazione successiva del testo, della scala dei tempi e dei puntatori ad immagini associate. Il programma è in fase di sperimentazione da parte degli utenti delle Associazioni ed è stato presentato ad alcune scuole, dove dovrebbe essere usato per lezioni con ragazzi audiolesi e per lezioni di lingue straniere con ragazzi normoudenti. Il discorso si può estendere ad altri supporti educativi, quali videocassette e sistemi didattici multimediali.

La partecipazione efficace degli audiolesi a conferenze e lezioni significa rompere un grave isolamento e consentire molte attività importanti.

Sottotitolazione di trasmissioni televisive: è possibile utilizzare il sistema predetto per una più rapida sottotitolazione di film o trasmissioni televisive in differita. Per le trasmissioni in diretta è necessario rispettare diversi vincoli, poichè la diretta comporta difficoltà ulteriori ed il testo proiettato può non essere privo di errori.

La diffusione dei sottotitoli è vitale per gli audiolesi e deve essere considerata un servizio sociale alla disposizione di tutti, adulti e ragazzi audiolesi, anziani con difficoltà di udito, immigrati di madrelingua straniera, per la propria crescita personale ed un migliore apprendimento della lingua parlata e scritta. Un film o una trasmissione in diretta sottotitolati consentono di immergersi in migliaia di vocaboli e di frasi, inserite nel proprio contesto e spunto per comprendere e per allenarsi.

Sottotitolazione di una telefonata: uno dei limiti alla diffusione dei dispositivi con tastiera e display per la trasmissione di messaggi testuali (DTS: Dispositivi Telefonici per Sordi) è costituito dalla necessità di disporre di due apparecchi identici ai due capi della linea telefonica. Se l'audioleso può essere disposto ad acquistare tale apparecchio, difficilmente può sperare che anche i suoi amici e conoscenti si dotino dello stesso strumento.

Il riconoscimento vocale invece richiede un computer solo nella casa dell'audioleso per ottenere sullo schermo la visualizzazione del messaggio orale proveniente dall'altro interlocutore, libero di servirsi di un normale apparecchio telefonico. Ma i rumori di fondo e la banda ristretta della linea telefonica limitano notevolmente la qualità del riconoscimento. Fra il CCR-ISIS ed l'Istituto di Tecnologie Industriali e Automazione del Consiglio Nazionale delle Ricerche (CNR-ITIA) è in corso di definizione un accordo di ricerca per lo sviluppo di un apposito filtro digitale.

La qualità del riconoscimento, basato su un modello statistico operante su più parole, perde di efficacia nelle brevi frasi usate nella comunicazione telefonica, caratterizzata da esitazioni e ripetizioni. Il riconoscimento potrebbe essere facilitato dall'uso di un dizionario volutamente ristretto, perciò di miglior comprensione per il sistema. Delle esperienze pratiche potrebbero aiutare a definire meglio le necessità degli utenti e le parole o frasi di più comune utilizzo.

E' inoltre necessario un eco costante per il controllo del testo dettato, poichè altrimenti il parlatore non può sapere cosa viene visualizzato sullo schermo del computer riconoscitore all'altro capo della linea telefonica. In questa situazione l'utente è confrontato alle stesse difficoltà incontrate dai ciechi nell'uso dei sistemi di riconoscimento vocale, per cui alcuni aspetti della ricerca in corso sono di interesse comune. Un eco può essere assicurato dalla ripetizione in sintesi vocale delle frasi, con la possibilità di correggere alcune parole.

Internet: l'uso di Internet diventa sempre più frequente. L'accesso alle informazioni disponibili sulla rete è interessante, pur se talvolta dispersivo. La posta elettronica facilita la comunicazione con gli altri utenti, anche per la preparazione delle riunioni e per lo svolgimento a distanza delle attività. Per le Associazioni, presentare su Pagine Web informazioni sulle proprie attività consente dei contatti altrimenti impossibili.

Come è stato detto precedentemente, la costituzione di un VOICE Forum su Internet è un simbolo dell'interesse dei partecipanti al progetto ed un punto di riferimento intorno al quale riunire altri partecipanti potenziali. Un obiettivo del progetto è incoraggiare l'uso di questa forma di comunicazione, creando un nucleo iniziale di riferimento sufficientemente esteso per stimolare l'interesse degli utenti ed assicurare uno sviluppo autonomo del VOICE Forum.

Ruoli dei partecipanti

Le Associazioni ALFA, CECOEV ed ENS hanno collaborato con il CCR-ISIS fornendo uno studio sui bisogni degli audiolesi e la valutazione dei prototipi realizzati nel corso del progetto. Più in particolare l'ALFA si è fatta carico maggiore del riconoscimento vocale e degli aspetti inerenti ai sistemi educativi multimediali, nonchè del coordinamento delle attività delle Associazioni; il CECOEV si è concentrato maggiormente sugli aspetti inerenti ai sottotitoli e sui contatti con le emittenti televisive; l'ENS si è concentrato maggiormente sui sistemi di comunicazione telefonica testuale.

Tenendo conto delle priorità definite dalle Associazioni, il CCR-ISIS ha affidato la soluzione di alcuni aspetti tecnici alla FBL di Mortara (Pavia). La FBL rappresenta i prodotti voce IBM e si interessa in modo particolare di applicazioni per i disabili, avendo maturato un'esperienza nei sistemi di controllo vocale ambientale per disabili motori e nei centralini a riconoscimento vocale e sintesi vocale per non vedenti. Nell'ambito del Progetto VOICE la FBL ha sviluppato dei complementi software necessari per la sottotitolazione ed esamina i problemi inerenti alla comunicazione telefonica.

Un quadro di sintesi di alcuni aspetti teorici e di riferimento su attività in campi paralleli è stato fornito dalla NET di Colorno (Parma). Si tratta di uno studio sugli aspetti della comunicazione e di un'analisi di come, dove e quando le nuove tecnologie possono intervenire nella soddisfazione di alcuni dei bisogni degli utenti. Le attività predette sono riassunte in una matrice in cui risulta l'intersezione funzionale dei bisogni, dei problemi e delle loro possibili soluzioni, specialmente facendo uso logico e operativo delle potenzialità che emergono dallo studio delle nuove tecnologie della comunicazione e della formazione.

Stato di avanzamento del Progetto

Molti degli ostacoli sono stati superati, o quanto meno esaminati in profondità. Il sistema di riconoscimento vocale è stato installato presso la sede dell'ALFA, e l'ALFA e le altre Associazioni si sono dotate di un collegamento ad Internet. L'ALFA alimenta le pagine Web con il notiziario Parliamone, il CECOEV con documenti sulla sottotitolazione, l'ENS con elenchi di videocassette sottotitolate della propria videoteca. La posta elettronica comincia ad essere utilizzata regolarmente.

Il software descritto precedentemente è stato sviluppato nel primo trimestre 1997 e viene testato in diverse situazioni di uso reale e quindi modificato per tenere conto dei suggerimenti degli utenti. Occasioni di test sono state le presentazioni al Convegno HANDImatica a Bologna nel mese di marzo, a dei professori di alcune scuole in Lombardia nel mese di aprile ed ad una riunione dei gruppi di attività informatica delle Associazioni ALFA, CECOEV, ENS e AFA nel mese di maggio.

La prima presentazione di una sottotitolazione in diretta di un mio intervento è stata effettuata il 29 e 30 maggio nell'Aula Magna dell'Università di Padova in occasione del Convegno La disabilità nell'università: integrazione e diritto allo studio. La sottotitolazione in diretta degli interventi di alcuni oratori è prevista nell'Assemblea generale dell'ALFA del 14 giugno. Questa data costituisce anche il termine di una prima fase del progetto.

Per il secondo semestre del corrente anno il CCR-ISIS continuerà a gestire le pagine Web per le Associazioni, ad effettuare delle sperimentazioni, ad assicurare degli sviluppi software ed a partecipare a delle riunioni delle Associazioni con produttori di sistemi di riconoscimento vocale, reti televisive, telecomunicazioni, scuole, università, ecc.

E' previsto un ampliamento del progetto e le sue linee saranno presentate nel Convegno IDD'97, che costituirà l'occasione di una presentazione più completa del sistema stesso, sia dal punto di vista operativo che concettuale.