Centro Comune di Ricerca della Commissione Europea, Istituto per la Protezione e Sicurezza del Cittadino, Progetto VOICE
Italiano
Home
Progetti
Eventi
Didattica
Media
VoiceLab
Forum
Percorso:
VoiceLab > Storia

L'uso della voce per scrivere
(utilizzando un microfono ed un computer)
Storia

Le prime esperienze in lingua italiana sono state maturate in IBM, con apparecchiature di maggiori dimensioni e costo rispetto ai personal computer. L'obiettivo era permettere ai Medici di redigere, dettandoli, i loro referti.
Per utilizzare la dettatura su personal computer dobbiamo aspettare il 1992, quando in Italia è stata importata la prima scheda audio ed il primo software di dettatura realizzato dalla Dragon Systems inc. Newton MA USA. Il sistema operativo era il DOS, il personal computer un 486/66 da 16Mb Ram, il vocabolario di 7.000 parole. La dettatura era discreta (si dettava una parola per volta), la velocità poteva sfiorare le 15-20 parole al minuto.
È disponibile un filmato che documenta l'operatività, realizzato per la Aries Information Technology S.r.l. di Mortara da Claudio Moro. Interpreti Antonio Giuseppe Malafarina, disabile motorio ed Angelo Paglino, normodotato. (LINK filmato).

Due anni dopo, con il passaggio da DOS a Windows e la realizzazione di un nuovo vocabolario con 60.000 parole disponibili, la velocità di dettatura passa a 30 parole al minuto.
Il prodotto (DDWin) ha avuto particolare successo con i disabili che non possono accedere alla tastiera ed al mouse, poiché le parole di testo ed i comandi possono essere dettati; anche il movimento del mouse può essere gestito a voce. L'ultima versione di questo prodotto è ancora oggi (2003) utilizzata dai tetraplegici, sia per la dettatura di testi, comprese le e-mail, che per la navigazione in Internet e la domotica (comandi per la gestione dell'ambiente).

IBM inizia nel 1996 una nuova era proponendo sul mercato il prodotto ViaVoice in parlato continuo: non è più necessaria la pausa dopo ogni parola, ma solo al termine della frase. Il vocabolario all'inizio era esclusivamente quello medico, visto che IBM indirizzava il suo prodotto in particolare alla refertazione radiologica.
Dragon Systems segue di qualche mese l'annuncio IBM, il suo vocabolario è quello della lingua di tutti i giorni. IBM annuncia i vocabolari per usi commerciali e per la giurisprudenza. La velocità di dettatura aumenta sino a 100 parole al minuto; i personal computer utilizzano processori Pentium.
Nel 1996 ad Ispra viene avviata la prima fase del Progetto VOICE. Dopo un periodo di studio e ricerca, è sviluppato un prototipo di sottotitolazione, che utilizza il motore di riconoscimento Dragon NaturallySpeaking versione 3.0 per creare i sottotitoli di una lezione o di una conversazione, in lingua italiana, e lo presenta in un primo seminario rivolto alle scuole il 20 febbraio 1998.
Il prototipo viene presentato ufficialmente a Vienna nel Settembre 1998 al convegno internazionale ICCPH. La presentazione è in lingua inglese.
Il programma sorgente, sviluppato in tale periodo e finanziato dalla Commissione Europea, è disponibile gratuitamente sul sito Voice. Il personal computer ha bisogno di alcune schede particolari (scheda audio SoundBlaster, scheda video Matrox con RainbowRunner) e lo sviluppo utilizza i tools (SDK) di queste schede, oggetti ormai introvabili!

La tecnologia dei processori ed i software di riconoscimento hanno ritmi di sviluppo esponenziali. La software house che ha sviluppato il prototipo (FBL S.r.l. di Mortara) si è fatta carico del ridisegno dell'applicazione e del riallineamento ai motori Dragon NaturallySpeaking (DNS) ed ai processori dei personal computer.
Il suo prodotto VoiceMeeting versione 5, presentato ad Handimatica 2002 a Bologna, utilizza Dragon NaturallySpeaking 5 e processori Pentium 4. I ritmi di dettatura possono raggiungere 140 parole al minuto. Il programma ha implementato una serie di funzioni multimediali per rendere più facile la lezione sottotitolata in aula e più semplice la revisione dei sottotitoli generati.

Il funzionamento è semplice: un microfono collegato ad un PC porta la voce dell'insegnante ad un motore di riconoscimento, il sistema riconosce le frasi, intercettando le pause, e crea on-line dei sottotitoli che vengono messi a disposizione dello studente.
Il sistema è stato concepito per essere utilizzato dal docente: i sottotitoli vengono abitualmente proiettati su uno schermo e sono a disposizione di tutti gli allievi.
Durante la sottotitolazione il sistema salva in un archivio del computer tutti i sottotitoli e la voce che li ha generati, al termine della lezione tutto il testo prodotto è a disposizione del docente che può rivederlo, correggerlo riascoltando la propria voce e consegnare un promemoria a tutti gli allievi.

Il sistema di sottotitolazione è nato per porre rimedio ad un problema: l'inserimento dell'alunno nel gruppo-classe. L'obiettivo era, ed è ancora, far giungere a tutti gli allievi di una classe le stesse informazioni, con le stesse parole, nello stesso momento.
Altrettanto importante, per tutte le applicazioni rivolte ai disabili, è l'obiettivo di contenere i costi e di utilizzare hardware e software facilmente disponibili sul mercato.

Fra gli audiolesi si riscontrano due scuole di pensiero: gli oralisti ed i segnanti. La soluzione proposta dal progetto VOICE è più vicina agli oralisti, già propensi ad essere più autonomi in quanto leggono le labbra, ed è accettata dai segnanti quando non dispongono di interprete LIS (Lingua Italiana dei Segni) e necessitano di una soluzione alternativa.
L'interprete della LIS comunica all'audioleso non solo le informazioni, ma anche le emozioni. E' una persona fisica, un amico, un tutore. Ma il costo da sopportare è elevato (e non solo per lo stipendio), oltre alla necessità di un continuo aggiornamento e di una forte specializzazione tecnica, specie in Università. Peraltro, l'interprete non è sempre disponibile.
Se chi parla utilizza ritmi elevati, l'interprete ha difficoltà a tradurre tutto il testo e deve sintetizzare. La LIS è pesante, stanca. Nelle conferenze abbiamo più interpreti che si alternano frequentemente.

La versione attuale di VoiceMeeting (2003) risponde, a prima vista, a tutti i requisiti segnalati da diversi professori e studenti, quali soprattutto il funzionamento in una finestra ristretta nella parte inferiore dello schermo, con possibilità quindi di eseguire altri programmi sullo stesso PC (anche MS PowerPoint, con qualche restrizione, peraltro accettabile, sulla dimensione delle finestre e sull'uso del mouse). Inoltre è possibile il salvataggio non solo del file di testo generato, ma anche di quello vocale di dettatura, in modo che la successiva correzione risulta molto facilitata.

Per ottenere un buon funzionamento sono richiesti l'addestramento del sistema alla voce del docente (pochi minuti) e l'analisi della terminologia che sarà utilizzata durante la lezione (per questo secondo punto si sta progettando con una università un coinvolgimento di case editrici al fine di disporre di dizionari specifici).
Dopo una prima fase di utilizzo in cui i sottotitoli sono stati proposti solo per la lezione frontale e per la conferenza con i sottotitoli a disposizione di tutti i presenti, la nuova versione di VoiceMeeting, presentata a Handimatica 2002 a Bologna, permette anche di ribaltare questo concetto iniziale. Lo studente audioleso è dotato di un notebook e di un radiomicrofono (piccolo, a cravatta), che affida al docente e segue sul monitor del computer la lezione.In effetti si tratta di una vera e propria acquisizione della voce del docente con sbobinamento (conversione della voce in testo scritto) immediato del testo seguendo i criteri già collaudati nel progetto VOICE. L'allievo legge sul suo notebook, immediatamente, ciò che il docente dice senza coinvolgimento degli altri alunni.
Inoltre, le frasi restano memorizzate in una finestra di testo, per essere lette anche successivamente. Questo modo di operare consente anche la correzione più facile del testo scritto, essendo riascoltabile la voce che lo ha generato.

Sono state anche maturate esperienze nella registrazione di una lezione e del suo successivo sbobinamento, utilizzando sia il registratore che veniva offerto con il prodotto Dragon sia altri registratori digitali: i motori di riconoscimento devono essere addestrati, per produrre risultati accettabili, partendo da un testo registrato. Lo stesso approccio è necessario per la creazione semiautomatica dei sottotitoli di video cassette, esperienza che sta fornendo ottimi risultati.


Mappa
FAQ
Copyright
Contatti
inizio pagina