In molte stazioni, le partenze dei treni vengono annunciate
da sistemi basati sulla sintesi vocale. Tali sistemi per
la conversione da testo a voce hanno raggiunto oggi una
buona qualità, dopo anni di studi e di ricerche. Quando, nel 1970, preparavo
la tesi di laurea presso il Politecnico di Torino su alcuni sensori
delle telecamere (ancora in bianco e nero!), dei colleghi studiavano
i primi passi della sintesi vocale.
Il procedimento inverso, cioè la conversione da voce a testo,
è più complesso. Tuttavia dei sistemi di riconoscimento vocale
cominciano a diffondersi ed il testo che state leggendo è stato da me
parzialmente dettato al computer, senza l'uso della tastiera.
Un primo passo, una decina di anni fa, era stato lo sviluppo dei sistemi
di analisi della voce (probabilmente conoscerete quello in uso
presso il Policlinico di Milano per le sessioni di rieducazione ortofonica).
In un campo diverso, ma non troppo lontano, il riconoscimento ottico
dei caratteri (conversione da immagine a testo) appariva inverosimile
venti anni fa. Ma dieci anni fa i prototipi erano già disponibili, anche
se costosi e di prestazioni limitate ed oggi questi sistemi hanno raggiunto
una buona qualità e si diffondono a dei costi tutto sommato modesti.
È spontaneo pensare subito ai prossimi passi del riconoscimento vocale:
parlare e vedere comparire sullo schermo di un PC l'intero testo di
quanto si è pronunciato,
una lezione in classe, una conferenza,
una trasmissione televisiva che genererebbero automaticamente i propri
sottotitoli !
Non sono poche le difficoltà per avvicinarsi a questi obiettivi. Tuttavia
si tratta di un sogno per alcuni aspetti non troppo lontano, che meriterebbe
l'esame di quanto disponibile sul mercato e la collaborazione con i
ricercatori ed i produttori per consentire lo sviluppo di sistemi più
vicini alle necessità specifiche degli audiolesi.
Il riconoscimento vocale
Negli SMAU degli ultimi tre anni sono state regolarmente presentate
nuove versioni di sistemi di riconoscimento vocale della Ibm e della
Dragon, di buona qualità e di costo accessibile.
Entrambi i sistemi funzionano sotto Windows su PC di caratteristiche
medio-alte e sono costituiti solo da un software specifico, mentre
come hardware richiedono una scheda Sound-Blaster di normale diffusione.
Sono concepiti essenzialmente per la dettatura di testi direttamente
al computer (ad un programma di trattamento testi) o per il controllo
del computer da parte di chi ha le mani occupate (medicina, laboratori
di ricerca).
Il riconoscimento è operabile su un parlato discreto, cioè
con una pausa minima fra due parole consecutive, ad una velocità complessiva
di circa 100 parole/minuto. In linea di massima, il riconoscimento
è possibile per un parlatore che abbia addestrato il sistema
per alcune ore, con la lettura di qualche centinaio di frasi prefissate,
che consentono l'elaborazione del profilo vocale utente.
Oltre a funzionare nel predetto modo dettatura, il sistema
può anche operare in modo comando, per cui parlando si danno
tutti i comandi Windows (per il sistema Ibm) ed inoltre si controlla
il movimento del mouse sullo schermo (per il sistema Dragon).
L'ultimo nato della Ibm si chiama Simply Speaking, una
versione home, offerta ad un prezzo inferiore alle 200.000
lire, praticamente il prezzo del solo microfono speciale necessario
per il suo funzionamento. Il prodotto completo si chiama Voice
Type Dictation, ha un costo superiore al milione di lire e permette
alcune applicazioni in più, non strettamente necessarie per chi inizia
ad avventurarsi in questo campo. E' però necessario disporre
di un PC di buone prestazioni: almeno un Pentium 100 con 16 Mbyte
di RAM, Cd-rom e Sound-Blaster.
Il principio di funzionamento
Il sistema individua le parole selezionandole in un vocabolario di
oltre 20.000 parole predefinite, alle quali possono essere aggiunte
circa 2.000 parole proprie dell'utente; sono disponibili anche
altri dizionari predefiniti. Ogni parola è memorizzata nel dizionario
con delle informazione sulla sua frequenza d'uso e sulla frequenza
d'associazione con altre parole.
Il sistema esamina ogni parola che viene pronunciata (è indispensabile
effettuare una breve pausa dopo ogni parola), individua ogni elemento
fonetico che la compone (elementi più piccoli delle singole vocali
o consonanti) ed ipotizza alcune parole possibili. Quindi affina la
scelta in base a un preciso calcolo di probabilità d'uso delle parole
presenti nel dizionario. Delle strutture grammaticali (o un modello
statistico delle ricorrenze delle parole) consentono al sistema di
risolvere automaticamente alcuni dubbi ("a" o "ha",
"e" o "è", iniziale maiuscola o minuscola).
La difficoltà principale è la distinzione di parole foneticamente
simili (per esempio: senso, senza, Ens), mentre è più semplice il
riconoscimento di termini specifici (attualmente il prodotto riscontra
un successo maggiore nel campo della refertazione radiologica). In
caso di dubbio, il sistema offre la scelta fra alcune parole foneticamente
simili o la possibilità di inserire una nuova parola nel dizionario.
Il sistema Dragon effettua il riconoscimento di una parola alla volta,
tenendo conto delle parole prece-denti già riconosciute. Il sistema
Ibm aggiunge una fase supplementare: dopo aver riconosciuto in modo
provvisorio più parole, analizza la terna costituita dalle tre ultime
parole. Il riconoscimento della prima parola della terna viene convalidato
tenendo conto sia delle parole precedenti, che delle due parole successive
riconosciute in modo provvisorio; il riconoscimento di queste ultime
viene poi confermato via via che le parole successive diventano disponibili
all'analisi. E' sorprendente vedere allo schermo come il
sistema riflette, proponendo delle ipotesi e modificandole
via via.
I problemi con il telefono
Uno dei limiti alla diffusione dei Dispositivi Telefonici per Sordi
(DTS) è costituito dalla necessità di disporre di due apparecchi identici
ai due capi della linea telefonica. Se l'audioleso può essere disposto
ad acquistare tale apparecchio, difficilmente può sperare che anche
i suoi amici e conoscenti si dotino dello stesso strumento. Viceversa,
il riconoscimento vocale richiede un PC solo nella casa dell'audioleso,
lasciando l'altro interlocutore libero di servirsi di un normale apparecchio
telefonico.
Un ostacolo fondamentale è rappresentato dai rumori di fondo e dalla
banda ristretta consentita dalla linea telefonica, che limitano notevolmente
la qualità del riconoscimento. Inoltre, la qualità del riconoscimento
decade anche poiché un modello statistico operante su terne di parole
previsto per frasi complete, perde di efficacia nelle brevi frasi
usate nella comunicazione telefonica, caratterizzata peraltro da frequenti
esitazioni, incertezze e ripetizioni. Il riconoscimento potrebbe essere
facilitato dall'uso di un vocabolario di un numero minore di
parole.
Un problema evidente è la necessità di un eco costante, poiché altrimenti
il parlatore non può sapere cosa viene visualizzato sullo schermo
del PC riconoscitore all'altro capo della linea telefonica. In
questa situazione l'utente è confrontato alle stesse difficoltà incontrate
dai ciechi nell'uso dei sistemi riconoscimento vocale, per cui alcuni
aspetti della ricerca in corso sono di interesse comune. Un'eco
può essere assicurata dalla ripetizione in sintesi vocale delle frasi,
con la possibilità di correggere alcune parole.
Le previsioni
L'uso del sistema di riconoscimento si va diffondendo, quanto
meno tra il personale Ibm, in applicazioni diverse: il prodotto si
dimostra robusto ed il riconoscimento continua ad essere discreto
in un ambiente particolarmente rumoroso come quello dello SMAU.
Sarà presto disponibile una nuova versione per il riconoscimento della
voce di qualunque parlatore, limitatamente all'uso di circa 1.000
parole (essenzialmente per il controllo di segreterie telefoniche
e di sistemi di informazione e di telefonia vocale più complessi).
Nel corso del 1997 dovrebbe essere annunciato un prodotto più evoluto,
per il riconoscimento del parlato continuo (cioè senza pausa
fra le parole), su PC Pentium di prestazioni superiori, tipo P6 Pentium
Professional.
Collaborazione con la Commissione Europea
Negli ultimi anni, nelle riunioni del Consiglio Direttivo dell'Alfa
ed in altre più specifiche di gruppi di informatica dell'Alfa, vi
è stato uno scambio di idee in merito agli ausili informatici già
disponibili per gli audiolesi ed a quelli che si sarebbe potuto sviluppare.
Più in particolare mi è stato affidato il mandato di esaminare le
eventuali forme di collaborazione con la Commissione Europea. Il discorso
si è allargato nel corso di numerose riunioni con Comunicare è Vivere
e l'Ens per delle attività nel campo dei sottotitoli televisivi.
L'Unione Europea ha definito diversi programmi di azione nel
campo della disabilità. Il Centro di Ricerca della Commissione Europea
(CCR), sito di Ispra (VA), svolge la sua attività nei settori più
diversi di interesse dell'Unione Europea: dal campo nucleare
a quello ecologico, da quello biochimico a quello informatico, con
un particolare accento agli aspetti della sicurezza.
Nell'evoluzione dei propri compiti, il CCR ha deciso all'inizio
del 1996 di esaminare possibili estensioni nel campo della vita umana
e della disabilità, trasferendo in questo campo i risultati raggiunti
e le esperienze acquisite in altri settori.
Da tempo ero in contatto, in qualità di funzionario del CCR, ma a
titolo personale, con diverse Università e Centri di Ricerca, cercando
di individuare alcune attività in questo settore, che avrebbero meritato
un approfondimento. La direzione del CCR ne ha tenuto conto, incaricandomi
di proseguire tali iniziative, nell'ambito dei suoi progetti
di Ricerca Esploratoria.
Ho potuto così riallacciare diversi contatti, fare un quadro più aggiornato
delle ricerche in corso e definire meglio alcune attività. In seguito
all'acquisto ed alla sperimentazione di alcuni prodotti esistenti
sul mercato, le applicazioni di dettatura per la redazione di un documento,
come il presente, si sono dimostrate buone. Le prove di sottotitolazione,
aggiungendo un sottotitolo prodotto dal computer a un'immagine proveniente
da un videoregistratore, hanno dimostrano che i collegamenti sono
possibili, anche se vi sono molti punti da definire meglio. Per ciò
che riguarda la comunicazione telefonica, i problemi si sono confermati
numerosi, ma non tali da escludere la possibilità di una soluzione.
In risposta ad un bando di gara della Commissione Europea, il CCR
ha presentato una proposta per un progetto in questo campo, in collaborazione
con l'Università di Siena ed altri centri europei e con una dichiarazione
di interesse da parte dell'Alfa e di Comunicare è Vivere. Anche
se questa proposta non è stato approvata, i contatti così stabiliti
hanno consentito una migliore definizione dei ruoli per un altro progetto,
descritto nella pagina seguente.
L'obiettivo del progetto è anche quello di precisare i bisogni degli
utenti in specifiche tecniche per gli sviluppatore ed i produttori.
In effetti, le applicazioni informatiche nel campo del disabilità
sono spesso limitate dalla scarsa conoscenza delle necessità degli
utenti da un lato e delle possibilità della tecnologia dall'altro.
Il progetto va inteso nell'ambito della realizzazione di Azioni
Positive, che possano non solo portare alla risoluzione di un
problema, ma anche costituire un punto di riferimento importante per
altre applicazioni successive.
Scopo del presente articolo è presentare il progetto e stimolare la
partecipazione dei lettori di Parliamone. Nonostante l'apparenza,
solo pochi aspetti richiedono conoscenze tecniche. La maggior parte
dell'attività deve essere effettuata da utenti reali, in situazioni
d'uso quotidiano.
Oltre agli obiettivi che ci proponiamo, è da tenere presente l'importanza
di acquisire un'esperienza in questo campo, allo scopo di prevenire
applicazioni e sviluppi non desiderabili perché inutilmente complessi
o troppo lontani da alcune realtà degli utenti.
Altre ricerche parallele in corso
Stenotipia parlamentare: Il sistema Michela
ha per obiettivo di produrre il testo completo di un dibattito parlamentare,
rapidamente ma non in diretta, con l'uso di una tastiera specifica
per la stenotipia.
Reti neurali: Presso l'Università
di Scienza dell'Informazione di Milano sono svolte alcune ricerche
nel campo del riconoscimento vocale tramite reti neurali, in
grado di apprendere e riconoscere determinate caratteristiche della
voce e discriminare la voce dai rumori di fondo, siano essi locali
o aggiunti dall'utilizzo di una linea telefonica.
E' anche esaminata la possibilità d'utilizzo di tali sistemi
per il riconoscimento spot di alcune parole chiave, cioè di
determinare se una data parola è presente o meno in una frase, anche
senza riconoscere le altre parole della frase stessa.
CSELT: Centro di ricerche per le aziende del gruppo STET,
a Torino. Ha sviluppato il sistema Atena, che consente di parlare
al telefono e di visualizzare sullo schermo all'altro capo della linea
telefonica quanto è stato detto, con un vocabolario inferiore alle
200 parole ed alcuni limiti operativi.
Telecom Italia appare finalizzata al funzionamento di servizi centralizzati,
rivolti a tutti gli utenti (lettura informazioni numeriche, effettuazione
e trasferimento di chiamate interazionali con carte di credito), piuttosto
che alla diffusione del riconoscimento vocale su PC presso i singoli
utenti.
IRST: Istituto per la Ricerca Scientifica e Tecnologica, legato
all'Istituto Trentino di Cultura. Sta sviluppando un sistema
di riconoscimento vocale per il riconoscimento del parlato continuo
e due esperienze di riconoscimento attraverso la linea telefonica:
informazioni di orari delle ferrovie italiane (con un vocabolario
controllato, guidato dal sistema) e informazioni di orari di voli
aerei interni degli
Stati Uniti (vocabolario a frasi libere, guidato dall'utente, con
possibilità di effettuare una stessa richiesta in modi diversi, poiché
vengono riconosciute alcune parole chiave, trascurandone altre).
Presso l'IRST vengono inoltre svolte delle prove di localizzazione
delle fonti di emissione sonora: lo sperimentatore può muoversi in
un laboratorio e quando emette dei suoni di una certa intensità, sullo
schermo di un PC viene rappresentata la sua posizione e la traccia
del suo movimento.
Un esempio di utilizzo potrebbe essere l'individuazione del luogo
di provenienza di grida di soccorso in luoghi pubblici, con il controllo
e puntamento automatico di telecamere di telesorveglianza.
Un altro esempio potrebbe essere l'attivazione automatica del sistema
in caso di caduta per terra di un disabile su sedia a rotelle solo
in casa: il sistema lancerebbe un allarme via telefono e faciliterebbe
la comunicazione e l'eventuale riconoscimento vocale di comandi di
emergenza. Esempio di uso più frequente potrebbe essere il puntamento
automatico di una telecamera sull'oratore nel corso di una videoconferenza
senza operatore.