VOICE Project > TAP > User Requirements for Subtitling Prototype (IT)

I bisogni degli utenti audiolesi per il prototipo di sottotitolazione VOICE

< English > < Italiano >

Luglio 2000 - Angelo Paglino e Giuliano Pirelli

La metodologia
Lo schema
La scaletta delle interviste
Le risposte
Catturare il testo generato per un successivo utilizzo a fini didattici
Video-registrare l'intera conferenza sottotitolata per un utilizzo successivo
Semplicità d'uso della sottotitolazione: addestramento del parlatore
Semplicità d'uso della sottotitolazione: utilizzo da parte di più persone
Semplicità d'uso della sottotitolazione: accessori multimediali
Permanenza dei sottotitoli per un tempo sufficiente alla loro lettura
Altezza, colore, carattere dei sottotitoli
Sfondo
Lingue
Conclusioni

La metodologia

Riportiamo i risultati dell'indagine condotta allo scopo di indirizzare la programmazione del prototipo verso scelte che potessero coprire le esigenze di sottotitolazione degli utenti (sordi, sordastri e anziani).
La metodologia utilizzata prevede una serie di colloqui basati su una scaletta di argomenti da trattare liberamente: compito dell'intervistatore è trarre delle indicazioni che, raffrontate a quelle degli altri intervistatori, possano porre le basi per la macro e micro analisi da trasmettere agli analisti/programmatori che realizzano il prototipo.
Dunque è stato definito un primo livello esplorativo che permettesse di costruire una scaletta di argomenti. Ad esso ha fatto seguito una serie di colloqui basati su tale scaletta e alla fine il confronto delle informazioni raccolte e la trasmissione delle stesse per l'analisi e la programmazione.

Lo schema

I primi colloqui per la costruzione dello schema di intervista sono stati effettuati solo con persone rappresentanti le Associazioni. Gli interlocutori sono stati scelti in base ad un livello di conoscenza (o meglio di sintesi di conoscenze) che potesse rapidamente permettere la costruzione della scaletta di intervista.
Le risposte ottenute in questa fase avrebbero costituito, anche, una efficace base di confronto con le necessità che sarebbero poi state evidenziate dagli utenti intervistati.

Questa fase è stata impostata ed eseguita da Giuliano Pirelli del CCR-ISIS e da Angelo Paglino della Software House FBL.
Sono stati intervistati i responsabili di 4 associazioni, per un totale di 8 interviste, cioè 2 per ogni associazione, prima con una persona operativa, poi con il massimo livello rappresentativo, che potesse confermare le informazioni raccolte. Le associazioni interessate all'indagine sono state: Alfa, Cecoev, Afa, Ascolta e Vivi Onlus.
Oltre a permettere di precisare gli obiettivi dell'intervista, i colloqui hanno evidenziato un dato inatteso: l'alta priorità assegnata alla richiesta di archiviazione del testo, cioè dei sottotitoli durante la loro generazione, per un utilizzo didattico.

Dopo alcuni mesi, abbiamo allargato il campo delle interviste alle scuole, allo scopo di avere una opinione più neutra ed un controllo più ampio. Sono state così effettuati 8 ulteriori incontri con 4 scuole, anche in questo caso prima con alcuni insegnanti, poi con il dirigente scolastico. Le scuole interessate all'indagine sono state: la Scuola Elementare di Arona II, il Liceo Artistico di Varese, il Liceo Scientifico di Mortara e il Liceo Scientifico di Ravenna.

La scaletta delle interviste

Gli argomenti da trattare con gli intervistati sono stati riassunti nella seguente scaletta.
Ricordiamo che non si tratta di uno schema rigido, ma di un promemoria per l'intervistatore. Così alla fine dell'intervista è sempre stato possibile raccogliere informazioni utili, classificarle e generare l'input per la programmazione.

Catturare il testo generato per un successivo utilizzo a fini didattici.
Video-registrare l'intera conferenza sottotitolata per un utilizzo successivo (archivio).
Semplicità d'uso della sottotitolazione:
- addestramento del parlatore (facile e veloce);
- uso del sistema da parte di più persone, in successione, e talvolta, contemporaneamente;
- accessori multimediali (slides, video, suoni) per mantenere alta l'attenzione dell'uditorio;
Permanenza dei sottotitoli per un tempo sufficiente alla loro lettura.
Altezza, colore, carattere del sottotitoli.
Sfondo (colorato o trasparente).
Lingue.

Va notato come le caratteristiche (altezza, colore, carattere, sfondo) siano state lasciate in chiusura di conversazione, pur sembrando gli argomenti più ovvi da trattare.

Le risposte

Le interviste sono state eseguite durante le manifestazioni di presentazione del progetto Voice, per l'input iniziale, e poi durante le manifestazioni in cui il prototipo è stato utilizzato per una messa a punto del dimostratore.
È stato rilevato un maggior livello di attenzione, e quindi migliori suggerimenti, da quando si è potuto non solo "parlare" del dimostratore, ma far vedere all'utenza che cosa si riusciva a ottenere con un microfono ed un computer.

Da questa interazione regolare fra sviluppatori ed utenti finali è scaturita una serie di richieste, che via via sono state realizzate, in tempi mediamente brevi, ed immediatamente riproposte all'utenza per una validazione ulteriore.
Va ancora rilevato che la presentazione del dimostratore ha suscitato un notevole interesse sia nei potenziali utenti che nelle Associazioni.

Non è possibile indicare il numero esatto d'interviste effettuate, poiché spesse volte partecipavano al colloquio più persone. Dagli appunti degli intervistatori possiamo indicare in 283 i colloqui effettuati. Il numero è rilevante: è stato possibile raccogliere tante informazioni e giudizi in quanto ognuna delle quasi 100 manifestazioni (conferenze, seminari, incontri con le classi) è stata preceduta e seguita da una o più sessioni d'indagine.
Per ogni colloquio ogni intervistatore ha tenuto un suo brogliaccio, nel modo che gli riusciva più facile.

I risultati delle interviste sono stati oggetto di confronto durante 8 sessioni svolte a Ispra.
Le prime due (20 Febbraio 1998 incontro con le associazioni, presenti anche alcune scuole, ad Ispra, e 19 Aprile 1998 presso l'Associazione AFA di Cantù) sono servite a stendere la scaletta e a fornire i primi elementi alla programmazione.
Le successive due (9 maggio ad Ispra e 28 maggio 1998 durante il seminario Accamatica a Crema) sono state utilizzate per definire l'analisi del dimostratore.
Quattro incontri (2 e 3 settembre 1998 a Vienna con le Associazioni Austriache, 26 Novembre 1998 a Bologna durante il convegno Handimatica, 15-17 marzo 1999 presso la ASL di Pavia e 5-6 novembre 1999 con RAI e le televisioni europee a Bologna) per la verifica delle osservazioni sul dimostratore.

Va subito detto che nelle 8 sessioni di controllo non sono emersi particolari suggerimenti, ma soprattutto è stata confermata l'accettazione del prototipo stesso e delle scelte di programmazione. Sono inoltre state segnalate delle necessità specifiche difficilmente prevedibili, perchè corrispondenti a casi molto particolari: per es. contrasto molto accentuato e caratteri molto grandi per ipovedenti e tecniche specifiche per l'addestramento dei non vedenti.

Si è dovuto, ad un certo punto, privilegiare gli incontri con gli insegnanti e con i medici rispetto ai sordi, poiché questi ultimi si dimostravano particolarmente affascinati dalla novità della sottotitolatura in diretta e di conseguenza poco propensi a effettuare analisi critiche.

Catturare il testo generato per un successivo utilizzo a fini didattici

Abbiamo già osservato che la richiesta ci ha colti un poco di sorpresa, non tanto per la richiesta in se stessa, quanto per l'alta priorità assegnatale.
Il poter disporre del testo della conferenza, ma soprattutto della lezione tenuta in classe, al termine della lezione stessa, è stato indicato come uno strumento di grande aiuto allo studio, capace di colmare le lacune di attenzione degli allievi (sordi e non).

Dal nostro punto di vista (tecnico), il disporre su supporto magnetico (file di testo) della lezione permette un più rapido e preciso addestramento del parlatore, potendo far esaminare al motore di riconoscimento un linguaggio, cioè le espressioni (forma e contenuti) di una certa materia di studio.
Il testo viene archiviato seguendo le pause del parlatore e questo ci ha permesso durante l'istruzione dei parlatori di analizzare con loro le pause, cioè verificare se e come le frasi hanno senso compiuto, e fornire uno strumento didattico per migliorare l'addestramento degli insegnanti.
Durante il periodo di controllo, quest'ultimo aspetto è stato messo quasi sempre in evidenza dagli insegnanti, anche in assenza di una precisa stimolazione.

Ancora: essendo il testo in formato elettronico, è facile la correzione di eventuali errori e la formattazione del testo stesso prima di produrre una stampa. L'archiviazione del solo testo non comporta problemi di spazio sul computer, mentre la conservazione di file vocali impegna notevoli risorse disco.

Video-registrare l'intera conferenza sottotitolata per un utilizzo successivo (archivio)

Poter disporre di una video-cassetta sottotitolata è sembrata una richiesta abbastanza "normale", poiché spesso le conferenze (e talvolta le lezioni) vengono filmate e successivamente sottotitolate.

L'attenzione si è posata sulle possibilità di errore del riconoscitore: durante le sessioni di controllo si è potuto verificare come l'evoluzione del motore di riconoscimento abbia di fatto diminuito notevolmente questa preoccupazione, anche se permangono alcuni errori.
La correzione degli errori sulla video-cassetta è possibile solo con tecniche piuttosto sofisticate e costose.
Viene comunque accettato un livello minimo di errore, purché questo non vada ad inficiare il senso del discorso.

Una richiesta particolare è stata la seguente: aggiungere al file di testo un "time code" che permetta, una volta corretti gli eventuali errori, tramite un programma da sviluppare ad hoc, la creazione di un video sottotitolato partendo da due input: la video-cassetta ed il file di testo (corretto!).

Semplicità d'uso della sottotitolazione: addestramento del parlatore (facile e veloce)

Il motore di riconoscimento utilizzato nel dimostratore ha un suo meccanismo per acquisire informazioni sulla voce del parlatore e, essendo Voice Dependent, per ottimizzarne la comprensione.
I 30 minuti iniziali, richiesti una tantum per l'addestramento, sono stati considerati un tempo ragionevole ed accettati da tutti gli utenti abituali. Il miglioramento del motore e la riduzione del tempo di addestramento a 10-12 minuti ha migliorato il grado di accettazione anche da parte dell'utente occasionale.

Più complesso, ma molto ben accettato e con un grado di soddisfazione sempre superiore, si è dimostrato l'addestramento alla gestione delle pause: la quasi totalità delle persone addestrate ha convenuto che il sistema, imponendo dei ritmi (dovuti alla necessità di leggere i sottotitoli) e delle regole di pronuncia (per migliorare il riconoscimento) induce un miglioramento nel modo di esprimersi. Questa osservazione viene fatta soprattutto da parte degli insegnanti.
Il risultato complessivo è nettamente migliore se l'insegnante rispetta, nella preparazione del testo della lezione, alcune semplici regole:

individua le pause, spezzando il testo in frasi di significato compiuto,
fa esaminare il testo dal compilatore di vocabolario, una funzione che individua i lemmi non inclusi nel vocabolario e propone il loro inserimento, ma anche esamina il contesto rendendo più riconoscibile la frase.

Non sarà necessario utilizzare, durante la lezione, le stesse frasi che sono state preparate, ma sarà importante utilizzare lo stesso stile (parole e contesto).

Semplicità d'uso della sottotitolazione: utilizzo da parte di più persone, in successione, e talvolta, contemporaneamente

La richiesta di contemporaneità nasce dalle sale di conferenza: durante un dibattito sarebbe bello poter sottotitolare tutti gli interventi, anche contemporanei.
Nessun problema per interventi in successione, tipico dell'aula scolastica, poiché, fin dalla prima stesura del dimostratore, è stata prevista la possibilità di avere sullo stesso personal computer più profili utenti, attivabili uno alla volta.
Anche gli ultimi, e più aggiornati, motori di ricerca hanno tempi di caricamento di un profilo vocale non conciliabili con l'esigenza di un dibattito; resta, come alternativa tecnicamente molto valida, ma economicamente pesante, la possibilità di attribuire ad ogni parlatore l'uso di un personal computer, sul quale risieda il suo profilo vocale.

Semplicità d'uso della sottotitolazione: accessori multimediali (slides, video, suoni) per mantenere alta l'attenzione dell'uditorio

L'idea di introdurre ausili multimediali durante la sottotitolazione di una lezione non è partita dall'utenza, ma dalla programmazione.
Una lezione ha sempre dei momenti di caduta dell'attenzione; una lezione sottotitolata, in cui certi ritmi (accelerazioni della voce e rarefazione delle pause) sono da evitare, può risultare noiosa. Il poter lanciare, con un comando vocale, una immagine o un filmato (oppure un suono) serve a sollevare l'attenzione degli ascoltatori. Non solo, rende la lezione più "moderna" e stimola l'insegnate a catturare informazioni in quell'enorme serbatoio che è Internet.
Perciò questi aspetti non trovano riscontro nelle richieste iniziali, ma sono stati molto apprezzati specialmente dagli insegnati. L'accettazione di queste tecniche ha avuto riscontri sempre crescenti nelle sessioni di verifica.

Permanenza dei sottotitoli per un tempo sufficiente alla loro lettura

Il problema è stato evidenziato dagli utenti, che spesso non riescono a leggere i sottotitoli perché la loro permanenza sullo schermo è troppo breve.
Determinare il tempo di permanenza ottimale è un problema che non abbiamo potuto risolvere essendo funzione delle capacità di ogni singolo individuo e della sua padronanza della lingua orale (sordo oralista, sordo segnate, straniero udente, anziano). Una indicazione frequentemente accettata, e sperimentata con il dr Ioghà, neuropsichiatra infantile della ASL di Pavia, è di 30 caratteri per secondo (cps). Il sordo cioè legge 30 caratteri ogni secondo e, di conseguenza, un sottotitolo per esempio di 90 caratteri dovrà restare almeno 3 secondi sullo schermo.

Le vie per raggiungere il risultato sono due, ed entrambe sono state messe in atto.

Addestrare il parlatore: abbiamo avuto risposte mediamente buone, talvolta ottime, qualche volta scarse. Gli insegnanti hanno comunque sempre ammesso che questo addestramento ha migliorato la loro capacità di esposizione in aula.
Introdurre un meccanismo, software, che, contando i caratteri, assicuri un tempo minimo di permanenza. L'obiettivo è quello di educare il parlatore, poiché questo meccanismo, dilazionando l'uscita del sottotitolo rispetto al momento in cui viene pronunciato, provoca uno sfasamento evidente fra la lettura labiale e la lettura del sottotitolo, imponendo al parlatore un ritmo adeguato al tempo di lettura della tipologia dell'utente.

Data l'impossibilità di determinare un valore medio ottimale, il programmatore ha scelto di mettere a disposizione del parlatore una "regolazione" che prevede valori da 1 a 50 cps.

Altezza, colore, carattere dei sottotitoli

Esistono degli standard televisivi, ma sono legati, non solo in Italia, all'uso del televideo per sottotitolare le trasmissioni. È la trasmissione ancora analogica che richiede l'uso della sottotitolazione tramite televideo, mentre la trasmissione digitale amplierà le possibilità offerte alle reti televisive di andare incontro ai fabbisogni dell'utenza.

Lo standard oggi adottato è di 35 caratteri per riga e una o due righe.
Perciò parlare di scelte in questo caso è difficile, perché tutti oggi pensano che la soluzione televisiva sia di fatto l'unica praticabile.

La differenza di colore che contraddistingue i dialoghi è utilizzata solo nelle sottotitolature di film per la televisione e non nei telegiornali.
Il programmatore ha introdotto le tabelle dei caratteri e dei colori di MSWindows, offrendo così la più ampia scelta di font + dimensione + colore.
La soluzione adottata ha raccolto l'unanime consenso degli utenti.

Di un argomento si è discusso in particolare: l'uso del maiuscolo o del minuscolo nei sottotitoli. Gli utenti sono equamente divisi sulla scelta da adottare, con una leggera prevalenza per il TUTTO MAIUSCOLO che sembra più leggibile e non crea problemi con i nomi propri.

Abbiamo affrontato i problemi:

presentazione del testo su una sola riga: il testo scorre, in orizzontale;
presentazione del testo su due righe;
composizione del testo sempre sull'ultima riga e scorrimento delle righe verso l'alto;
numero massimo di righe.

Ma non siamo riusciti ad avere indicazioni, se non generiche, del tipo "la riga che scorre verso l'alto provoca un effetto mal di mare", "la lettura del testo che scorre è troppo stancante ","tre righe sono troppe, ma non so dire perché".
Pertanto, ancora una volta, si è preferito accrescere i campi offerti nelle "opzioni" del prototipo, in modo da lasciare scelte più ampie all'utente finale.

Sono stati monitorati anche gli aspetti ambientali: l'insegnante o l'oratore parlano rivolti verso la classe o il pubblico, una telecamera li riprende fornendo spesso immagini in primo piano che consentono la lettura labiale.

L'ambiente ottimale è stato descritto nel seguente modo:

posizionamento, alle spalle dell'oratore, di uno schermo sul quale proiettare l'immagine generata dal personal computer (immagine della telecamera e sottotitoli);
un monitor di fronte all'oratore, che può così controllare la ripresa e la generazione del sottotitolo (esattezza e tempo d'uscita, correggendosi o rallentando se necessario).

Sono da tenere sotto controllo, a scuola, le luci: la classe deve lavorare in un ambiente luminoso, perciò il proiettore deve avere una sufficiente potenza (700 lumen).
Non è gradita la soluzione, da qualcuno suggerita per un problema di costi, di installare un monitor di fronte al ragazzo sordo (rinunciando al video proiettore): sarà solo a vedere i sottotitoli e non farà più parte del gruppo-classe.
L'insegnante o l'oratore dovranno ripetere le domande che gli allievi o il pubblico pone loro: solo in questo modo l'informazione può giungere al sordo.

Sfondo

"Colorato o trasparente questo è il dilemma" potremmo recitare con il poeta.
Il trasparente piace di più perché non altera l'immagine, ma talvolta rende il sottotitolo difficilmente leggibile per mancanza di contrasto con l'immagine che varia sullo sfondo.
Una fascia colorata permette di selezionare un carattere con un colore che contrasti con la fascia stessa, dunque il sottotitolo è sempre visibile, ma taglia la parte bassa dell'immagine.
Gli utenti hanno quasi unanimemente convenuto che è preferibile la fascia per le conferenze e per le lezioni, mentre la trasparenza è considerata migliore per i film. Anche in questo caso il programmatore ha preferito offrire un'ampia scelta nelle opzioni a disposizione dell'utente, per consentirgli di far fronte a diverse situazioni specifiche.

Lingue

Il criterio utilizzato per la scelta dell'utente è lo stesso applicato per la selezione della lingua descritto precedentemente.

Occorre aver installato il motore di riconoscimento in tutte le lingue in cui si intende sottotitolare: il dimostratore è stato testato in cinque lingue: Italiano, Inglese, Francese, Tedesco e Spagnolo. È possibile aggiungere altre lingue a condizione che esista la versione del motore di riconoscimento.

In alcuni casi, Scuole Medie Superiori, è stato adottato il prodotto in più lingue per far fronte all'esigenza di insegnamento di una lingua straniera.
Gli insegnanti dei corsi di accesso alla lingua italiana per stranieri intervistati hanno ammesso di non aver ancora sviluppato una sufficiente esperienza per poter formulare un giudizio attendibile.

Conclusioni

Il livello globale di accettazione del dimostratore si è dimostrato molto buono.

Come si è indicato precedentemente, gli utenti delle Associazioni di audiolesi lo hanno considerato pienamente corrispondente alle loro esigenze.

Pareri contrastanti sono stati rilevati solo all'interno di gruppi di insegnanti: alcuni, la maggior parte, ha accettato di utilizzare il sistema di sottotitolatura pur sapendo che, almeno inizialmente, avrebbe provocato loro un maggior carico di lavoro, dovendo preparare lezioni improntate alla multimedialità, effettuare prove e ricercare i ritmi più adatti alla gestione delle pause. Altro carico di lavoro deriva dalla preparazione delle immagini e dei filmati da utilizzare durante la lezione.
Questi insegnanti hanno valutato che l'inserimento del disabile nel gruppo-classe e le informazioni (testi e immagini registrate) che il sistema fornisce giustificassero la maggior mole di lavoro.
Altri insegnanti hanno reputato troppo oneroso il carico aggiuntivo di lavoro ed hanno rinunciato al suo utilizzo.