GNOSIS
Rivista italiana
diintelligence
Agenzia Informazioni
e Sicurezza Interna
» ABBONAMENTI

» CONTATTI

» DIREZIONE

» AISI





» INDICE AUTORI

Italiano Tutte le lingue Cerca i titoli o i testi con
GNOSIS 2/2006
Fra dati abbondanti ed informazioni scarse

Dall'analisi di lingue e parole
nuove chiavi per la sicurezza


Andrea MELEGARI

IN-Q-TEL (www.inqtel.com) è un fondo di investimento finanziato dalla CIA, operativo dal 1999, che ha come missione “investire e incoraggiare la produzione e la ricerca delle tecnologie più innovative e promettenti”, a supporto dell’attività dell’US Intelligence Community. Nella consapevolezza che “al ritmo forsennato con cui avanza l'innovazione, è difficile per un ente pubblico reggere il passo con le ultime novità nelle tecnologie informatiche", la CIA ha affidato a IN-Q-TEL il compito di identificare e selezionare rapidamente nuovi strumenti a salvaguardia della sicurezza nazionale, finanziando i progetti industriali più interessanti. Il portfolio di partecipazioni azionarie di IN-Q-TEL vanta attualmente una cinquantina di imprese, tra le quali figurano aziende che sviluppano tecnologie TAL. Con il termine TAL (Trattamento Automatico della Lingua), si definiscono le discipline che trattano di modelli, metodi, tecnologie, sistemi e applicazioni concernenti l’elaborazione automatica della lingua, sia scritta sia parlata. Il TAL comprende dunque sia lo “Speech Processing” (SP), o elaborazione del parlato, sia il “Natural Language Processing” (NLP), o elaborazione del testo. Le tecnologie impiegate per il parlato sono tese ad elaborare la parola per la codifica del segnale vocale e la sintesi del testo, tramite macchine in grado di leggere, e per il riconoscimento del parlato, tramite macchine capaci di scrivere. Per lo scritto, l’elaborazione automatica del testo mira a riprodurre la capacità umana di comprendere la lingua, attraverso analizzatori sintattici e semantici, basati per lo più su algoritmi o moduli statistici oppure modelli di rappresentazione della conoscenza e metodologie di apprendimento automatico.


da www.serfin.biz


Le tecnologie di trattamento
automatico del testo


Il trattamento automatico del testo può riguardare sia la generazione (sintesi) sia la comprensione (analisi) del testo. Fra le applicazioni attinenti alla generazione di testi, per esempio, si possono citare le traduzioni, la creazione di sommari per libri, articoli, ecc.
Quando si parla di “comprensione”, invece, s’intende l’individuazione dei contenuti di un testo da un punto di vista concettuale; in questo caso, le applicazioni più significative possono spaziare dai correttori (lessicali, grammaticali, sintattici, stilistici) usati quotidianamente da milioni di persone, alle interfacce in linguaggio naturale (da NLP, Natural Language Processing, cioè sistemi capaci di elaborare il tipo di linguaggio che due interlocutori “umani” usano normalmente per comunicare), agli applicativi per attività di ricerca, classificazione automatica, estrazione e selezione di informazioni da documenti.
Esistono diversi metodi di elaborazione, ciascuno caratterizzato da un livello differente di analisi e interpretazione.


Tre livelli diversi di elaborazione
testuale


Nell'elaborazione full-text il testo viene esaminato in base alle parole-chiave (keyword), dove una parola-chiave è una stringa di caratteri, lettere e/o numeri, separata dalle altre stringhe del testo mediante separatori come lo spazio e la punteggiatura. Con questo sistema non viene tentata alcuna interpretazione del testo: le parole-chiave vengono considerate letteralmente, cioè non per quello che esprimono ma per la forma grafica che hanno.
Nell'elaborazione a livello lessicale il testo viene sottoposto ad analisi grammaticale. Ogni elemento della frase, anche composto da più parole, viene ricondotto ad un lemma del lessico della lingua di riferimento: le forme flesse dei verbi sono ricondotte all'infinito del verbo stesso, i plurali dei nomi e degli aggettivi al singolare e così via.
Sono quindi analizzati i lemmi, vale a dire le "voci del dizionario" espresse nel testo. Ad esempio, nella frase “La nave è entrata nel porto” viene elaborato il lemma “porto” (sostantivo), mentre nella frase “Oggi porto l'auto in officina” viene analizzato il lemma “portare” (verbo).
Nell'elaborazione a livello semantico il testo viene sottoposto ad un'analisi linguistica tale da determinare il significato più probabile che ogni termine esprime nel contesto. Quando un lemma è ambiguo, e cioè può avere più significati (ad esempio si consideri il lemma “pesca”, che può essere inteso come “attività di cattura dei pesci” o come “frutto dell’albero di pesco”), si avvia il processo di “disambiguazione”, grazie al quale si sceglie il significato più probabile tra tutti quelli possibili.
Tale processo si avvale di altre informazioni presenti nel sistema di analisi semantica e tiene conto dei significati, accertati o presunti fino a quell'istante, degli altri lemmi rilevati nella frase e nel resto del testo. La determinazione di ogni significato, in sostanza, influisce sulla disambiguazione degli altri, fino a raggiungere una situazione di massima plausibilità e coerenza a livello di frase, periodo e intero documento.
Tutte le informazioni fondamentali per il processo di disambiguazione, cioè l’intera conoscenza impiegata dal sistema, è rappresentata in forma di rete semantica, un database lessicale organizzato su base concettuale in cui le parole non sono sistemate in ordine alfabetico (come in un classico dizionario), ma in gruppi di sinonimi, cioè di parole uguali o “vicine” per il significato (o concetto) che esprimono. In una struttura di questo tipo ogni concetto lessicale coincide con un nodo della rete semantica ed è collegato agli altri da precise relazioni semantiche in una struttura gerarchica ad ereditarietà, cosicché ognuno si arricchisce delle caratteristiche e del significato dei nodi vicini. Tra le relazioni che legano tra loro, in una molteplicità di rapporti, i nodi-significato, si possono citare le seguenti:
- la relazione “generico – specifico” tra sostantivi, definita iperonimia (ad es., cane - cane da caccia - irish terrier);
- la relazione “specifico – generico” tra sostantivi, definita iponimia (ad es., pecora - mammifero);
- la relazione “generico – specifico” tra verbi (ad es., camminare - zoppicare);
- la relazione “tutto – parte” tra sostantivi (ad es., braccio - mano - dito indice);
- la relazione “predicato verbale - complemento oggetto” tra verbi
e sostantivi (ad es., guidare - automobile).
Il risultato finale è un grafo caratterizzato da centinaia di migliaia di nodi e milioni di relazioni.



Come funziona l’analisi semantica

Per comprendere in modo approfondito il processo di analisi semantica, consideriamo queste frasi:
- “Ho preso un espresso”
- “Presi un espresso al bar della sta-
zione”
- “Prendevamo l’espresso per Napoli”
- “Ho preso un espresso al bar della stazione perché ho perso l’espresso per Napoli”

I dati estratti ed analizzati, in ciascuna di queste frasi, variano secondo l’approccio di elaborazione testuale usato.
Con l’elaborazione full-text sono semplicemente messe in evidenza le keyword che compongono il testo: quindi, per la frase “Ho preso un espresso” vengono analizzate le parole “ho”, “preso”, “un”, “espresso”, per la frase “Presi un espresso al bar della stazione” le parole “presi”, “un”, “espresso”, “al”, “bar”, “della”, “stazione” e così via.
L’elaborazione lessicale, prendendo in esame i lemmi, consente un’analisi più dettagliata: nella frase “Ho preso un espresso” individua e analizza il verbo “prendere” e il sostantivo “espresso”; nella frase “Presi un espresso al bar della stazione” il verbo “prendere”, i sostantivi “espresso”, “bar” e “stazione”; nella frase “Ho preso un espresso al bar della stazione perché ho perso l’espresso per Napoli” i verbi “prendere” e “perdere”, il sostantivo “espresso” con due occorrenze (cioè ripetuto due volte) e i sostantivi “bar”, “stazione” e “Napoli”.
Si può notare come, nell'analisi lessicale, le forme flesse “ho preso”, “presi” e “prendevamo” siano ricondotte al lemma “prendere”. Cercando il lemma “prendere” si troveranno così tutti i documenti, mentre un'analoga ricerca effettuata per keyword sarebbe di fatto impraticabile per la complessità dell’espressione di ricerca che dovrebbe prevedere tutte le possibili forme flesse del verbo (es. “prendo”, “prenderemo”, “prendeste”, “preso”, ecc. )
Cercando il lemma “espresso” si troveranno, però, tutti i documenti contenenti questo termine nelle sue varie accezioni perché la ricerca per lemma non tiene conto del significato, ma solo dell'unità di lessico, che è la medesima in tutti i casi.
L’elaborazione semantica è il tipo di analisi più evoluta, perché mira invece a comprendere il corretto significato di ogni parola del testo, “disambiguando” tra i vari concetti possibili.
Sempre considerando le quattro frasi citate ad esempio, l’analisi semantica nella frase “Presi un espresso al bar della stazione” riconosce che sono presenti i concetti di “prendere” nel senso di “mangiare o prendere qualcosa”, “espresso” nel senso di “caffè preparato al momento”, “bar” nel senso di “locale pubblico” e “stazione” nel senso di “luogo per arrivi e partenze di treni”.
Soffermandosi sui due concetti di “espresso” presenti nella frase “Ho preso un espresso al bar della stazione perché ho perso l’espresso per Napoli”, l’analisi semantica riconosce la differenza concettuale: nel primo caso assegna il significato di “caffè preparato al momento” (quello preso al bar della stazione) e nel secondo caso “treno a lunga percorrenza” (quello perso per Napoli). Ciò è possibile grazie alla rete semantica, che contiene le possibili accezioni del lemma “espresso”, e perché si tiene traccia dei significati individuati per gli altri termini della frase.


Dal punto di vista del significato, la frase “Ho preso un espresso” è la più ambigua perché nulla aiuta a capire il significato del verbo “prendere” (alcuni dei significati sono, ad es., “ricevere, ottenere qualcosa”, “afferrare”, “comperare”, “acquistare”, “mangiare o bere qualcosa”, “imboccare una strada”, “utilizzare un mezzo di trasporto” ecc.) né quello del sostantivo “espresso” (che può indicare “treno a lunga percorrenza”, “caffè preparato al momento”, “lettera raccomandata” ecc.) tra tutti quelli possibili.
In questo frangente il sistema potrà procederà “all’analisi dell’intorno” per ritrovare elementi utili alla miglior interpretazione o per assegnare ai termini dubbi il significato più frequente nell’ambito di informazioni che si stanno trattando.


Il supporto all’attività di intelligence

La quantità, l’eterogeneità di taglio e di formato delle informazioni (l’80% delle quali non strutturate, cioè non organizzate in database, in schemi precisi e, dunque, difficilmente esaminabili con sistemi automatici), rende l’elaborazione e l’analisi delle informazioni attività complesse ed onerose.
Il settore dell’intelligence, intesa sia come insieme di organizzazioni, risorse, sistemi e tecnologie per la tutela della sicurezza del paese (homeland security) sia come attività sistematica a supporto delle strategie aziendali (marketing/competitive intelligence), può trarre grandi vantaggi dall’uso delle tecnologie linguistiche. Con l’inarrestabile affermarsi di Internet e delle tecnologie di distribuzione di massa dei contenuti, tutti in formato digitale (o facilmente digitalizzabili), la quantità di informazioni disponibili è letteralmente esplosa e sembra non esserci limite alla proliferazione dei dati potenzialmente interessanti. È insensato pensare di riequilibrare il rapporto tra abbondanza di dati e povertà di informazioni effettivamente utili, se consideriamo anche l’alta percentuale di “rumore di fondo”, contando unicamente sulle capacità manuali. Ragionevole è invece pensare di supportare gli analisti con strumenti TAL in grado di compiere elaborazioni veloci, automatiche. Queste tecnologie ottimizzano le fasi di individuazione, ricerca e selezione di elementi strategici, riducendo sensibilmente la complessità delle operazioni; i dati elaborati richiedono poi necessariamente e in ogni caso l’attività umana di valorizzazione e valutazione, che, perlomeno nel medio termine, rimane insostituibile.
Nei paragrafi successivi sono descritte alcune delle possibili applicazioni delle tecnologie di analisi del testo (ricerca semantica, classificazione, information mining, studio della scrittura) e del parlato (sintesi e codifica del segnale vocale, riconoscimento del parlato, identificazione e verifica del parlante) che, proprio per l’orizzontalità e la scalabilità da cui sono caratterizzate, possono essere impiegate per molteplici scopi.


Ricerca semantica

Il criterio di valutazione dell’efficacia di un motore di ricerca di informazioni è la qualità del rapporto segnale/rumore della risposta, intendendo per “segnale” le informazioni che si vogliono reperire e per “rumore” tutto ciò che viene comunque incluso ma che non è realmente attinente. Effettuando un’interrogazione all’interno di un vasto archivio di testi, non tutto il segnale presente verrà estratto, e alcune informazioni non appropriate saranno invece incluse. L’obiettivo di ogni sistema di ricerca è quindi ottimizzare il rapporto segnale/rumore.
Le principali cause della perdita di segnale sono la declinazione o coniugazione dei termini, la presenza di sinonimi, l’uso di altri modi per esprimere il medesimo concetto. Mentre per la creazione del rumore i problemi principali sono le diverse accezioni che un lemma può avere e, dunque, la presenza nei contenuti delle parole impostate nella ricerca, senza che però esse esprimano l’informazione di cui si ha bisogno.
Nel caso si intenda cercare con un comune motore di ricerca notizie sull’approvazione di una legge da parte del governo e si esprima questa richiesta con la frase “governo approva legge”, nella risposta verrebbero inclusi anche i documenti che contengono sì le parole indicate, ma con altro significato. Ad esempio: “il governo di una nave da crociera richiede la presenza di un capitano di lungo corso che approva la rotta e legge tutte le comunicazioni telegrafate dalle autorità”; in questo unico periodo sono presenti tutte le parole dell’interrogazione, ma evidentemente il documento non tratta di approvazione di leggi dello stato da parte del governo. La probabilità che si cada in questo “equivoco” ricercando per keyword o con tecniche statistiche è altissima.
Andando, invece, oltre la “forma” della keyword (sequenza di caratteri) e arrivando al “contenuto” (entità concettuale), si ottengono risultati più soddisfacenti in termini di recall (capacità di trovare più informazioni possibile attinenti a ciò che si sta cercando), precision (capacità di individuare con maggiore precisione le informazioni utili) e ranking (capacità di ordinare i risultati nel modo più corretto: all'inizio i documenti più rilevanti e alla fine quelli meno interessanti perché più "lontani" da quanto cercato).
I motori di ricerca oggi più diffusi evidenziano a questo proposito limiti notevoli, facilmente riscontrabili con un semplice esempio. Provando a cercare con Google il termine “macchina” il motore restituisce ben oltre quattro milioni di risultati. Apparentemente sembra un risultato positivo: quattro milioni di documenti inerenti la ricerca sono davvero tanti, a parte il tempo che si impiegherà anche solo per selezionarne alcuni. Il termine “macchina” può essere, tuttavia, inteso come “veicolo a motore”, “macchina da presa”, “congegno meccanico”, “macchina da cucire”, ecc.
Se è intenzione dell’utente trovare solo le informazioni relative a “macchina” nel senso di “autovettura”, inevitabilmente non ci riuscirà: verrà infatti sommerso da una quantità esagerata di inutile rumore… (su quattro milioni di risultati quanti parleranno solo di automobili e non di altri tipi di macchine?). L’utente ottiene quindi scarsa precision, rispetto alla volontà di individuare solo informazioni relative ad automobili.
Parimenti, anche il grado di recall non è in grado di soddisfare le esigenze dell’intelligence.
Molti documenti, infatti, non verranno selezionati pur contenendo informazioni rilevanti per la ricerca come “auto, vettura, cabriolet, jeep”, ecc..
I motori di ricerca basati su logica semantica consentono, al contrario, di migliorare recall e precision.
Una ricerca semantica impostata sul parametro concettuale “macchina” (intesa come automobile) non solo restituirà i documenti che contengono i sinonimi (vettura, auto, ecc.) e gli iponimi (maggiolone, taxi, due volumi, Fiat, ecc.), ma escluderà i dati per cui si riscontra rumore, ovvero tutti i contenuti in cui sono presenti concetti diversi (macchina del caffè, macchina da presa, ecc.).
Un’interessante opportunità offerta dalla tecnologia semantica è la “ricerca di circostanze”, ovvero la selezione di informazioni sulla base di determinati concetti legati ai vari elementi della frase (soggetto, verbo, complementi).
Per esempio, determinando la funzione logica degli elementi delle frasi e identificando ogni gruppo "soggetto-verbo-oggetto", è possibile ricostruire uno schema in grado di rappresentare con buona approssimazione l’esistenza di un “problema” (verbo+oggetto) per il quale esiste una “soluzione” (soggetto).
In pratica, quindi, quando si stanno cercando circostanze precise, ovvero quando si cercano soluzioni per problemi ben determinati, è possibile basare le ricerche su questi tre elementi. Ad esempio, fra i risultati ottenuti in risposta per una ricerca impostata sulla frase “malvivente (soggetto/soluzione) rapina esercizio commerciale (verbo+oggetto/problema)”, potrà comparire una frase come “Il testimone ha dichiarato di aver visto un delinquente (sogget-to/soluzione) che stava rapinando una tabaccheria (verbo+oggetto/problema)”, ma non una frase tipo “Il titolare del negozio a fianco del tabaccaio rapinato ha detto di non conoscere il criminale arrestato ieri”.
In entrambe le proposizioni sono presenti i medesimi concetti (delinquente, criminale; rapinando, rapinato; tabaccheria, negozio), ma solo nella prima frase essi ricoprono la funzione logica richiesta.


Classificazione

Le tecnologie semantiche rappresentano un valido supporto per categorizzare informazioni, sia quelle già presenti in banche dati, archivi, schedari, database storici, ecc. sia quelle provenienti da altre fonti (documenti word, e-mail, pdf, pagine web, flussi di news in tempo reale, ecc.). Partendo dall’analisi dei testi non strutturati e combinando regole oggettive (come quelle legate all’analisi linguistica e all’individuazione di domini - o argomenti - validi a prescindere da attività e scenari applicativi), con criteri soggettivi messi a punto per soddisfare specifiche esigenze, si possono classificare in modo automatico o semiautomatico grandi volumi di documenti.
Come esempio di funzionamento si consideri questa frase: “Nella notte si è registrato un atto terroristico ai danni della sede della compagnia aerea XY, nell’esplosione sono state danneggiate più di 20 auto.”
Da un punto di vista oggettivo si può classificare il testo in diverse categorie, quali “atti vandalici”, “atti terroristici”, “compagnie aeree”, “danni beni materiali” ecc. Il sistema non si limita, tuttavia, a criteri oggettivi di categorizzazione, ma tiene in considerazione le regole soggettive impartite inizialmente. Secondo i diversi punti di vista, privilegerà determinate categorie piuttosto che altre: ad es., nell’interesse degli organi di polizia segnalerà il testo nella categoria “atti terroristici” o “atti vandalici”, mentre per una compagnia assicurativa assegnerà il testo alla categoria “danni beni materiali”.
In ambito applicativo, sono già numerose le realtà produttive che utilizzano soluzioni per la classificazione automatica dei dati. Si pensi ad esempio alle case editrici, ai giornali, alle agenzia di stampa che, sulla base di una propria tassonomia (logica di classificazione strutturata ad albero) hanno automatizzato con grande efficacia ed efficienza il processo di categorizzazione.
La classificazione automatica risulta estremamente efficace anche per “pre-selezionare” enormi quantità di contenuti su cui svolgere in un secondo tempo analisi più dettagliate. Si pensi in particolare all’ambito investigativo e all’esigenza, tipica soprattutto nelle complesse indagini di polizia, di analizzare nel modo più rapido e corretto possibile una gran quantità di dati diversi (file, messaggi di posta elettronica, pagine on line di siti, blog, forum, ecc.). In questi casi, il fine che si persegue non è selezionare a priori certi tipi di informazione, ma piuttosto individuare una traccia da seguire, un percorso verso il quale indirizzare analisi manuali più approfondite.
Esistono già applicazioni TAL per la pre-selezione di tutti i contenuti potenzialmente rilevanti presenti chissà dove nel patrimonio documentale di cui si dispone. Dopo un’approfondita analisi linguistico-semantica, tali tecnologie ordinano in una mappa concettuale i dati prima identificati e poi classificati per argomento. A questo punto, l’investigatore ha di fronte un chiaro e sintetico quadro di aggregazione fra i diversi argomenti emersi nella fase di pre-selezione automatica; può dunque decidere in modo più consapevole verso quale direzione concentrare la propria attenzione, ora navigando fra gli elementi più interessanti ora aprendo un certo documento per leggerlo interamente, ecc.


Information mining

La trasformazione dei dati dalla forma non strutturata alla forma strutturata è da sempre un’attività molto complessa: oltre alla selezione, infatti, è necessario procedere a una serie di altre operazioni complementari che, semplificando, potremmo definire come “attività preposte alla trasformazione e al caricamento delle informazioni”.
È indubbio che allo stato attuale dello sviluppo tecnologico, anche in questo contesto, non è plausibile ipotizzare soluzioni in grado di supplire totalmente all’attività dell’analista. Esistono, però, soluzioni in grado di fornire un reale contributo alle attività di selezione, trasformazione e strutturazione delle informazioni. Quelle basate sull’approccio linguistico consentono di scavare in profondità nei dati (per questo si parla di “Information mining”, dal verbo inglese to mine, “scavare”), per individuare ed estrarre le informazioni di interesse e individuare eventuali relazioni fra esse.
Consideriamo queste frasi:
- “Mario Rossi è stato arrestato a Milano per l’omicidio di Franco Neri appartenente al clan dei Marsigliesi.”
- “Rossi è stato fermato ad un posto di blocco in piazza Giuseppe Garibaldi mentre guidava una Punto; era in possesso di una P38.”



Le tecnologie TAL sono in grado di estrarre dai testi: nomi propri (di persona, Mario Rossi, Franco Neri; di luogo, Milano, Milano Piazza Giuseppe Garibaldi); entità particolari come “armi” (P38), “organizzazioni malavitose” (Marsigliesi), “tipi di auto” (Fiat Punto), “tipi di reati” (omicidio). Inoltre, possono essere identificate anche relazioni significative come, ad es., la relazione “persone – organizzazioni”: Franco Neri – Marsigliesi; la relazione “persone – reato”: Mario Rossi – omicidio; la relazione “persone – luogo”: Mario Rossi – Milano; la relazione “persone – auto”: Mario Rossi – Fiat Punto; e così via.


Studio della scrittura

Con l’analisi linguistica è possibile individuare facilmente le caratteristiche che contraddistinguono un documento rispetto ad altri. Stile, impiego ripetuto di determinate parole o espressioni, predilezione per determinate strutture logico-sintattiche o anche per certi font e tipi di formattazione, infatti, possono rappresentare una sorta di “impronta digitale” da cui dedurre la paternità di un testo.
L’analisi approfondita della scrittura, inoltre, può contemplare anche altri parametri (impiego di forestierismi, neologismi, ecc.; lunghezza media delle proposizioni, uso dei tempi e dei modi verbali, ecc.) da cui è possibile desumere con buona approssimazione alcune informazioni relative all’autore. Grazie all’applicazione di alcuni indici di leggibilità, che valutano appunto la scorrevolezza delle frasi, l’uso di parole poco comuni ed altri fattori che permettono di stabilire la complessità del documento, si può risalire al grado di scolarizzazione e all’estrazione socio-economica di chi l’ha scritto. Parimenti, esaminando la struttura e lo stile del testo (uso della retorica, espedienti linguistici, caratteristiche fraseologiche, ecc.), è possibile delineare anche il profilo psicologico dell’autore: dal tipo di discorsi di una persona possono infatti emergere elementi significativi su modo di pensare, carattere e temperamento. Lo studio della scrittura è quindi una fonte particolarmente ricca di informazioni sul legame che sussiste inevitabilmente tra modalità espressive e personalità individuale.


Le tecnologie di trattamento automatico
del parlato


Riprendiamo ora il tema dell’elaborazione del parlato per illustrarne in maggior dettaglio le diverse tecnologie. Possiamo dapprima suddividere l’area in due grandi temi: generazione, sintesi e/o codifica della voce; percezione, riconoscimento del parlato e/o del parlante.


Codifica e sintesi del segnale vocale

Gli obiettivi della generazione del segnale vocale sono due:
- la codifica del segnale, che consiste nel memorizzarlo in forma compressa e successivamente ricostruirlo;
- la generazione della voce da un testo scritto.
La codifica del segnale vocale parte dalla constatazione che la banda percepita dall’orecchio umano ha una dimensione significativa (causata dall’ambiente acustico, dalle informazioni accessorie, dalla voce particolare del parlante, ecc.), per cui occorre trovare metodi che riducano questa ridondanza del segnale trasmesso. Sono stati così progettati codificatori che, sulla base di differenti metodi, cercano di rendere il segnale più chiaro e pulito possibile (pensiamo all’uso dei cellulari).
Per sintesi del testo si intende, invece, la riproduzione acustica di un testo scritto (text-to-speech): tra le applicazioni più diffuse vi sono la lettura di giornali o libri per i non vedenti, oppure la lettura dei messaggi da calcolatore.
Attualmente la precisione e la naturalezza delle espressioni prodotte artificialmente sono notevoli; alcuni studi si stanno poi focalizzando sulla caratterizzazione del parlante (maschio o femmina, età, ecc.) e sull’introduzione di emozioni nel tono vocale, come il dolore, la gioia, la sorpresa, e così via.
Da segnalare, in questo contesto, i sistemi intelligenti in grado di acquisire una richiesta vocale in linguaggio naturale, identificare la risposta opportuna e quindi trasformarla in voce.
Per queste applicazioni le tecniche di comprensione del testo hanno un ruolo di fondamentale importanza e possono rendere possibile la realizzazione di servizi personalizzati estremamente sofisticati, in grado di soddisfare una straordinaria gamma di esigenze particolari.
Il Navy Center for Applied Research in Artificial Intelligence, per esempio, ha realizzato un’interfaccia di un software di simulazione sviluppato da NRL's Tactical Electronic Warfare division. Gli utilizzatori di questo sistema possono controllare il software con comandi del tipo “Quante navi nemiche ci sono?”, “Non mostrare le navi alleate non armate”, “Qualche nave nemica è dotata del dispositivo per…”.


Riconoscimento del parlato

Il riconoscimento del parlato (speech-to-text) consiste essenzialmente nel trasformare un discorso parlato in un testo scritto, convertendone le parole (o fonemi).
Per ridurre i margini di errore sono stati affiancati agli analizzatori fonetici metodi di analisi linguistica che aiutano a comprendere il senso del parlato, così da diminuire il disturbo del rumore che si crea nella lingua parlata, addestrando anche il riconoscitore fonetico a familiarizzare con la particolare voce del parlante.
La qualità del riconoscimento dipende da molti fattori: la velocità del parlato, le dimensioni del vocabolario, l’addestramento del sistema rispetto alla voce del parlante, ecc..
Ciò premesso, è dunque facile comprendere la fattibilità e la qualità di risultato di alcuni sistemi di speech-to-text (come il riconoscimento di comandi vocali, la dettatura di testi e numeri, la compilazione di moduli, il word spotting ovvero la segnalazione della presenza di determinati parole e concetti in una conversazione) e, parallelamente, la particolare complessità di realizzazione di adeguati software per il riconoscimento di una conversazione in parlato spontaneo tra persone la cui voce non è stata precedentemente campionata.


Identificazione e verifica del parlante

Nell’ambito delle tecnologie di elaborazione del parlato, l’identificazione e la verifica del parlante si usano principalmente per stabilire l’identità del parlante e, dunque, per confermarne con certezza l’identità dichiarata (al fine, per esempio, di acconsentire all’attivazione di un sistema, all’avvio di una procedura, ecc.). Un aspetto molto difficile è il riconoscimento del parlante quando l’identità non è dichiarata, ma va individuata scegliendo all’interno di un insieme di possibili “voci” candidate (ovviamente la complessità del compito cresce all’aumentare del numero di voci tra cui selezionare).
Tra gli ambiti applicativi di queste tecniche ci sono i sistemi biometrici di identificazione della persona e il riconoscimento a scopo identificativo o forense.


Conclusioni

La promozione della ricerca da parte delle aziende, in sinergia con le Università, rappresenta un elemento fondamentale per lo sviluppo di strumenti linguistici altamente innovativi e una garanzia di continuità per l’evoluzione del fenomeno TAL.
Nel contesto italiano, per iniziativa del Ministero delle Comunicazioni, è stato istituito nel 2002 il ForumTAL (www.forumtal.it) con lo scopo di coordinare le iniziative di ricerca e di sviluppo nel campo dell’elaborazione automatica del linguaggio scritto e parlato e di promuovere nuove proposte dirette all’impiego di queste tecnologie. Membri fondatori del ForumTAL sono enti pubblici e privati che si sono distinti per l’impegno e i risultati ottenuti in questo campo, che collaborano per stimolare nuovi interessi e individuare le possibili esigenze degli utenti.
Proprio il diffondersi delle conoscenze sulle tecnologie TAL costituisce un passo imprescindibile per il loro progresso: purtroppo, infatti, sono ancora relativamente poco noti i successi dell’industria italiana in questo settore. Sebbene poco conosciuto, questo mercato di nicchia è già da anni in gran fermento. Si tratta di un mercato emergente, che produce soluzioni già competitive e molto apprezzate dagli utilizzatori; un mercato che al mondo dell’intelligence può offrire grandi potenzialità. Per questo contesto, è fondamentale studiare e realizzare soluzioni “non convenzionali”, progettate e personalizzate sulla base delle specifiche problematiche da risolvere, perché “particolari” e non sempre perseguibili con l’impiego di prodotti e metodologie standard sono gli obiettivi da raggiungere.



© AGENZIA INFORMAZIONI E SICUREZZA INTERNA