GNOSIS
Rivista italiana
diintelligence
Agenzia Informazioni
e Sicurezza Interna
» ABBONAMENTI

» CONTATTI

» DIREZIONE

» AISI





» INDICE AUTORI

Italiano Tutte le lingue Cerca i titoli o i testi con
Per Aspera Ad Veritatem n.26
Network Analysis e Data Mining, nuove frontiere per l’intelligence tecnologica

Francesco CORONA




Stiamo attraversando un’epoca di profondi e rapidi cambiamenti sia sul fronte sociale che sul fronte tecnologico.
Sul fronte sociale abbiamo assistito, nel caso del 2001, alla ripresa massiccia di fenomeni di antagonismo e di terrorismo esercitato su scala planetaria. Quanto ai movimenti antagonisti si pensi alle manifestazioni di opposizione al WTO (World Trade Organization) sfociati con gli scontri di piazza di Seattle, Melbourne, Nizza e i fatti di sangue di Genova. Quanto al terrorismo, basta osservare la ripresa del terrorismo internazionale dopo l’11 settembre 2001 che vede come sfondo correlato la questione palestinese, la guerra in Iraq e le loro implicazioni in una possibile escalation da guerra totale globale.
I due fronti principali si contendono lo scenario geopolitico e, passatemi il termine, "virtuale" degli avvenimenti, che si susseguono con tutte quelle implicazioni che sembravano appartenere ormai al passato remoto ma che si riaccendono ora con grande intensità di recupero.
Abbiamo volutamente utilizzato il termine virtuale poiché Internet sta rappresentando sempre più il nuovo "campo di battaglia" per lo scontro mediatico di forze contrapposte. Basti pensare alle attività di protezione e cripting delle informazioni di Al Qaeda nella spedizione della posta elettronica tra cellule collegate, rilevato prima dei fatti dell’11 settembre da fonti governative statunitensi.
Anche il Vaticano, dopo pochi mesi dall’accaduto, soffrì di una improvvisa crisi di vulnerabilità dichiarandosi sotto minaccia spionistica da parte di uno pseudo-Echelon non ben identificato. Come conseguenza, pensò bene di blindare il proprio tesoro di informazioni digitali, probabilmente superiore a quello dei suoi stessi musei, criptando le proprie comunicazioni con tecniche sofisticate di tipo SSL (Secure Socket Layer).
Sul fronte tecnologico stiamo assistendo ad una convergenza, non sempre sottoposta ai prerequisiti della sicurezza, tra tutti i fattori inerenti il processo di comunicazione globale all’interno di Internet. Potenti organizzazioni governative, religiose, politiche, sociali ed anche criminali si localizzano in rete trasformandola nello strumento mediatico preferenziale per condurre differenti strategie di attacco e difesa, lecite ed illecite.
Vale la pena a questo punto citare Laumann, uno dei massimi esperti di Network Analysis, una disciplina sviluppata intorno agli anni ’70 ed associata alle scienze sociali, in grado di descrivere in modo attendibile i reticoli organizzati di interi gruppi sociali. Egli afferma che da una maggiore localizzazione dei gruppi sociali si determina una maggiore coalizzazione organizzativa.
Ma la questione di maggior interesse viene posta da Mr. Casey J. Dunlevy del CERT Analysis Center della Carnegie-Mellon University, il quale afferma che l’attuale difficoltà delle strutture investigative e di intelligence governativa occidentale è attribuibile al fatto che le organizzazioni criminali e terroristiche di tipo networked (reticolari) non sono state studiate e contrastate con approcci networked ma secondo approcci tradizionali di tipo gerarchico, determinando uno scollamento inimmaginabile tra metodi di attacco terroristico e contromisure preventive con la conseguente incapacità di rispondere per tempo alle minacce reali.
Una metodologia di analisi delle organizzazioni in Internet potrebbe risultare la risposta vincente a questa sfida che si gioca tutta sul piano tecnologico.



Visto sotto il profilo della Scienza della Comunicazione, World Wide Web rappresenta un nuovo modello comunicazionale che può essere ben rappresentato dalla fig. 1. Come possiamo osservare sono riconoscibili 4 processi comunicazionali distinti: Statico, Dinamico, Adattivo e Sensibile. La parte superiore (Statico e Dinamico) rappresenta la normalità del processo di comunicazione nel 3W e si esplica con l’accesso ai siti web attraverso l’utilizzo dei motori di ricerca, o l’utilizzo di basi di dati dinamici accessibili sempre dagli stessi siti. Attraverso queste tecnologie (Motori di ricerca classici, Basi di Dati, Web Server e Browser Client) è possibile fruire di servizi organizzati di tipo B2B o B2C, con una medio alta interazione tra utenza e sistema. Diverso è lo scenario proposto nella parte inferiore del modello, relativo ai processi Adattivo e Sensibile.


Fig.1 - Modello comunicazione di Internet



Questo rappresenta di fatto il nuovo orizzonte evolutivo di Internet, con l’utilizzo di funzioni avanzate di ricerca ed implementazione di modelli sociali e comportamentali da estrarre dai contenuti statici e dinamici delle pagine web. Il concetto di adattività è insito nell’analisi qualitativa dei contenuti web, basata sullo studio e sulla discriminazione del reticolo di interesse. Gli Agenti Intelligenti sono strumenti software molto simili ai virus informatici basati sul protocollo di comunicazione Internet SNMP (1) . Rappresentano un nuovo ed efficace strumento di comunicazione del web. Le proprietà di un Agent possono essere definite lungo quattro dimensioni:
1) programmazione: indica il formalismo per definire la logica (intelligenza) degli agents. I metodi utilizzati prevedono linguaggi di scripting e/o rappresentazioni di conoscenza dichiarativa derivante da tecniche di intelligenza artificiale;
2) capacità: indica il livello di complessità delle azioni eseguite dall’agent. Un agent può svolgere operazioni più o meno complesse, dall’esecuzione di un task a seguire inferenze, pianificazioni, learning, non esclusa la capacità di clonare altri agents;
3) cooperazione: un insieme di agents può essere in grado di cooperare per la risoluzione di problemi o il raggiungimento di obiettivi comuni. Questo può variare da un semplice stile di comunicazione client-server a tecniche sofisticate di negoziazione e cooperazione. Il tipo di interazione tra agents può corrispondere allo scambio di dati, informazioni (dati + meta dati), o altri agents;
4) mobilità: per eseguire un certo compito gli agents possono spostarsi attraverso la rete in nodi remoti.
Il protocollo SNMP è stato disegnato verso la metà degli anni ‘80 in risposta immediata ai problemi di comunicazione che si erano venuti a creare tra diversi tipi di reti.



SNMP funziona pressappoco in questa maniera: vengono scambiate informazioni di rete attraverso messaggi Protocol Data Units (PDUs), che contengono sia i titoli descrittori sia i contenuti del messaggio. Esistono 5 tipi di messaggi che il protocollo usa per tenere sotto controllo la rete, 2 per leggere i dati dei terminali, 2 per settarne i dati e infine 1 per tenere sotto controllo gli eventi che accadono in rete. Se si vuole osservare l’attività di un computer in rete si può usare l’SNMP per inviare e ricevere i PDU da quel computer. Se il computer è operativo otterremo di ritorno un PDU che ci dice che il terminale è effettivamente attivo ed altri PDU che monitorizzano tutte le attività.
I massimi esperti di tecnologie basate su Intelligent Agents risultano essere Israeliani, Americani e Russi.



Il Word Wide Web (WWW) ha dunque tutti i connotati per essere un forte punto di coalizzazione di spazi comunicazionali condivisi.
La sua struttura a nodi distribuiti e collegati semanticamente riflette i reticoli sociali e risulta pertanto un contenitore di aggregazioni nel quale è possibile condurre analisi proprio secondo gli stilemi delle discipline sociometriche, con il vantaggio aggiuntivo di poter condurre queste analisi utilizzando tecniche algoritmiche di navigazione e valutazione dei contenuti presenti.
In Internet, buona parte degli investimenti di aziende tecnologicamente avanzate volgono verso tipologie di servizi accessibili da milioni di utenti. Come dicevamo, esistono servizi già fruibili per utenza business e consumer, oppure servizi sociali; ma esistono anche i risvolti negativi che il cyberspazio trascina con sè, come la propaganda terroristica, la pedofilia e la pornografia, il traffico di armi e organi, il satanismo telematico, il riciclaggio di denaro verso i paradisi fiscali. Esiste inoltre lo spionaggio tecnologico messo a segno ai danni di numerose aziende ed istituti di ricerca con vere e proprie strategie chirurgiche da campo di battaglia.
Data questa situazione, spesso latente, Internet diventa sempre più uno specchio sufficientemente attendibile della realtà nella quale i Network Sociali si riflettono, con tutto ciò che di buono e meno buono recano con sé.



Gli importanti risultati scientifici riconosciuti a livello internazionale da parte di prestigiosi istituti di ricerca italiani ed europei, nell’ambito dei rispettivi progetti finalizzati, e le recenti partnership tecnologiche e scientifiche con aziende europee operanti in settori strategici, consentono di poter raccogliere significativi risultati per attualizzarli sui nuovi orizzonti della conoscenza del mondo virtuale.
È necessario in altre parole comprendere che è ormai possibile, da un lato, immergersi nel CyberSpace ed analizzare direttamente tendenze sociali, scenari di crisi, situazioni investigative, partendo proprio dall’analisi delle fonti aperte (Open Source); dall’altro, migliorare gli strumenti investigativi a disposizione per effettuare tali analisi, ricorrendo a tecniche e modelli già affinati ma non ancora finalizzati per tale scopo. L’applicazione dei metodi sociometrici consente di estrapolare le informazioni correlate atte a descrivere il reticolo discriminato. Si riemerge pertanto e si ritorna alla dimensione reale con un nuovo supporto analitico-decisionale di grande potenza connettiva.
Uno degli strumenti tecnologici fondamentali risulta essere il Motore di Ricerca (Search Engine) operante su siti Internet e necessario ad indicizzare e ricercare milioni di contenuti informativi residenti sulle pagine web della ragnatela.
Un potenziamento degli algoritmi di funzionamento dei Motori di Ricerca operanti all’interno delle strutture investigative e di intelligence, ed in particolare dell’elemento dinamico della ragnatela noto come "Spider", attraverso l’utilizzo delle tecniche di Data Mining ed il supporto algoritmico proprio della teoria dei Reticoli Sociali (Network Analysis) consente un aumento del contenuto semantico del reticolo discriminato, valido anche secondo indicazioni di tempo (temporalità) e di luogo (spazialità).
Internet risulta pertanto essere il nuovo tessuto connettivo per l’analisi di scenari e casistiche particolari. La metodologia applicata ai motori di ricerca consente la correlazione di fatti e situazioni apparentemente scollegate; tutto ciò può offrire un valido supporto decisionale all’analisi di particolari fenomeni presenti in Rete.
In un contesto come quello descritto, le organizzazioni reticolari risultano essere vincenti. La loro propensione ad essere più dinamiche, flessibili e resistenti rispetto alle controparti gerarchiche, fa sí che possano facilmente adattarsi all’ambiente ed evolvere proprio secondo meccanismi darwiniani.
Molte organizzazioni criminali e terroristiche, che hanno adottato strutture reticolari con un sufficiente supporto di tecnologia Internet, hanno conseguito purtroppo alcuni successi.
Lo studio sulle reti deve uscire dai confini accademici e diventare uno strumento efficace nelle mani dell’analista. All’interno delle comunità investigative e di intelligence, tuttavia, la Network Analysis applicata al mondo web è ancora in stato embrionale. Ci sono due motivi principali per la lentezza di sviluppo della Network Analysis come disciplina operativa di intelligence: addestramento e propensione delle strutture all’elemento tecnologico.
Gli analisti devono trattare spesso informazioni di analisi apparentemente contraddittorie e contrarie alla loro formazione d’origine. Dal senso con cui gli analisti si occupano di queste contraddizioni dipende il loro addestramento e la gestione di un più vasto sistema analitico.
Lo skill professionale è probabilmente il fattore più significativo e consiste nel riconoscere la necessità di sviluppare l’analisi di rete come vera disciplina investigativa e di intelligence su fonti aperte.
Le metodologie di analisi dei reticoli sociali all’interno di contesti Internet World Wide Web, se considerate a se stanti, non sono tuttavia sufficienti. È necessario anche l’ausilio delle tecniche di ricerca (Search Engine) e di Data Mining, ossia discriminazione e interrelazione semantica di enti informativi apparentemente scollegati, con successiva catalogazione rapida delle informazioni discriminate. Tale metodologia è basata su alcune tecnologie a noi note, come i motori di ricerca, nonché su nuovi algoritmi di acquisizione dei reticoli sociali tramite particolari spiders Internet, cui vanno aggiunti strumenti di analisi delle ontologie dei linguaggi per analisi multilingua e catalogazione (clustering) delle informazioni filtrate.



A tale riguardo è di estremo interesse una semplice analisi di prossimità con mappa finale delle relazioni di gruppo, estrapolata sulla base delle consultazioni di circa 200 siti all’interno di un caso di studio reale, che per semplicità espositiva classificheremo come reticolo sociale X costituito da dai gruppi sociali numerati da 1 a N.
Dall’insieme dei link che per comodità considereremo non orientati, si propaga una navigazione multilivello simmetrica, partendo appunto da una pagina iniziale relativa all’organizzazione sociale da analizzare. Tale pagina sarà definita gatekeeper iniziale. Il tipo di analisi scelta è di tipo EGONET, ossia centrata nella pagina iniziale di riferimento (pagina Internet del Gruppo 2).
Partendo dai legami che si propagano dal sito del Gruppo 2 possiamo ad esempio determinare 10 gruppi sociali che confluiscono nella così detta matrice delle incidenze (2) :



A questo punto sarà possibile determinare la matrice delle correlazioni o adiacenze dove compaiono i pesi delle relazioni verificate. I pesi possono essere un valore derivato dall’analisi di più parametri o semplicemente dal conteggio dei links delle pagine web entranti/uscenti da una pagina riferita ad un gruppo classificato del reticolo analizzato.
Utilizzando le tecniche statistiche viene definita la matrice delle adiacenze considerando come peso il numero di links estratti dai motori di ricerca e da navigazioni effettuate manualmente:


Graficando i risultati della distribuzione avremo la seguente mappa reticolare:



A questo punto si definiranno gli indicatori di densità e si potranno applicare ulteriori formule sociometriche relative al modello. Un primo risultato dell’applicazione di questo metodo porta ad alcuni fatti importanti (vds. pag. 4).
1) All’interno dell’Egonet oggetto di analisi, un posto di netta importanza comunicazionale è relegato alle "community" Gruppo 1, 2 e 10 (maggior numero di link entranti/uscenti).
2) Si vengono pertanto a determinare due gatekeepers (Gruppi 1 e 10) secondari rispetto al gatekeeper primario (Gruppo 2). Dopo l’analisi sociometrica, si riscontra quindi una evoluzione verso i due nuovi centri di localizzazione (aspetto darwiniano del fenomeno).
3) Le distribuzioni delle relazioni sono prevalentemente simmetriche. Ciò denota una continuità dei rapporti interpersonali tra gruppi e l’eventuale affiliazione di membri a gruppi differenti e comunque collegati nello spazio web, ma presumibilmente scollegati nella realtà. Sotto quest’ultima ipotesi tutto ciò può far pensare a correlazioni di tipo occulto.



Fig.4 - Analisi di prossimità




Il fenomeno sociale visto all’interno di Internet spesso può non coincidere con quanto si percepisce nella realtà e questo forse è uno degli aspetti più interessanti del metodo di analisi. Questa metodologia può essere perfezionata ed estesa utilizzando un sistema software basato su tecniche di DATA MINING in grado di elaborare e produrre interessanti scenari di output correlativo, partendo dalle ipotesi investigative che l’analista vuole verificare.
Il risultato finale sarà costituito da un insieme di rapporti analitici e grafici, di grande utilità e validità nel supporto decisionale all’analisi investigativa e di intelligence.



Francesco Corona, Multimedia intelligence, dispense delle lezioni tenute presso il Master in Sicurezza e Intelligence della Link Campus University di Malta in Roma ( lavoro di prossima pubblicazione).

Giuseppe Anzera, L'analisi dei reticoli sociali, Euroma, Roma 1998.

Boissevain, Bott, RETI - L'analisi di network nelle scienze sociali, I centauri, Roma.

Augusto Schianti, Le strategie della razionalità, NIS, Roma, 1997

Arno Scharzl, Evolutionary Web Development, Springer, London 2000.

Massimo Buscema & Semein Group, Reti Neurali Artificiali e Sistemi Sociali Complessi, Vol.1, Franco Angeli, Roma 1999


(1) SNMP: Acronimo di Simple Network Management Protocol, è un protocollo per i servizi di gestione di reti Internet. È formalmente specificato in una serie di Request For Call di standardizzazione : RFC 1089 - SNMP over Ethernet - RFC 1140 - IAB Official Protocol Standards - RFC 1147 - Tools for Monitoring and Debugging TCP/IP - Internets and Interconnected Devices [superceded by RFC 1470] - RFC 1155 - Structure and Identification of Management Information for TCP/IP based internets - RFC 1156 (H) - Management Information Base Network Management of TCP/IP based internets - RFC 1157 - A Simple Network Managment Protocol - RFC 1158 - Management Information Base Network - Management of TCP/IP based internets: MIB-II - RFC 1161 (H) - SNMP over OSI.
(2) I dati non sono significativi ma solo dati di prova per comprendere la metodologia.

© AGENZIA INFORMAZIONI E SICUREZZA INTERNA