top of page
  • Immagine del redattorePaolo Benanti

Fake News: algoritmi per andare alla fonte


Un nuovo sistema di machine learning mira a determinare se una fonte di informazioni è accurata o parziale. Vediamone il funzionamento e alcune possibili implicazioni.

 

Ultimamente il mondo del fact checking USA è un po' in crisi. Siti come Politifact e Snopes si concentrano tradizionalmente su specifiche rivendicazioni, in modo sistematico e pedissequo. Quando questi siti riescono a verificare o sfatare un fatto, c'è una buona probabilità che questa fake news abbia già attraversato tutto il mondo e sia già tornata indietro.

Anche i grandi social media hanno avuto risultati non troppo eclatanti nel limitare la diffusione della propaganda e della disinformazione. Facebook vuole assumere 20.000 moderatori umani entro la fine dell'anno, e sta mettendo risorse significative nello sviluppo di propri algoritmi per il rilevamento di notizie false.

I ricercatori del MIT's Computer Science e Artificial Intelligence Lab (CSAIL) e del Qatar Computing Research Institute (QCRI) ritengono che l'approccio migliore sia quello di concentrarsi non solo sulle singole rivendicazioni, ma sulle fonti delle notizie. Utilizzando questo approccio, hanno dimostrato il funzionamento di un nuovo sistema che utilizza il machine learning per determinare se una fonte è accurata o politicamente parziale.

"Se un sito web ha già pubblicato notizie false, ci sono buone probabilità che lo faccia di nuovo", dice Ramy Baly, un ricercatore postdoc autore principale di un nuovo articolo sul sistema. "Scaricando automaticamente i dati su questi siti, la speranza è che il nostro sistema possa aiutare a capire quali sono quelli che probabilmente lo faranno in primo luogo".

Baly racconta che il sistema ha bisogno solamente di circa 150 articoli per rilevare in modo affidabile se una fonte di notizie può essere attendibile. Un approccio di questo tipo sembra essere perfetto per aiutare a individuare nuovi punti di spaccio di fake news prima che le storie si diffondano troppo.

Il sistema nasce da una collaborazione tra gli informatici del MIT CSAIL e del QCRI, questo fa parte dell'Università Hamad Bin Khalifa in Qatar. I ricercatori hanno prima preso i dati dal sito Media Bias / Fact Check (MBFC), un portale Web con controllori umani che analizzano l'accuratezza e i pregiudizi di oltre 2.000 siti di notizie; da MSNBC a Fox News e da aziende a basso traffico di contenuti.

Hanno quindi dato in pasto tali dati a un algoritmo per il machine learning e lo hanno programmato per classificare i siti di notizie allo stesso modo di MBFC. Quando è stata fornita una nuova fonte di notizie, il sistema ha mostrato un'accuratezza del 65 percento nel rilevare se il sito ha un livello alto, basso o medio di adesione ai fatti e approssimativamente del 70 percento nel classificare se il sito è orientato verso sinistra, orientato verso destra o moderato.

Il team ha stabilito che i metodi più affidabili per rilevare sia le notizie false che i racconti di parte dovevano esaminare le caratteristiche linguistiche comuni nelle storie della fonte, inclusi tutti quei dati che si utilizzano per analizzare il sentiment, la complessità e la struttura di un testo.

Ad esempio, è stato scoperto che le fonti di notizie false hanno maggiori probabilità rispetto ad altri testi di utilizzare un linguaggio iperbolico, soggettivo ed emotivo. In termini di pregiudizi, i siti classificati a sinistra hanno più probabilità di avere un linguaggio che si riferiva a concetti come danno / cura e equità / reciprocità, rispetto ad altre qualità come lealtà, autorità e santità. (Queste qualità rappresentano una teoria popolare - ci sono cinque principali basi morali - nella psicologia sociale).

Il co-autore Preslav Nakov, un ricercatore senior del QCRI, riporta come il sistema ha anche trovato correlazioni con la pagina Wikipedia di una fonte, che ha valutato in generale più lunga è più credibile. Invece le parole target come "estrema" o "teoria della cospirazione" sono state identificate come significative per il giudizio negativo. Dai dati elaborati dall'algoritmo emerge che la struttura di testo degli URL di una fonte sia significativa per la veridicità: gli URL che hanno molti caratteri speciali e sottodirectory complicate, per esempio, sono associati a fonti meno affidabili.

"Poiché è molto più facile individuare la verità in base alle fonti [più che sui singoli articoli], questo metodo è in grado di fornire previsioni dirette e accurate riguardo al tipo di contenuto che viene distribuito da queste fonti", dice Sibel Adali, professore di informatica presso Rensselaer, un istituto politecnico che non è stato coinvolto nel progetto. Nakov si affretta ad avvertire che il sistema è ancora in fase di sviluppo e che, anche con miglioramenti di accuratezza, può funzionare al meglio solo se usato in combinazione con i fact-checker tradizionali.

"Se i punti di diffusione riportano in modo diverso un argomento specifico, un sito come Politifact potrebbe immediatamente guardare i nostri falsi punteggi di notizie per quei punti per determinare quanta validità dare a diverse prospettive", dice Nakov.

Baly e Nakov hanno co-edito un nuovo articolo con James Glass, Senior Research Scientist del MIT, insieme ai dottori Dimitar Alexandrov e Georgi Karadzhov dell'Università di Sofia. Il team presenterà il lavoro a fine ottobre alla conferenza Empirical Methods in Natural Language Processing (EMNLP) 2018 a Bruxelles, in Belgio.

I ricercatori hanno anche creato un nuovo set di dati open source ottenuti da oltre 1.000 fonti di notizie, con annotazioni di aderenza ai fatti e punteggi precisi, ovvero il database più grande del mondo nel suo genere. Come prossimi passi, il team esplorerà se il sistema addestrato in inglese può essere adattato ad altre lingue, oltre a superare la tradizionale distorsione sinistra / destra per esplorare i pregiudizi specifici della regione (come la divisione del mondo musulmano tra religiosi e secolari).

"Questa direzione della ricerca può far luce su quali siti web siano inaffidabili e sul tipo di contenuti che questi tendono a condividere, il che sarebbe molto utile sia per i web designer che per il pubblico in generale", afferma Andreas Vlachos, docente presso l'Università di Cambridge, anche lui non è stato coinvolto nel progetto.

Nakov afferma che QCRI ha anche in programma di implementare un'app che aiuti gli utenti a uscire dalle loro filter bubble politiche, rispondendo a notizie specifiche offrendo agli utenti una raccolta di articoli che abbracciano lo spettro politico.

"È interessante pensare a nuovi modi di presentare le notizie alle persone", afferma Nakov. "Strumenti come questo potrebbero aiutare le persone a riflettere un po di più sui problemi ed esplorare altre prospettive che altrimenti non avrebbero considerato".

Emergono due elementi interessanti. Un primo punto da prendere in esame è questo sviluppo nell'analisi quantitativa di un testo. Di fronte ai grandi progressi delle AI nel riconoscere le immagini il testo e la sua analisi è ancora un grande ostacolo. D'altronde la vista è una capacità che hanno anche gli altri animali, Il linguaggio sintattico è una proprietà solo umana ed è normale che qui si possa misurare la distanza tra uomo e macchina. Tra sapienza e processo automatico delle AI.

Un secondo elemento, più radicale e profondo, è sull'effetto dell'inondazione di testi che il web produce. Se una volta gli analfabeti erano coloro che non avevano modo di accedere al significato dei libri, oggi i nuovi analfabeti sono coloro che non sanno riconoscere un valore di un testo rispetto a un altro, annegando in una nube di parole che lo offuscano. Da qui questi strumenti che sembrano una sorta di surrogato meccanico dei cani guida per ipovedenti. La dove il senso umano sembra ottundersi abbiamo bisogno di aiuti e sussidi. Dobbiamo però domandarci se questo nuovo analfabetismo sia un problemi di alcuni da sconfiggere con azioni educative o se sia uan trasformazione evolutiva dell'uomo che sta facendo atrofizzare elementi della nostra costituzione umana.

Come specie stiamo cambiando? Le fake news sono solo l'epifenomeno di questi cambiamenti?

291 visualizzazioni0 commenti

Post recenti

Mostra tutti
bottom of page