2.3 miliardi di file esposti involontariamente online

Paolo Benanti
6 giu 2019
Tempo di lettura: 6 min

Sono 2,3 miliardi i file esposti attraverso le tecnologie di archiviazione file online. 2,3 miliardi sono un numero enorme. È difficile persino pensarlo: di cosa ne ne abbiamo 2,3 miliardi? Videogiochi? No. Libri? No. Euro? ... Certamente no.

Che dire dei file provenienti da vari archivi di file su Internet? Non io personalmente, ma ad oggi sono leggibili pubblicamente 2,3 miliardi di file a causa di tecnologie non configurate e non protette utilizzate per archiviare questi dati. Dietro a questa enorme falla ci sono prodotti come i bucket di Amazon S3, il Server Message Block (SMB), e il FTP (File Transfer Protocol) e il server rsync, così come le unità di archiviazione direttamente collegate alla rete. Questo problema è stato affrontato da il team di ricerca di Digital Shadows che lo ha inizialmente portato alla luce nel 2018 con il rapporto Too Much Information. Il report ha raccontato la scoperta di un miliardi e mezzo di file. Un anno dopo e dopo l'entrata in vigore del regolamento sulla privacy (GDPR), Digital Shadows è tornata sul tema con il report: Too Much Information: The Sequel.

2,3 miliardi di file distribuiti in tutto il mondo Il rapporto analizza tutti i dati esposti, determinando che gli Stati Uniti hanno ancora la più alta esposizione rispetto a ogni singolo paese, con oltre 326 milioni di file. Francia e Giappone guidano le loro regioni, con 151 milioni e 77 milioni di file esposti, rispettivamente.

Anche tenendo conto della tendenza dell'anno scorso, il protocollo SMB è quello responsabile per la maggior parte dell'esposizione tra le tecnologie analizzate. I server FTP e rsync hanno la responsabilità rispettivamente per il 20% e il 16% dell'esposizione rilevata. Una buona notizia è che, sebbene l'esposizione al bucket di Amazon S3 per l'ultimo anno sia complessivamente aumentata, vediamo un calo dell'esposizione in seguito al rilascio di una nuova funzionalità chiamata "Block Public Access", che fa esattamente quello che pensereste che faccia. È un passo significativo nella giusta direzione e speriamo che gli amministratori ne prendano atto.

Dati sanitari, Personally Identifiable Information (PII) e esposizione di terze parti Il report evidenzia diversi casi di studio per fornire ai lettori esempi del tipo di informazioni esposte a Internet in maniera completamente aperta, senza alcuna protezione.

In totale, sono stati rilevati circa 4,7 milioni di file connessi alla prassi medica, alcuni apparentemente innocui o almeno non apertamente sensibili, ma altri erano cartelle di pazienti, note di medici e immagini mediche come le scansioni a raggi X. I dati sull'assistenza sanitaria sono tra i più privati che abbiamo e pensare di esporre queste informazioni senza protezioni è sconcertante.

Il report racconta che Digital Shadows ha rilevato diverse unità NAS personali che memorizzano apertamente file su applicazioni di lavoro, scansioni di passaporti e documenti di asset, che contenevano informazioni sensibili e di identificazione personale di alcuni individui.

Vi è anche un esempio di esposizione di terze parti, con una piccola società di consulenza IT che espone password in chiaro per i sistemi dei propri clienti.

Rilevati milioni di file crittografati con ransomware Sembrerebbe che anche altri attori, in modo minaccioso, stanno tentando di monetizzare questa esposizione. All'interno del set di dati, Digital Shadows ha rilevato che, solo negli ultimi mesi, 2 milioni di file sono stati crittografati dalla variante di "NamPoHyu" che prende di mira i server Samba. In totale, 17 milioni di file sono stati tenuti in ostaggio da varie varianti di vari ransomware.

Alcune considerazioni

Nella società contemporanea abbiamo a disposizione enormi quantità di informazioni e dati a cui la ricerca tenta di dare un senso e un’interpretazione per individuare schemi e tendenze che altrimenti non sarebbero visibili. Cosa accade se uniamo questa involontaria disponibilità di dati molto preziosa con i sistemi di analisi più evoluti come quelli offerti dalle AI?

Con un sistema di AI possiamo guardare a tutti i dati come possibili fonti di informazioni. Quello che sembrava essere rumore, magari dati sparsi e senza valore diventano fonti di informazioni sorprendentemente accurate. Questo risultato e la sorpresa nel grado di accuratezza raggiunto da questi sistemi ci deve far pensare a una urgente emergenza da affrontare.

Il quadro generale che ne emerge è grande.

La questione, se da un lato mostra lo sviluppo delle AI in modi sempre nuovi e impensati ci porta a chiederci alcune questioni o a fare delle domande di senso. In primo luogo emerge come la datificazione progressiva della realtà e le informazioni, previste o impreviste, che da questo processo si possono ricavare sia un tema sempre più urgente da affrontare. In questo caso una serie di immagini prese per strada forniscono dati su aspetti sensibili, come convinzioni personali, reddito e idee politiche , sulle persone. Possiamo pensare di lasciare libero accesso a questi dati? Le persone in un mondo sempre più digitale lasciano delle impronte che i sistemi di AI possono non solo leggere ma anche utilizzare per profilare, investigare e ottenere informazioni che non si era intenzionati a cedere. Questo è lecito? Si dovrebbe rendere possibile ai cittadini decidere quali e quanti dati si possono raccogliere senza che loro lo sappiano? Chiaramente questi proof of concept, come quello appena descritto chiedono di ridefinire il confine, specie nel campo dei dati, tra pubblico e privato, tra vita in pubblico e dati pubblici e vita in privato e dati privati. La sfida è grande.

In secondo luogo da quando non solo abbiamo imparato a vedere la realtà come un insieme di dati ma abbiamo anche imparato a collezionarli, i big data, ci siamo dotati di un nuovo strumento di indagine. Tre secoli fa con le lenti concave abbiamo realizzato il telescopio e il microscopio, imparando a vedere il mondo in modo diverso. Microsocpio e telescopio costituirono gli strumenti tecnologici con cui la rivoluzione scientifica del 600 e del 700 ha ottenuto le sue scoperte. Abbiamo reso visibile l'estremamente lontano telescopio - e l'estremamente piccolo - microscopio -. Oggi con i dati abbiamo realizzato un nuovo "strumento" il macroscopio. Con i big data noi riusciamo a vedere in maniera nuova e sorprendente l'estremamente complesso delle relazioni sociali individuando relazioni e connessioni dove prima non vedevamo nulla. Le AI e il machine learning applicati a questi enormi set di dati sono il macroscopio con cui studiare meccanicisticamente l'estremamente complesso. Spetta a noi capire che tipo di conoscenza stiamo generando. Se questa forma di conoscenza sia scientifica e in che senso sia deterministica o predittiva è tutto da capire. Tuttavia la rivoluzione conoscitiva, come con il telescopio e il microscopio, è già in atto.

Infine guardiamo al modo con cui approcciamo i database e i big data. I big data sono dei database che raccolgono enormi quantità di diversi tipi informazioni che vanno dai testi all’audio, dai video alle immagini, dai like su Facebook alle transazioni monetarie, e che richiedono l’utilizzo di calcolatori estremamente potenti per riuscire a gestirli. Dalla straordinaria capacità di elaborazione di questa sterminata moltitudine di elementi in formato digitale, che l’umanità ha spontaneamente riversato online negli ultimi decenni, si possono estrapolare delle previsioni. Sempre di più, almeno nell'attività lavorativa, i dati sono diventati una meta sicura: i numeri non mentono, rispondono sempre e sono sempre disponibili. Per chi sa cose domandare un database è l’interlocutore ideale. Ma oggi si può fare molto di più: i dati sono in grado di fornire risposte a domande che non siamo in grado di fare. È questo, in fondo, il risultato più innovativo di quella scienza nascente che si chiama big data, ovvero la capacità di raccogliere dati eterogenei e di individuare relazioni, collegamenti, connessioni inaspettate. Le aspettative sono elevatissime e molte aziende sono impegnate nella costruzione di questo grande oracolo personale. Per il momento soprattutto accumulano dati, tanto che le quantità di informazioni archiviate stanno crescendo a ritmi travolgenti. Si comincia già a parlare dell’era dei BrontoByte, un’unità di misura dei dati fino a qualche anno fa inimmaginabile, ma a cui già oggi si avvicinano alcune organizzazioni che anni accumulano instancabilmente byte da ogni fonte. La vera sfida, però, è far parlare questo nuovo oracolo digitale, capire cosa ci dice. Allora i dati diventano gli dei del XXI secolo. Sono loro i vati e gli oracoli da interrogare per sapere i segreti che sono nascosti nel nostro futuro.

Tutto questo, come negli anti templi pagani, richiede però un sacrificio. Quello che oggi ci è chiesto di sacrificare non è una vita animale o un'essere umano ma la nostra privacy!

#algoritmi #Cultura #Politica #BigData #sicurezza

Paolo Benanti

2.3 miliardi di file esposti involontariamente online

Post recenti

Commenti