Le AI, le immagini e i video: cambi d'orizzonte

Paolo Benanti
25 giu 2018
Tempo di lettura: 9 min

Nelle ultime due settimane si sono susseguiti una serie di annunci e alcune notizie che sembrano far intuire come sia proprio il mondo delle immagini - statiche o video - il primo grande campo in cui le AI stanno facendo sentire il loro impatto. Alterazione delle immagini in modo che l'occhio umano non possa percepire le modifiche, capacità di altri sistemi AI di conoscere immagini contraffatte e i servizi di computer vision stanno cambiando l'orizzonte. Vediamo come.

1. Adobe

Il primo annuncio arriva dalla famose software house specializzata nel mondo della computer graphics Adobe.

Nei suoi annunci recenti Adobe ha lasciato intendere che i futuri aggiornamenti dei suoi strumenti digitali come Photoshop, offriranno agli utenti una capacità senza precedenti di manipolare le immagini. Ma mostrando una consapevolezza aziendale della responsabilità sociale che deriva dall'implementazione e diffusione di AI così sofisticate, l'azienda ha anche rivelato che sta lavorando a un sistema di intelligenza artificiale in grado di rilevare rapidamente se un'immagine è stata manipolata artificialmente.

L'adagio "un'immagine vale più di mille parole" è sorto all'inizio del XX secolo, spesso nel contesto delle redazioni dei giornale. L'idea era che un'immagine potesse rappresentare la verità di una situazione meglio di qualsiasi descrizione. Naturalmente, negli ultimi dieci anni quel vecchio adagio è stato molto messo in crisi dalla tecnologia e ora potrebbe essere quasi riformulato come "un'immagine vale più di mille bugie".

Adobe è stata in prima linea nel democratizzare e diffondere la tecnologia per manipolazione le immagini tanto da divenire espressione comune il neologismo photoshoppare per indicare un'immagine ritoccata al computer. Grazie ai continui sviluppi il software Photoshop, è diventato sempre più facile da usare e creare immagini fotorealistiche che sembrano del tutto autentiche è ormai una cosa alla portata di molti. L'anno scorso, la società ha rivelato strumenti ancora più potenti che sono estremamente utili, ma erodono ulteriormente la fiducia che si può avere sull'autenticità di un'immagine.

Al momento ci sono una varietà di tecniche forensi che consentono agli esperti di identificare se un'immagine è stata manipolata artificialmente, ma queste sono spesso dispendiose in termini di tempo e limitate nel loro campo di applicazione. Vlad Morariu, ricercatore senior presso Adobe, si è proposto di sfruttare l'intelligenza artificiale e l'apprendimento automatico per creare uno strumento in grado di rilevare rapidamente e con precisione se un'immagine è stata modificata digitalmente.

"Ci siamo concentrati su tre comuni tecniche di manomissione: splicing, dove sono combinate parti di due immagini diverse: copia-sposta, dove gli oggetti in una fotografia vengono spostati o clonati da un luogo all'altro e la rimozione, in cui un oggetto viene rimosso da una fotografia e riempito " ha raccontato Morariu.

Tutte queste tecniche di manipolazione lasciano "impronte" specifiche su un'immagine ma queste distorsioni non sono facilmente visibili all'occhio umano. Uno specialista di forensica digitale potrebbe impiegare ore per esaminare un'immagine per determinarne l'autenticità, osservando da vicino i singoli pixels per vedere segni di manomissione. Morariu ha sviluppato una rete neurale in grado di implementare due tecniche di analisi fotografica detta deep analysis e determinare rapidamente se l'immagine è autentica o meno.

Morariu sostiene che: "Utilizzando decine di migliaia di esempi di immagini conosciute e di loro versioni manipolate, abbiamo addestrato con successo una rete neurale basata sul deep learning a riconoscere la manipolazione delle immagini, fondendo due tecniche che prima erano distinte in un servizio offerto da un'unica rete: si può così beneficiare delle diverse e complementari funzionalità di rilevamento".

In questa fase, l'algoritmo è relativamente limitato: è in grado di compiere l'analisi di un'immagine utilizzando solo due tecniche forensi, ma non c'è dubbio che questo potrebbe essere esteso a più tecniche in futuro. Non sappiamo se questa intelligenza artificiale può essere facilmente battuta in astuzia da un subdolo fotoritocco di immagini, ma la battaglia per la verità e l'autenticità sta sicuramente procedendo in un nuove direzioni.

La linea tra reale e falso sta rapidamente diventando più difficile da distinguere, ma è di vitale importanza che un qualche tipo di capacità di tracciare la veridicità di un'immagine sia disponibile per tutti. Adobe non dice se un algoritmo di analisi fotografica che utilizza questa tecnologia verrà incorporato nei prodotti dell'azienda in futuro, ma per lo meno è utile sapere che l'azienda è consapevole del pericoloso mondo di irrealtà che i suoi prodotti stanno creando.

"È importante sviluppare la tecnologia in modo responsabile, ma alla fine queste tecnologie vengono create al servizio della società", afferma Jon Brandt, direttore di Adobe Research. "Di conseguenza, condividiamo tutti la responsabilità di affrontare i potenziali impatti negativi delle nuove tecnologie attraverso modifiche alle nostre istituzioni e convenzioni sociali".

2. Nvidia

I ricercatori di Nvidia hanno annunciato un nuovo sistema che utilizza una rete neurale basata sul deep learning per creare in modo efficace video fluidi di alta qualità in slow-motion da riprese fatte con una frequenza di fotogrammi standard.

I ricercatori dicono che sebbene i metodi esistenti per generare artificialmente riprese al rallentatore da video preesistenti siano piuttosto efficaci, tuttavia i risultati sono limitati dal numero di fotogrammi intermedi che si possono generare. Quindi, ad esempio, trasformare un video a 30 fps in un video a 60-fps a mezza velocità richiede semplicemente un fotogramma aggiuntivo da generare tra ogni fotogrammi registrati.

Ma se si vuole generare un video a 240 fps da un filmato a 30 fps, ciò richiede sette nuovi fotogrammi tra due immagini consecutive, ed è qui che le tecniche esistenti iniziano a fallire.

Per superare questo problema i ricercatori hanno sviluppato una rete neurale convoluzionale addestrata su oltre 11.000 video diversi che sono stati girati a 240-fps. Ciò ha permesso al sistema di apprendere con precisione il flusso ottico tra due immagini e quindi di prevedere in modo efficace quali immagini intermedie devono essere generate per creare un flusso tra i due.

I ricercatori di Nvidia dicono che: "Il nostro metodo può generare più fotogrammi intermedi che sono spazialmente e temporalmente coerenti. Il nostro approccio multi-frame sovraperforma costantemente i moderni metodi single frame".

Il video dimostrativo, che riportiamo qui sotto, è innegabilmente impressionante, partendo da diversi video di input, che vanno da 30-fps a 60-fps, questi sono stati rallentati fino a velocità di super slow-motion, cioè fino a 480-fps. Il video dimostra anche la versatilità del sistema prendendo riprese già registrate in slow-motion ad alta frequenza e rallentando ulteriormente.

Sebbene i nuovi smartphone, come il Samsung Galaxy S9 o iPhone X, hanno la capacità di scattare brevi video in slow-motion a frame rate elevati, i tecnici Nvidia ritengono che queste capacità, per risorse richieste, non siano efficaci per i dispositivi mobili di piccole dimensioni.

Secondo gli ingegneri di Nvidia: "Sebbene sia possibile scattare video a 240 fotogrammi al secondo con un telefono cellulare, la registrazione di tutto a frame rate elevati è poco pratica, in quanto richiede grandi memorie ed è ad alta intensità di energia per i dispositivi mobili".

Questo nuovo sistema offre nuove entusiasmanti possibilità per tutti, dai registi professionisti agli instagrammers professionisti. In questa fase la tecnologia è ancora nella sua fase di prototipo e potrebbe ancora essere troppo impegnativa per essere facilmente trasferita in uno smartphone.

"La potenza di elaborazione richiesta per fare questo tipo di trasformazioni è più di quello che oggi ha un telefono ", dice Jan Kautz, uno dei ricercatori di Nvidia in un'intervista con ZDnet, "ma si potrebbe immaginare di caricare [video] in un server - ci sono modi per farlo funzionare e distribuirlo agli utenti".

La nuova ricerca sarà presentata questo mese alla conferenza Computer Vision and Pattern Recognition (CVPR) a Salt Lake City, nello Utah.Link

3. Amazon e la Computer Vision come servizio cloud

Amazon è sotto una crescente pressione di gruppi di sostenitori dei diritti civili e dai suoi azionisti perché smetta di vendere la sua tecnologia di riconoscimento facciale alla polizia locale.

Solo pochi giorni dopo che i media hanno riportato quanto accaduto in una guerra fra gang, si è aperta una battaglia legale nel Regno Unito. Ci si interroga su gli usi della tecnologia di riconoscimento facciale e Amazon è stata bombardata da una massiccia petizione e diverse lettere chiedono che smetta di fornire una tecnologia simile ai governi e alle forze dell'ordine.

La questione è inizialmente affiorata all'inizio di maggio, quando l'American Civil Liberties Union (ACLU) ha rivelato una serie di documenti ed e-mail che mostravano come Amazon non stesse solo promuovendo la sua tecnologia di riconoscimento facciale, chiamata Rekognition, alle forze dell'ordine in tutto il paese, ma anche fornire attivamente risorse aziendali per aiutare a implementare i sistemi.

La prima dichiarazione pubblica di Amazon, e finora unica, riguardante la questione è stata una breve risposta di un portavoce che ha dichiarato : "La qualità della vita sarebbe molto peggiore oggi se mettessimo fuori legge la nuova tecnologia perché alcune persone potrebbero scegliere di abusare di questa stessa tecnologia. Non avremmo dovuto vendere un computer perché era possibile usare quel computer per scopi illegali?"

L'ultima azione, guidato dal ramo di Washington della ACLU, è orientata per affrontare l'azienda con una petizione firmata da oltre 150.000 cittadini, con una lettera di coalizione da quasi 70 diverse organizzazioni a livello nazionale e, forse la cosa più forte, una lettera co-firmata da 17 azionisti. Anche diversi giornali chiedono che Amazon smetta di vendere la sua tecnologia di riconoscimento facciale ai governi e alle forze dell'ordine.

"I diritti degli immigrati, le comunità di colore, i manifestanti e tanti altri cittadini saranno messi a rischio se Amazon offre questo sistema di sorveglianza così potente alle agenzie governative", dice Shankar Narayan, della ACLU di Washington. "Amazon dovrebbe ascoltare le voci della comunità e proteggere le libertà civili dei suoi clienti invece di saltare per creare un'infrastruttura di sorveglianza per il governo".

La parte più interessante di questa nuova azione di protesta è la pressione proveniente dagli azionisti. Se la lettera particolare fa riferimento alle libertà civili, alla privacy e alla precisione del sistema, suggerisce anche che questo problema potrebbe influire negativamente sul prezzo delle azioni della compagnia. È questo l'aspetto che potrebbe potenzialmente rivelarsi il più potente nel determinare come il CEO Jeff Bezos risponderà a questo problema.

"La recente esperienza e scrutinio di Facebook dimostra il grado in cui queste nuove problematiche possono minare il valore dell'azienda man mano che gli impatti negativi sulla società diventano chiari", scrivono gli azionisti nella loro lettera a Bezos.

Mentre il Regno Unito e gli Stati Uniti stanno iniziando a discutere di potenziali problemi di privacy che riguardano la crescente diffusione di questi sistemi di riconoscimento facciale, la Cina sta andando avanti, incorporandoli in una varietà di settori pubblici, dalla sorveglianza della polizia alle scuole.

Indipendentemente da chi abbia ragione o torto nel dibattito, gli azionisti possono forse indicare il fattore più importante per una società gigantesca come Amazon. È difficile vedere la via d'uscita per Amazon se non ritirandosi dal business del riconoscimento facciale. E con un dibattito sempre più rumoroso nelle nazioni democratiche non sarà certamente l'ultima volta che sentiremo parlare di questo tema.

4. Prospettive

La nostra capacità di generare immagini e filmati di eventi mai esistiti virtualmente indistinguibili da quelli di eventi reali fa immaginare alcuni possibili scenari prossimi che danno a pensare.Siamo forse di fronte a quella che possiamo definire la fine della realtà? In questo mondo digitale dobbiamo arrenderci di fronte al fatto che tutta la realtà sia manipolabile, algoritmizzabile e gestibile indipendentemente dai fatti, dalle storie e, in ultima analisi, da quello che fino ad oggi abbiamo chiamato realtà?

La narrazione oggi ha invaso il mondo politico. Nel dibattito pubblico le numerose sfide etiche che la nostra società deve affrontare sono presentate nella forma del racconto e della narrativa piuttosto che dell’argomentazione. Le questioni che normalmente raggiungono i media sono conflitti di valori che divengono dilemma. Sebbene la tradizione morale conosca in questi casi delle metodologie argomentative per cercare di risolvere i conflitti e i dilemmi oggi si ricorre ad un’altra metodologia lo storytelling. Lo storytelling, ovvero l’arte di raccontare storie che utilizza i principi della retorica e dell’oratoria, nasce in contemporanea alla comparsa dell’uomo sulla terra, ma oggi viene spesso associato all’esercizio del potere. Il moderno homo politicus, costretto dalla rete e dai mass media a una continua ed esasperante esposizione mediatica e deve fare i conti con questa inedita modalità.

L’etica narrativa, tuttavia, se analizzata non è un metodo analitico particolare, ma solo un modo linguistico di trasmettere il messaggio morale. Il linguaggio narrativo è usato anche nell'ambito scientifico, mediante esempi volti a chiarire, o rendere più comprensibili, concetti, distinzioni, asserzioni e acquisizioni. Tale uso narrativo coglie scopi e funzioni comunicative precipue, come facilitare la conoscenza e comprensione di argomentazioni, dimostrazioni, ipotesi, teorie ecc.

Il vantaggio di un approccio narrativo è il coinvolgimento del destinatario della comunicazione in un contesto che include anche una forte carica esistenziale ed emotiva. Ci sia consentito dire, a mo’ di slogan, che l’approccio narrativo muove non solo le coscienze ma anche i cuori. Particolarmente delicato in questo processo comunicativo è la presentazione e la valutazione degli argomenti. Le argomentazioni dovrebbero essere presentate e valutate per permettere di giungere a un corretto peso degli stessi argomenti e quindi alla formulazione di una corretta informazione e formazione etica.

Ora che queste storie possono essere raccontate non solo con parole non veritiere ma anche con immagini realistiche ma irreali che cosa può succedere? Come le democrazie saranno influenzate da queste nuove irrealtà digitali? Il potenziale trasformativo che hanno questi nuovi strumenti informatici per una società iperconnessa come al nostra è impressionante. Il dubbio, tutto etico, è come poter orientare questa innovazione verso il bene? Come assicurare un uso volto allo sviluppo e non al privilegio di pochi? Chi e a che livello può o deve gestire questa sfida? La tecnologia ora c'è ci serve l'etica.

#Etica #AI #Digitale #sicurezza #privacy

Paolo Benanti

Le AI, le immagini e i video: cambi d'orizzonte

Post recenti

Comments