Synthetic Data: democratizzare il Machine Learning

Paolo Benanti
22 mag 2018
Tempo di lettura: 8 min

Le grandi collezioni di dati visivi, composti da immagini e video, che sono il patrimonio accumulato dalle più potenti aziende tecnologiche nel mercato delle AI sono un vantaggio competitivo enorme. Questi database hanno scavato un fossato che mantiene i progressi dell'apprendimento automatico fuori dalla portata di molti players. Questo vantaggio sembra destinato ad essere annullato dall'avvento dei dati sintetici. Quale sfide per una filosofia e un'etica delle AI?

Le più importanti aziende tecnologiche del mondo, come Google, Facebook, Amazone Baidu, per citare alcuni dei big players, stanno sviluppando la computer vision e le AI per addestrare i loro computer. Raccolgono immense serie di dati visuali composti da immagini, video e altri dati visuali dai loro consumatori e li utilizzano per addestrare i loro alogirtmi

Questi set di dati sono un vantaggio competitivo per le principali aziende tecnologiche: avere questo patrimonio è quello che consente di tenere fuori dalla portata di molti competitors i progressi nel machine learning e nei processi che consentono ai computer e agli algoritmi di apprendere più rapidamente.

Guardando però a quanto sta accadendo, sembra che questo vantaggio possa scomparire grazie alla capacità di chiunque di creare e sfruttare dati sintetici per addestrare i computer. Si riesce ad addestrare efficientemente gli algoritmi con i dati sintetici, in molti scenari d'uso, incluso la vendita al dettaglio, la robotica, i veicoli a guida autonoma, il commercio e molto altro.

I dati sintetici sono dati generati dal computer che riproducono - o forse sarebbe meglio dire simulano - dati reali; in altre parole, sono dati creati da una simulazione computerizzata, non da un essere umano o da una attività reale. Oggi siamo in grado di progettare gli algoritmi software per creare dati simulati o, secondo questa dizione, dati sintetici "sintetici" realistici.

I data scientist e i software engineering utilizzano i Synthetic Data per insegnare a un computer come reagire a determinate situazioni o criteri, sostituendo questi ai dati di addestramento acquisiti in attività nel mondo reale. Nel processo di addestramento uno degli aspetti più importanti, tanto per i dati reali quanto per i sintetici, è quello di avere etichette precise - tag - in modo che i computer possano tradurre i dati visivi attribuendogli un significato.

Molte società sfruttano la visione artificiale, l'apprendimento automatico e l'intelligenza artificiale per analizzare i dati visivi in qualsiasi settore aziendale: assistenza sanitaria, robotica, logistica, cartografia, trasporto, produzione e molto altro. Molte startup, con idee veramente innovative, hanno il problema dell'avviamento a freddo - il cold bootstrap nei termini tecnici del business - perché non hanno abbastanza dati etichettati e con qualità sufficiente per addestrare i loro algoritmi: un sistema non può trarre alcuna inferenza per utenti o articoli sui quali non ha ancora raccolto informazioni sufficienti.

Le startup possono raccogliere i dati rilevanti contestualmente o collaborare con altri per raccogliere dati rilevanti. Per esempio ci si può rivolgere a dei rivenditori per i dati relativi ai comportamenti di acquisto o agli ospedali per i dati medici. Molte startup, quando sono nella fase iniziale, provano a risolvere il loro problema di avviamento a freddo creando simulatori di dati per generare dati contestualmente rilevanti con etichette di qualità al fine di addestrare i loro algoritmi.

Questo non è un problema che hanno le grandi aziende tecnologiche avendo fonti esponenziali nel loro business per raccogliere dati unici e contestualmente rilevanti.

Oltretutto i progressi ottenuti dai dati sintetici sono notevoli. Serge Belongie, un professore della Cornell Tech, che da 25 anni si occupa di computer vision, interrogato sul tema ha detto:

In passato [la computer vision] faceva attenzione all'utilizzo dei dati sintetici, poiché era fin troppo appariscente. Nonostante gli ovvi benefici di ottenere gratuitamente annotazioni veritiere sulla visione, la nostra preoccupazione era di addestrare un sistema che funzionasse nella grande nella simulazione, ma che avrebbe fallito miseramente nella natura. Ora il gioco è cambiato: il divario tra simulazione e realtà sta rapidamente scomparendo. Come minimo, possiamo pre-formare reti neurali convoluzionali molto profonde su immagini quasi fotorealistiche e sintonizzarle su immagini reali accuratamente selezionate.

Per esempio AiFi è una startup nella sua fase di sviluppo iniziale che sta realizzando una piattaforma per la visione artificiale e l'intelligenza artificiale per fornire una soluzione più efficiente e senza personale di cassa tanto per i convenience store a conduzione familiare quanto per le principali catene. Stanno costruendo una soluzione di pagamento senza check-in simile a Amazon Go.

I dipendenti di Amazon.com Inc. acquistano presso lo store Amazon Go di Seattle.

© Amazon Go; Fotografo: Mike Kane / Bloomberg via Getty Images

Come startup, AiFi ha avuto la tipica sfida a freddo con una mancanza di dati visivi da situazioni del mondo reale per iniziare ad allenare i suoi sistemi, invece Amazon, probabilmente ha raccolto dati reali per addestrare i suoi algoritmi mentre Amazon Go era ancora lontano dal lancio.

Gli avatar aiutano ad addestrare gli algoritmi di acquisto di AiFi. © AIFI

La soluzione di AiFi per la creazione di dati sintetici è diventata anche uno dei loro vantaggi tecnologici difendibili e differenziati. Attraverso il sistema AiFi, gli acquirenti saranno in grado di entrare in un negozio al dettaglio e raccogliere oggetti senza dover utilizzare contanti, una carta o codici a barre di scansione.

Questi sistemi intelligenti dovranno monitorare continuamente centinaia o migliaia di acquirenti in un negozio e riconoscerli o "re-identificarli" durante una sessione di acquisto completa.

Simulazione del negozio AiFi con dati sintetici. © AIFI

Ying Zheng, co-fondatore e chief science officer di AiFi, aveva precedentemente lavorato con Apple e Google. L'imprenditrice racconta:

Il mondo è vasto e difficilmente può essere descritto da un piccolo campione di immagini e tag reali. Per non parlare del fatto che l'acquisizione di tag di alta qualità richiede tempo e denaro, e talvolta è irrealizzabile. Con i dati sintetici, possiamo catturare pienamente un aspetto piccolo ma rilevante del mondo con dettagli perfetti. Nel nostro caso, creiamo simulazioni di negozi su larga scala e rendiamo immagini di alta qualità con etichette perfette per pixel e li usiamo per addestrare con successo i nostri modelli di deep learning. Ciò consente ad AiFi di creare soluzioni senza check-out superiori su vasta scala.

La robotica è un altro settore che utilizza dati sintetici per addestrare robot per varie attività nelle fabbriche, nei magazzini e in tutta la società.

Josh Tobin è uno scienziato ricercatore presso OpenAI , una società di ricerca di intelligenza artificiale senza scopo di lucro che mira a promuovere e sviluppare un'intelligenza artificiale che possa portare vantaggio a tutta l'umanità. Tobin fa parte di una squadra che lavora alla costruzione di robot che apprendono. Si sono addestrati interamente con dati simulati e poi li hanno portati su un robot fisico, che ora , in modo quasi incredibile, può imparare un nuovo compito dopo aver visto un'azione eseguita una volta.

Hanno sviluppato e implementato un nuovo algoritmo chiamato apprendimento per imitazione one-shot, che consente all'uomo di comunicare come eseguire un nuovo compito eseguendolo nella realtà virtuale. Data una singola dimostrazione, il robot è in grado di risolvere lo stesso compito da un punto di partenza arbitrario e quindi di continuare l'attività.

© OpenAI

L'obiettivo è quello di apprendere i comportamenti nella simulazione e quindi trasferire questi apprendimenti nel mondo reale. L'ipotesi era di vedere se un robot può fare cose precise altrettanto bene dai dati simulati. Iniziarono con dati simulati al 100% e pensarono che non avrebbe funzionato bene come usare dati reali per addestrare i computer. Tuttavia, i dati simulati per la formazione di compiti robotici hanno funzionato molto meglio di quanto si aspettassero.

Intervistato sul tema Tobin dice:

Creare un simulatore di dati sintetici accurato è davvero difficile. Esiste un fattore di precisione di 3-10 volte tra un modello ben addestrato su dati sintetici e dati reali. C'è ancora un vuoto. Per molte attività la performance funziona bene, ma per la precisione estrema non volerà ancora.

Osaro è un'azienda di intelligenza artificiale che sviluppa prodotti basati sulla tecnologia di apprendimento con rinforzo profondo che si occupa di automazione nella robotica industriale. Il co-fondatore e amministratore delegato di Osaro, Derik Pridmore, afferma che "non c'è dubbio che la simulazione autorizzi le startup. È un altro strumento nella cassetta degli attrezzi. Utilizziamo dati simulati sia per la prototipazione rapida che per la sperimentazione di nuovi modelli, nonché in modelli addestrati destinati all'uso nel mondo reale".

Molte grandi aziende tecnologiche, produttori di automobili e start-up stanno correndo verso la realizzazione della dei veicoli a guida autonoma. Gli sviluppatori hanno capito che non ci sono abbastanza ore in un giorno per raccogliere dati reali sufficienti che coprano i chilometri necessari da percorrere per insegnare alle auto come guidare.

Una soluzione che alcuni stanno usando sono dati sintetici da videogiochi come Grand Theft Auto: sfortunatamente, alcuni dicono che la casa madre del gioco, Rockstar, non sia felice che le auto a guida autonome imparino dal loro gioco.

Una strada in GTA V (a sinistra) e la sua ricostruzione tramite i dati di acquisizione (a destra).

May Mobility è una startup che sta costruendo un servizio di microtransito con veicoli self-driving. Il loro CEO e fondatore, Edwin Olson, parlando dei synthetic data dice:

Uno dei nostri usi dei dati sintetici è nel valutare le prestazioni e la sicurezza dei nostri sistemi. Tuttavia, non crediamo che una quantità ragionevole di test (reali o simulati) sia sufficiente a dimostrare la sicurezza di un veicolo autonomo. La sicurezza funzionale svolge un ruolo importante. La flessibilità e la versatilità della simulazione rendono particolarmente prezioso e molto più sicuro addestrare e testare veicoli autonomi in queste condizioni estremamente variabili. I dati simulati possono anche essere etichettati più facilmente poiché creati dai computer, risparmiando così molto tempo.

Neuromation sta costruendo una piattaforma dati sintetica distribuita per applicazioni di deep learning. Il loro CEO, Yashar Behzadi, dice:

Ad oggi, le principali società di piattaforme hanno sfruttato questi fossati costituiti dai dati per mantenere il loro vantaggio competitivo. I dati sintetici sono un grande disruttore di questi vantaggi, in quanto riducono significativamente i costi e la velocità di sviluppo, consentendo ai team piccoli e agili di competere e vincere.

La sfida e l'opportunità per le startup di competere con i grandi è nello sfruttare migliori dati visivi con etichette corrette per addestrare i computer con precisione per diversi casi d'uso. La simulazione dei dati accorcierà la distanza nel gioco tra le grandi aziende tecnologiche e le startup. Nel corso del tempo, le grandi aziende probabilmente creeranno anche loro dati sintetici per aumentare i loro dati reali, e un giorno questo potrebbe sbilanciare di nuovo il campo di gioco.

A questo punto però la questione diviene di natura filosofica ed etica. Il primo punto è di natura epistemologica. Le AI funzionano trovando significato e attribuendo correlazioni a grandi set di dati. Ora questo significato e il suo valore epistemologico è di per se problematico e da comprendere fino in fondo. Quanto le AI offrano conoscenza e di che tipo è una questione che abbiamo affrontato più volte su questo blog e che è questione centrale nel libro Oracoli della serie Collassi di Luca Sossela editore.

Ora la questione qui è ulteriormente complessa: la virtualità offre conoscienze sulla realtà con una pretesa veritativa e di orientamento sulle azioni autonome degli algoritmi di AI.

Oltre a questo ulteriore punto epistemologico si apre una maggiore questione etica.

Se le Ai e i loro sistemi automatizzati presentano questioni etiche, come abbiamo già visto in passato, ora le AI addestrate su dati sintetici presentano nuovi inquietanti scenari: come garantire la correttezza dell'addestramento algoritmico? Come garantire la sicurezza dei sistemi messi in produzione se questi non sono mai stati realmente testati?

Infine ci si dovrebbe chiedere se il consumatore o l'utente dovesse essere informato di questo background delle AI: dovremmo forse pensare un marchio che avvisi il consumatore di stare utilizzando un sistema che si è addestrato o è basato sull'utilizzo di dati sintetici?

Tutto questo è una democratizzazione delle AI o è un elegante termine commerciale che nasconde la volontà di produrre business con sistemi tecnologicamente meno adeguati o più fragili?

Lo scenario si complica, Per poter gestire questa complessità è sempre più necessaria un'adeguata filosofia degli algoritmi e una appropriata algor-etica.

#Etica #algoritmo #filosofia #AI

Paolo Benanti

Synthetic Data: democratizzare il Machine Learning

Post recenti

Commenti