La natura rivoluzionaria delle AI: il caso Q*bert e l'urgenza etica

Paolo Benanti
3 mar 2018
Tempo di lettura: 12 min

Un'AI è stata programmata per giocare a Q*bert e ha battuto ogni record in un modo che nessuno ha mai visto prima: trovando un bug e barando. Questo episodio ha il potere di svelare la vera natura dell'innovazione portata dalle AI, in che modo sono un game changer e i rischi etici di un mondo con AI diffusa.

Chi come il sottoscritto è cresciuto negli anni Ottanta ricorda i lunghi pomeriggi d'estate trascorsi ad esplorare il mondo in sella a una bici da cross a tre marce o a una BMX, gli skateboards a velocità folli per discese fortunatamente poco trafficate, le fionde costruite con elastici e rami, il frisbee, le partite a pallone interminabili, le sfide a ping pong o a biliardino e le case sull'albero a sognare un futuro da grandi. Ma anche i giorni piovosi e freddi avevano i loro ricordi. Le sessioni interminabili di Dungeons & Dragons, i giochi da tavola, con Risiko a farla da padrone, le carte e poi i videogiochi Atari prima e Commodore poi.

Tra questi un grande cllassico, oltre all'indimenticabile Donkey Kong era Q*bert della Atari.

Oggi l'utilizzo di questi giochi per l'interazione con le AI è il passatempo preferito diella mia generazione divenuta innovatrice e manager della transizione al mondo dell'Intelligenza Artificiale. Da un punto di vista ingegneristico e computazionale i videogiochi anni Ottanta sono perfetti per testare i nostri nuovi giochi da adulti basati sul Machine learning, sul Deep Learning e su le librerie Tensorflow. I ricercatori dispongono di un ambiente virtuale già pronto, il platform degli anni 80, sufficientemente semplice, girava su processori primitivi, ma sufficientemente complesso è un gioco, per simulare un'interazione che richieda una forma di intelligenza per essere risolta.

Il tutto con obiettivi predefiniti che si possono controllare completamente. Inoltre, cosa non da poco considerando che stiamo sviluppando AI che controlleranno automobili, aerei o navi carichi di passeggeri o sistemi di arma da fuoco, il bot dotato di AI può andare in giro senza fare alcun danno.

Le AI però sembrano essere dispettose come lo eravamo noi nella nostra infanzia quando le nostre scorribande sfociavano non in avventure epiche ma in disastri colossali. Portavamo ossa rotte e vistosi lividi da da traiettorie non così perfette dei nostri skates o vetri frantumati da lanci con fionde che non si avvicinavano neanche lontanamente alla precisione dei razzi di Elon Musk e di Space X.... si sa che il progresso tecnologico ha sempre richiesto dei sacrifici e dei sogni di bambini che sanno vedere l'avventura in una pozzanghera (citazione solo per alcuni...)

Il caso che voglio prendere in questione è particolarmente significativo e proviene da un articolo pubblicato questa settimana da un trio di ricercatori dell'Università di Friburgo in Germania che lavorano sul machine learning.

La descrizione del loro esperimento è la seguente

Le Strategie di evoluzione (ES) si sono dimostrate come un'alternativa valida agli algoritmi di apprendimento di rinforzo (RL) su una serie di difficili problemi annessi al deep RL, compresi i giochi Atari e i parametri di riferimento della locomozione umanoide MuJoCo. Mentre gli algoritmi ES di quell'opera appartenevano alla classe specializzata delle strategie di evoluzione naturale (che assomigliano agli algoritmi RL a gradiente approssimativo, come REINFORCE), dimostriamo che anche un algoritmo ES canonico di base può ottenere le stesse o anche migliori prestazioni. Questo successo di un algoritmo ES di base suggerisce che lo stato dell'arte può essere ulteriormente migliorato integrando i molti progressi compiuti nel campo dell'ES negli ultimi decenni. Dimostriamo anche qualitativamente che gli algoritmi ES hanno caratteristiche di performance molto diverse rispetto agli algoritmi RL tradizionali: su alcuni giochi, imparano a sfruttare l'ambiente e ad esibirsi molto meglio mentre su altri possono rimanere bloccati in minimi locali subottimali. Pertanto, combinando i loro punti di forza con quelli degli algoritmi RL tradizionali è probabile che porti a nuovi progressi nello stato dell'arte.

Tradotto in termini più divulgativi i ricercatrori di Friburgo stavano esplorando un particolare metodo per insegnare alle AI a muoversi e giocare ai videogiochi. Nel caso specifico a dei porting desktop di vecchi titoli Atari degli anni '80. A questo punto hanno scoperto qualcosa di strano. Il software che stavano testando ha scoperto un bug nel porting del videogioco Q*bert che gli ha permesso di accumulare punti quasi infiniti battendo ogni record precedente (umano o delle macchine).

Come il terzetto descrive nel documento, per ora pubblicato sul server di pre-pub arXiv, il bot stava imparando come giocare a Q*bert quando ha scoperto una soluzione interessante. Normalmente, in Q*bert, i giocatori saltano da un cubo all'altro, con questa azione il software cambia i colori delle piattaforme su cui si salta.

Se il giocatore cambia tutti i colori e sconfigge alcuni nemici è ricompensato con dei punti e passa al livello successivo. L'intelligenza artificiale ha però trovato un modo migliore: innanzitutto, completa il primo livello e poi inizia a saltare da una piattaforma all'altra in quello che sembra essere un modo casuale. Per una ragione a noi sconosciuta, quello che chiameremo un bug del sistema, il gioco non avanza al secondo livello ma le piattaforme iniziano a lampeggiare e il giocatore bot guadagna rapidamente una quantità enorme di punti (vicino a 1 milione ma solo per un limite del contatore del gioco).

Questa stranezza è stata condivisa su Twitter dal ricercatore del mondo delle AI Miles Brundage. Il reporter Tom Simonite si è unito alla conversazione e ha inserito nella conversazione il designer di Q*bert, Warren Davis, chiedendogli se prima si fosse mai imbattuto in questo bug. Davis ha detto che non ha lavorato a quella particolare versione del gioco, ma ha commentato: "Questo comportamento del software certamente non sembra corretto, ma non credo che vedresti lo stesso comportamento nella versione arcade".

In ogni caso, questo non sembra essere un exploit del gioco che nessun essere umano ha mai scoperto prima. Se il bot AI potesse pensare, probabilmente si chiederebbe il motivo per cui dovrebbe preoccuparsi di saltare su tutte queste caselle quando esiste un modo molto più efficace per guadagnare punti.

È importante notare, tuttavia, che il bot AI non ha approcciato questo problema nello stesso modo in cui lo farebbe un essere umano. Non sta cercando attivamente degli exploit nel gioco con una visione computerizzata simile a Matrix. Il documento pubblicato è in realtà un test di un'ampia categoria di ricerche sull'IA noto come algoritmi evolutivi. Il sistema testa diversi algoritmi mettendoli l'uno contro l'altro per vedere quale può meglio completare un determinato compito, quindi il sistema aggiunge piccole modifiche o mutazioni ai sopravvissuti - cioè ai più preformanti - per vedere se poi vanno meglio. In questo modo, gli algoritmi stanno lentamente migliorando. Al momento questa non è la forma più potente o più diffusa di AI che striamo sviluppando, ma la situazione, grazie anche a queste evoluzioni del mondo della ricerca sta cambiando.

La capacità di crackare Q*bert potrebbe essere letta come buon auspicio per l'uso degli algoritmi evolutivi nel futuro delle AI o potrebbe, anzi dovrebbe, farci fare delle profonde domande di senso.

In primo luogo ci sembra di doverci chiedere che tipo di conoscenza e a seguire che tipo di azione produce un sitema AI evolutivo. Quello che appare chiaro è che nonostante le linee di setup e di condotta (le regole del gioco) fossero chiare e quanto mai semplificate, cioè si potesse escludere qualsiasi effetto di complessità non voluto, il sistema si è evoluto, continuiamo utilizzare questo termine anche se ci sembra improprio. Cioè l'algoritmo ha selezionato e modificato se stesso ottimizzandosi su un fine dell'azione, il punteggio, ignorando le regole e la normatività che gli era stata data.

Tradotto in uno scenario, cioè un orizzonte di possibile situazioni che serve a stimolare con narrativa e argomentazione le capacità di analisi, se ci fossimo trovati con una macchina a guida autonoma evolutiva il veicolo avrebbe potuto sfruttare il bug costitutivo che hanno i pedoni. Un essere umano è un ostacolo che può essere investito ed eliminato consentendo di raggiungere la destinazione più in fretta.

Allora il problema con i bot di AI è che superando il modello classico della programmazione "if this than that" si rilasciano agenti che seguono un loro fine ma che non sembrano avere vincoli rispetto ai modi di raggiungimento (vincoli intendiamo prevedibili interamente a priori).

La questione solleva qui un'altro livello del problema: la dimensione etica delle intelligenze artificiali. SI tratta di creare e implementare un framework etico che gestisca la progettazione, la realizzazione e il funzionamento delle AI. Il primo e più urgente punto che le intelligenze artificiali pongono nell’agenda dell’innovazione del lavoro è quello di adattare le nostre strutture sociali a questa nuova e inedita società fatta di agenti autonomi misti.

Una primissima sfida è di natura filosofica e antropologia. Queste frontiere dell’innovazioni, la realizzazione di queste macchine sapiens, per utilizzare un termine molto evocativo, ci interroga in profondità sulla specificità dell’Homo sapiens e in particolare su quale sia la specifica componente e qualità umana del lavoro rispetto a quella macchinica: le rivoluzioni industriali hanno dimostrato che non è l’energia, non è la velocità e, ora, che anche la cognizione e l’adattabilità alla situazione non sono specifiche solamente umane. In primo luogo cercheremo di formulare una direttiva fondamentale che deve essere garantita dalle AI e dai robot e poi cercheremo di definire cosa questi sistemi cognitivi autonomi devono imparare per poter convivere e lavorare cooperativamente con l’uomo.

La prima e fondamentale direttiva da implementare può essere racchiusa nell’adagio latino primum non nocere. La realizzazione di tecnologie controllate da sistemi di AI porta con sé una serie di problemi legati alla gestione dell’autonomia decisionale di cui questi apparati godono. La capacità dei robot di mutare il loro comportamento in base alle condizioni in cui operano, per analogia con l’essere umano, viene definita autonomia. Per indicare tutte le complessità che derivano da questo tipo di libertà decisionale di queste macchine si è introdotto il termine Artificial Moral Agent (AMA): parlando di AMA si indica quel settore che studia come definire dei criteri informatici per creare una sorta di moralità artificiale nei sistemi AI portando alcuni studiosi a coniare l’espressione macchine morali per questi sistemi.

Quando si usa il termine autonomia legato al mondo della robotica si vuole intendere il funzionamento di sistemi di AI la cui programmazione li rende in grado di adattare il loro comportamento in base alle circostanze in cui si trovano ad operare . Un esempio classico di applicazione di questa direttiva fondamentale, chiamato situazione dei due carrelli, è stato formulato da Philippa Foot nel 1967 mentre si sperimentavano i primi sistemi di guida automatica dei mezzi per il trasporto di passeggeri negli aeroporti. Nel caso presentato dalla Foot un veicolo si avvicina a un incrocio e realizza che un altro veicolo, con cinque passeggeri, in direzione opposta è in traiettoria di collisione. Il primo veicolo può o continuare sulla sua traiettoria e urtare il veicolo che procede verso uccidendo i cinque passeggeri a bordo o sterzare e colpire un pedone uccidendolo. La Foot si chiedeva: se noi fossimo alla guida del veicolo cosa faremmo? E un sistema robotizzato cosa dovrebbe fare? Giungendo alla conclusione che la macchina autonoma deve essere programmata per evitare assolutamente di ferire o uccidere l’essere umano e che, se in situazioni estreme, non fosse possibile evitare di nuocere all’uomo avrebbe dovuto scegliere il male minore.

Tuttavia racchiudere tutta la questione degli agenti morali autonomi, dell’utilizzo di robot cognitivi in un ambiente di lavoro misto umano-robotico non può esaurirsi in questa direttiva primaria. Sfruttando un linguaggio evocativo potremmo dire che le macchine sapienti/autonome per poter coesistere con i lavoratori umani devono imparare almeno quattro cose. Questi quattro elementi possiamo capirli come una declinazione operativa della dignità insita nel lavoratore umano. Solo se le macchine sapranno interagire con l’uomo secondo queste direzioni allora non solo non nuoceranno alla persona ma ne sapranno tutelare la dignità e l’inventività senza mortificarne l’intrinseco valore.

Intuizione. Quando due esseri umani cooperano normalmente l’uno riesce ad anticipare e assecondare le intenzioni dell’altro perché riesce ad intuire cosa sta facendo o cosa vuole fare. Si pensi alla situazione in cui vediamo una persona che cammina con le braccia piene di pacchi. Istintivamente capiamo che la persona sta trasportando quei pacchi e la aiutiamo rendendole il lavoro più semplice o trasportando per lei parte del fardello che le ingombra le braccia. Questa capacità umana è alla base della grande duttilità che caratterizza la nostra specie e che ci ha permesso di organizzarci fin dai tempi più antichi riuscendo a cooperare nella caccia, nell’agricoltura e poi nel lavoro. In un ambiente misto uomo-robot le AI devono essere in grado di intuire cosa gli uomini vogliono fare e adattarsi alle loro intenzioni cooperando. Solo in un ambiente di lavoro in cui le macchine sapranno capire l’uomo e assecondare il suo agire potremo veder rispettato l’ingegno e la duttilità umana. La macchina si deve adattare all’uomo e alla sua unicità e non viceversa.
Intellegibilità. I robot in quanto macchine operatrici funzionano secondo algoritmi di ottimizzazione. I software ottimizzano l’uso energetico dei loro servomotori, le traiettorie cinematiche e le velocità operative. Se un robot deve prendere un contenitore cilindrico da una fila di contenitori il suo braccio meccanico scarterà verso il contenitore prescelto secondo una traiettoria di minimo consumo energetico e temporale. Un uomo di contro se deve prendere lo stesso barattolo si muoverà verso di quello in una maniera che fa capire a chi gli è intorno cosa stia tentando di fare. L’uomo è in grado, nel vedere un altro uomo che compie un’azione, di capire cosa stia per fare in forza non dell’ottimizzazione dell’azione altrui ma della sua intellegibilità. Il modo di compiere le azioni rende l’agito intellegibile e prevedibile. Se vogliamo garantire un ambiente di lavoro misto in cui l’uomo possa coesistere con la macchina il modo di compiere le azioni della macchina dovrà essere intellegibile. Dovremmo far sì che la persona che condivide con la macchina lo spazio di lavoro possa sempre essere in grado di intuire qual è l’azione che la macchina sta per compiere. Questa caratteristica è necessaria, tra l’altro, per permettere all’uomo di coesistere in sicurezza con la macchina non esponendosi mai a eventuali situazioni dannose. Non è l’ottimizzazione dell’agito della macchina la più importante finalità che deve caratterizzare i suoi algoritmi ma il rispetto dell’uomo.
Adattabilità. Un robot dotato di AI si adatta all’ambiente e alle circostanze per compiere delle azioni autonome. Tuttavia non si tratta di progettare e realizzare algoritmi di intelligenza artificiale che siano in grado di adattarsi solo all’imprevedibile condizione dell’ambiente donando alla macchina una sorta di consapevolezza sulla realtà che la circonda. In una situazione di cooperazione e lavoro mista tra uomo e macchina il robot deve adattarsi anche alla personalità umana con cui coopera. Per esemplificare questa caratteristica proviamo a fare un esempio. Supponiamo di avere un’automobile a guida autonoma. La macchina dovrà adattarsi alle condizioni del traffico: in condizioni di intenso traffico se la macchina non possiede degli efficienti algoritmi di adattabilità rischia di rimanere sempre ferma perché gli altri veicoli a guida umana le passeranno sempre avanti cercando di evitare l’ingorgo. Oppure se non fosse abbastanza adattabile rischierebbe di causare degli incidenti non capendo l’intenzione furtiva di cambiare corsia del guidatore che ha davanti. Tuttavia vi è un ulteriore e più importante adattamento che la macchina deve saper fare: quello alla sensibilità dei suoi passeggeri. Qualcuno potrebbe trovare la lentezza della macchina nel cambiare corsia esasperante o, al contrario, potrebbe trovare il suo stile di guida troppo aggressivo e vivere tutto il viaggio con l’insostenibile angoscia che un incidente sia imminente. La macchina deve adattarsi alla personalità con cui interagisce. L’uomo non è solo un essere razionale ma anche un essere emotivo e l’agire della macchina deve essere in grado di valutare e rispettare questa unica e peculiare caratteristica del suo partner di lavoro. La dignità della persona è espressa anche dalla sua unicità. Saper valorizzare e non mortificare questa unicità di natura razionale-emotiva è una caratteristica chiave per una coesistenza che non sia un detrimento della parte umana.
Adeguatezza degli obiettivi. Un robot è governato da degli algoritmi che ne determinano delle linee di condotta. Si pensi a uno di quei robot casalinghi in vendita nei negozi di elettrodomestici che in maniera autonoma pulisce il pavimento raccogliendo la polvere. I suoi algoritmi sono programmati per questo ma il robot è programmato per raccogliere la polvere o per raccogliere il massimo della polvere possibile? Se in un ambiente di sole macchine l’assolutezza dell’obiettivo è una policy adeguata in un ambiente misto di lavoro uomo-robot questo paradigma non sembra essere del tutto valido. Se il robot vuole interagire con la persona in una maniera che sia conveniente e rispettosa della sua dignità deve poter aggiustare i suoi fini guardando la persona e cercando di capire qual è l’obiettivo adeguato in quella situazione. Si pensi a una situazione in cui un lavoratore e un robot cooperino nella realizzazione di un artefatto. Il robot non può avere come unica policy l’assolutezza del suo obiettivo come se fosse la cosa più importante e assoluta ma deve saper adeguare il suo agire in funzione dell’agire e dell’obiettivo che ha la persona che con lui coopera.

In altri termini si tratta di acquisire, ci si perdoni il termine, una sorta di umiltà artificiale che, tornando all’esempio del robot aspirapolvere, consenta alla macchina di comprendere se deve aspirare tutta la polvere possibile o in questo momento aspirare solo un po’ di polvere e poi tornare a compiere questa funzione più tardi perché sono sorte altre priorità nelle persone che in quel momento sono nella stanza. Si tratta di stabilire che la priorità operativa non è nell’algoritmo ma nella persona che è luogo e sede di dignità. In un ambiente misto è la persona e il suo valore unico ciò che stabilisce e gerarchizza le priorità: è il robot coopera con l’uomo e non l’uomo che assiste la macchina.

Se queste quattro direttrici possono essere quattro dimensioni di tutela della dignità della persona nella nuova e inedita relazione tra uomo e macchina sapiens/autonoma bisogna poterle garantire in maniera certa e sicura. Si devono allora sviluppare degli algoritmi di verifica indipendenti che sappiano in qualche modo quantificare e certificare questa capacità di intuizione, intellegibilità, adattabilità e adeguatezza degli obiettivi del robot. Questi algoritmi valutativi devono essere indipendenti e affidati ad enti terzi certificatori che si facciano garanti di questo. Serve implementare da parte del governo un framework operativo che, assumendo questa dimensione valoriale, la trasformi in strutture di standardizzazione, certificazione e controllo che tutelino la persona e il suo valore in questi ambienti misti uomo-robot.

Si tratta di realizzare organismi che siano in qualche modo analoghi a quanto già in essere per la “Direttiva Macchine”: con l’entrata in vigore del DPR 459/1996 l’Italia era entrata a far parte dell’insieme degli Stati Europei che, avendo recepito la “Direttiva Macchine”, garantiscono la libera circolazione nel mercato comune europeo soltanto alle macchine che, rispettando determinati requisiti di sicurezza, possiedono la marcatura CE di conformità, la quale può essere rilasciata dal fabbricante o certificata da un organismo verificatore ufficiale. Ora non si tratta semplicemente di fare controlli sulla sicurezza di installazione e delle condizioni operative delle macchine ma di garantire che la componente autonoma di questi nuovi artefatti intelligenti rispetti sempre e in ogni condizione le direttive etiche fondamentali che abbiamo tracciato.

Per cui non bastano standard ma servono algoritmi che sappiano valutare in maniera intelligente l’adeguatezza delle intelligenze artificiali destinate a coesistere e cooperare con il lavoratore umano.

Solo in questa maniera potremmo non subire l’innovazione tecnologica ma guidarla e gestirla nell’ottica di un autentico sviluppo umano anche nell’era dei robot e delle intelligenze artificiali.

#tecnologia #AI #robot #etica

Paolo Benanti

La natura rivoluzionaria delle AI: il caso Q*bert e l'urgenza etica

Post recenti

Comments