Sora di OpenAI è un modello di intelligenza artificiale avanzato che ha la capacità di creare video realistici e immaginativi a partire da istruzioni testuali. Questo modello AI rappresenta un passo significativo nell'ambito della generazione di contenuti video, poiché può generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati relativi al soggetto e allo sfondo. Sora è in grado di comprendere non solo ciò che l'utente ha richiesto nel prompt, ma anche come questi elementi esistono nel mondo fisico, grazie a una profonda comprensione del linguaggio che gli consente di interpretare accuratamente le istruzioni e generare personaggi che esprimono emozioni vivide.
Il Garante per la Privacy italiano ha avviato un'istruttoria su Sora per valutare le possibili implicazioni che il servizio potrebbe avere sul trattamento dei dati personali degli utenti nell'Unione Europea. Non voglio qui commentare questa funzione censoria del Garante che dopo ChatGPT torna su Sora alla ricerca del dato violato. Mi interessa, come fatto in precedenza per GPT-4 e ChatGPT focalizzare l'attenzione sui paper tecnici collegati al rilascio degli strumenti per cercare di capire cosa di questo strumento ha il potere di cambiare con le proprie capacità.
Analisi tecnica.
Il modello può creare video fino a un minuto di lunghezza, mantenendo la qualità visiva e l'aderenza al prompt dell'utente. Ovviamente, Sora presenta alcune limitazioni, come la difficoltà nel simulare accuratamente la fisica di una scena complessa o nel comprendere specifiche istanze di causa ed effetto. Ad esempio, potrebbe non riuscire a mostrare un segno di morso su un biscotto dopo che una persona lo ha morso, o potrebbe confondere i dettagli spaziali di un prompt, come mescolare sinistra e destra.
Secondo la relazione tecnica che ha accompagnato il rilascio di Sora il metodo di OpenAi trasforma i dati visivi di tutti i tipi in una rappresentazione unificata che consente l'addestramento su larga scala di modelli generativi e la valutazione qualitativa delle capacità e dei limiti di Sora (N.B. i dettagli del modello e dell'implementazione non sono stati inclusi nella relazione). Sora si presenta come un modello generale di dati visivi: è in grado di generare video e immagini con durate, rapporti di aspetto e risoluzioni diverse, fino a un minuto intero di video ad alta definizione.
Seguendo il report tecnico scopriamo che, come accaduto per GPT-4, questi modelli video mostrano una serie di interessanti capacità emergenti quando vengono addestrati in scala. Queste capacità permettono a Sora di simulare alcuni aspetti di persone, animali e ambienti del mondo fisico. Queste proprietà emergono senza alcun pregiudizio induttivo esplicito per il 3D, gli oggetti e così via: si tratta di fenomeni puramente di scala.
Consistenza 3D. Sora può generare video con movimenti dinamici della telecamera. Mentre la telecamera si sposta e ruota, le persone e gli elementi della scena si muovono in modo coerente nello spazio tridimensionale.
Coerenza a lungo raggio e permanenza degli oggetti. Una sfida significativa per i sistemi di generazione video è stata quella di mantenere la coerenza temporale quando si campionano video lunghi. Abbiamo scoperto che Sora è spesso, anche se non sempre, in grado di modellare efficacemente le dipendenze a breve e a lungo raggio. Ad esempio, il nostro modello è in grado di far persistere persone, animali e oggetti anche quando sono occlusi o escono dall'inquadratura. Allo stesso modo, è in grado di generare più inquadrature dello stesso personaggio in un singolo campione, mantenendone l'aspetto per tutto il video.
Interazione con il mondo. Sora può talvolta simulare azioni che influenzano lo stato del mondo in modo semplice. Ad esempio, un pittore può lasciare nuove pennellate lungo una tela che persistono nel tempo, oppure un uomo può mangiare un hamburger e lasciare segni di morsi.
Simulare mondi digitali. Sora è anche in grado di simulare processi artificiali: un esempio sono i videogiochi. Sora è in grado di controllare contemporaneamente il giocatore di Minecraft con una politica di base e di renderizzare il mondo e le sue dinamiche in alta fedeltà. Queste capacità possono essere ottenute a colpo sicuro, richiedendo a Sora didascalie con la dicitura "Minecraft".
Queste capacità suggeriscono che il continuo ridimensionamento dei modelli video è un percorso promettente verso lo sviluppo di simulatori ad alta capacità del mondo fisico e digitale e degli oggetti, animali e persone che lo abitano.
La cosa che più mi impressiona è questa idea di poter simulare la realtà. Su questo vorrei focalizzare alcune considerazioni.
Simulare la realtà?
La simulazione del mondo fisico attraverso l'intelligenza artificiale (AI) offre numerosi vantaggi che stanno trasformando radicalmente diversi settori, dalla manifattura all'ingegneria, fino alla ricerca scientifica. Questi vantaggi includono l'ottimizzazione dei processi produttivi, la riduzione dei costi e dei tempi di sviluppo, l'incremento della sicurezza e la promozione dell'innovazione.
Ottimizzazione dei Processi e Riduzione dei Costi.
La capacità di simulare accuratamente scenari complessi nel mondo fisico consente alle aziende di ottimizzare i processi produttivi e di progettazione. La piattaforma PhysicsX, ad esempio, offre vantaggi significativi rispetto ai metodi tradizionali di simulazione e test ingegneristici, consentendo un approccio più efficiente e meno costoso allo sviluppo di prodotti. Inoltre, l'eliminazione della necessità di creare prototipi fisici comporta un risparmio sostanziale di materiali ed energia, contribuendo alla produzione di prodotti più sostenibili.
Incremento della Sicurezza e della Qualità.
Le simulazioni AI-driven permettono di anticipare e risolvere potenziali problemi prima che diventino critici, migliorando la sicurezza e la qualità dei prodotti. Ad esempio, i gemelli digitali, che sono modelli virtuali ad alta complessità di oggetti fisici, utilizzano l'apprendimento automatico e la simulazione per promuovere il processo decisionale e migliorare la manifattura e il ciclo di vita dei prodotti.
Promozione dell'Innovazione.
La simulazione del mondo fisico con l'AI libera il potenziale di innovazione delle aziende. Consentendo di eseguire un gran numero di simulazioni e di testare più opzioni in tempi brevi, le aziende possono esplorare nuove idee e approcci senza il rischio e il costo associati alla prototipazione fisica. Questo approccio apre la strada a soluzioni innovative e a miglioramenti significativi nei prodotti e nei processi.
Applicazioni nel Metaverso e nella Realtà Virtuale.
L'integrazione dell'AI con tecnologie come il metaverso e la realtà virtuale (VR) crea nuove opportunità per simulazioni immersive e interattive. Queste tecnologie possono essere combinate per creare esperienze innovative, migliorando l'interazione con oggetti virtuali e consentendo agli utenti di sperimentare scenari in modo più realistico e naturale. Inoltre, l'industrial Metaverse, abilitato dall'intelligenza artificiale, promuove la tecnologia dei gemelli digitali per aiutare i decision-maker a prendere decisioni informate tempestivamente.
La simulazione della realtà, ingegneristicamente parlando, a partire da quando l'IEEE ha definito il concetto di digital twin, ha un interesse enorme sul controllo e l'anticipazione nel mondo fisico.
Simulatore universale?
Ora tutto questo incontra un AI generativa generale. Questo poterebbe cambiare il gioco. Cosa accadrebbe se potessimo simulare l realtà con un prompt? Quali usi nel design di scenari che spingono le persone a fare scelte o traiettorie fisiche o esistenziali prevedibili o forzabili? Che sfide per una generazione che è cresciuta nei mondi virtuali dei MMO (Massively multiplayer online game) e che ha nutrito generazioni di behavioral alghoritms? Ci prepariamo a un Minority Report sul futuro dei comportamenti? (immaginate di simulare le reazioni di una persona in anticipo basate su video della persona stessa per pre-determinare un ambiente che la condizioni.... fantascienza solamente?).
Queste domande aspettano risposte. Per ora Sora ci mostra una direzione industriale che può portare a scenari inediti ma che ora abbiamo con tanti limiti.
Il report tecnico ci dice che attualmente Sora presenta numerosi limiti come simulatore. Ad esempio, non modella accuratamente la fisica di molte interazioni di base, come la frantumazione dei vetri. Altre interazioni, come mangiare cibo, non sempre producono cambiamenti corretti nello stato dell'oggetto (c'è un elenco di modalità di fallimento comuni del modello sul report tecnico).
Tuttavia OpenAI conclude così il suo report: "Riteniamo che le capacità di cui dispone oggi Sora dimostrino che la continua scalabilità dei modelli video è un percorso promettente verso lo sviluppo di simulatori capaci di riprodurre il mondo fisico e digitale e gli oggetti, gli animali e le persone che lo abitano".
La novità secondo me è questa. Siamo pronti a vivere la sfida?
I video mostrati sono ripetitivi. Il modello non sembra in grado di generare scenari plausibili su tempi medi o lunghi. Significa che le sue capacità di usare regole di senso comune sono ancora limitate. Ma questo non deve tranquillizzarci. Mi aspetto che presto avremo brutte sorprese.
Al momento il migliore simulatore universale esistente permane il nostro cervello. Questo perché esso è in grado di usare bene molte regole emergenti che consentono di generare previsioni su tempi medi e lunghi, non solo nell'immediato.
Ma le cose potrebbero cambiare in fretta. Appena vedremo IA capaci di generare video che hanno "un po' di trama" sarà segno che è stata aperta la strada per la rapida evoluzione di IA super-intelligenti. A quel punto…
Per l'utilizzo in ambito ingegneristico la considero positiva, ma non la lascerei LIBERA di utilizzo nel mondo social.
Considerazioni importanti. Grazie per la condivisione. In effetti al lancio di SORA la tendenza dei più è stata quella di pensare di creare video da usare nei social. Le riflessioni portano invece a pensare un utilizzo meno ludico e più legato ad una vita lavorativa cambiando gli approcci alla simulazione. 💡