La corsa ai “modelli mondiali” è ufficialmente partita, e Runway, l’azienda che fino a ieri permetteva di generare video impressionanti ma muti, ha deciso di alzare la pos in gioco. Ha lanciato GWM-1, il suo primo modello mondiale, e ha aggiornato il suo Gen 4.5 con una chicca che mancava: l’audio nativo.

Ma cos’è esattamente un “modello mondiale“? Non è il solito generatore di immagini o video che restituisce un risultato in base a un prompt. È qualcosa di più ambizioso: un sistema di intelligenza artificiale che apprende come funziona il mondo reale, fisica, geometria, comportamenti, e lo simula fotogramma per fotogramma. In pratica, l’AI non si limita più a copiare quello che ha visto, ma capisce le regole del gioco e può inventarsi scenari nuovi rispettando quelle regole.

Runway presenta GWM-1, il modello AI che simula la realtà

Runway ha presentato GWM-1 non come un singolo prodotto ma come una famiglia di modelli specializzati: GWM-Worlds, GWM-Robotics e GWM-Avatars. Tecnicamente sono modelli separati, ma il piano è fonderli tutti in un unico super-modello in futuro.

GWM-Worlds è quello che permette di creare mondi interattivi. Si imposta una scena con un prompt o un’immagine di riferimento, e mentre si esplora lo spazio virtuale il modello genera l’ambiente circostante con una comprensione di geometria, fisica e illuminazione. Funziona a 24 fps e risoluzione 720p, che non è male considerando che sta letteralmente inventando un universo mentre si cammina. Runway dice che è perfetto per i videogiochi, ma anche per addestrare agenti AI a navigare nel mondo fisico. Ad esempio, può insegnare a un robot come comportarsi quando incontra una scala o una porta chiusa.

GWM-Robotics punta alla robotica, ovviamente. L’idea è usare dati sintetici arricchiti con parametri variabili, come condizioni meteorologiche che cambiano, ostacoli improvvisi, quel tipo di caos che rende la vita interessante. Runway sostiene che questo approccio potrebbe anche rivelare quando e come i robot potrebbero “violare” politiche e istruzioni in scenari diversi.

GWM-Avatars è dedicato alla creazione di avatar umani realistici che simulano il comportamento umano. Terreno già battuto da aziende come D-ID, Synthesia, Soul Machines e persino Google, ma Runway vuole la sua fetta di torta. Gli avatar servono per la comunicazione, la formazione, e probabilmente anche per le riunioni.

Runway ha annunciato che GWM-Robotics sarà disponibile tramite SDK, e che è già in trattativa con diverse aziende e imprese di robotica per l’utilizzo di GWM-Robotics e GWM-Avatars.

L’approccio di Runway è insegnare all’AI a prevedere direttamente i pixel, perché a suo dire, è il modo migliore per ottenere una simulazione generica. È una filosofia interessante. Invece di programmare manualmente tutte le regole della fisica e del comportamento, si lascia che l’AI le impari guardando abbastanza esempi.

Gen 4.5 cresce: arriva l’audio e la narrazione multi-shot

Ma Runway non si è fermata al modello mondiale. Ha anche aggiornato il suo modello video Gen 4.5, lanciato all’inizio del mese, che aveva già fatto parlare di sé superando Google e OpenAI nella classifica di Video Arena. Ora può generare audio nativo e gestire riprese multi-shot di lunga durata.

È possibile creare video di un minuto con coerenza dei personaggi, dialoghi nativi, audio di sottofondo e riprese complesse da varie angolazioni. Non si deve più generare il video muto e poi aggiungere l’audio in post-produzione, l’AI offre il pacchetto completo: immagini, suoni, dialoghi. Si può anche modificare l’audio esistente, aggiungere dialoghi, editare video multi-shot di qualsiasi durata.