Lumiere: l'IA per il text-to-video secondo Google

Lumiere: l'IA per il text-to-video secondo Google

Google Research presenta un nuovo sistema di IA generativa che trasforma il testo in video: si chiama Lumiere, come i fratelli del cinema.
Lumiere: l'IA per il text-to-video secondo Google
Google Research presenta un nuovo sistema di IA generativa che trasforma il testo in video: si chiama Lumiere, come i fratelli del cinema.

Chissà cosa avrebbero pensato i fratelli Auguste e Louis dell’omaggio che Google ha riservato loro per battezzare una nuova tecnologia di IA generativa dedicata al text-to-video: Lumiere. Ciò che può fare è, al momento, dar vita a filmati dalla durata pari a cinque secondi con risoluzione 1024×1024, sulla base delle istruzioni ricevute.

Google Lumiere: dal testo al video con l’IA

Cosa rende l’iniziativa differente rispetto a quelle già disponibili o messe in cantiere da altre realtà? È l’approccio alla realizzazione del contenuto, che tiene in considerazione sia lo spazio (dove si trovano gli oggetti) sia il tempo (come si muovono e cambiano) in un unico processo, anziché limitarsi ad assemblare una serie di fotogrammi creati singolarmente. È definito Space-Time Diffusion Model.

C’è di più: l’IA non si limita al text-to-video, ma integra capacità di tipo image-to-video, dunque in grado di trasformare una singola immagine in una clip animata e creare video in uno stile personalizzato, prendendo come riferimento un’immagine fornita come input.

Un esempio della Stylized Generation di Lumiere

Lo stesso vale per l’applicazione di stili ed effetti ai video già esistenti (Video Stylization) e all’animazione selettiva di una porzione dell’immagine da elaborare (Cinemagraphs). Non è tutto, può creare porzioni di filmato mancanti (Video Inpainting) o modificarne aspetti specifici (ad esempio modificando il vestito indossato da una persona inquadrata).

L'abilità Video Inpainting di Google Lumiere

Gli stessi autori del progetto sono ben consapevoli di come una tecnologia simile possa essere utilizzata con finalità malevole, ad esempio per la diffusione di deepfake. A questo proposito affermano quanto segue.

Il nostro obiettivo principale, con questo lavoro, è di consentire agli utenti inesperti di generare contenuti visivi in modo creativo e flessibile. Tuttavia, esiste il rischio di uso improprio per creare contenuti falsi o dannosi con la nostra tecnologia, perciò riteniamo che sia di importanza cruciale sviluppare e utilizzare strumenti che possano individuare bias e casi d’uso malevoli, al fine di farantire un utilizzo sicuro ed equo.

La fase di addestramento dell’intelligenza artificiale alla base di Lumiere è stata condotta con un dataset contenente circa 30 milioni di filmati accompagnati dalle loro descrizioni testuali. Per maggiori informazioni rimandiamo alla documentazione pubblicata e al mini sito dedicato al progetto, da cui è tratta la demo visibile qui sopra. Al momento non è ancora possibile mettere alla prova le potenzialità della tecnologia.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il 25 gen 2024
Link copiato negli appunti