Lumiere: l'IA per il text-to-video secondo Google

Chissà cosa avrebbero pensato i fratelli Auguste e Louis dell’omaggio che Google ha riservato loro per battezzare una nuova tecnologia di IA generativa dedicata al text-to-video: Lumiere. Ciò che può fare è, al momento, dar vita a filmati dalla durata pari a cinque secondi con risoluzione 1024×1024, sulla base delle istruzioni ricevute.

Google Lumiere: dal testo al video con l’IA

Cosa rende l’iniziativa differente rispetto a quelle già disponibili o messe in cantiere da altre realtà? È l’approccio alla realizzazione del contenuto, che tiene in considerazione sia lo spazio (dove si trovano gli oggetti) sia il tempo (come si muovono e cambiano) in un unico processo, anziché limitarsi ad assemblare una serie di fotogrammi creati singolarmente. È definito Space-Time Diffusion Model.

C’è di più: l’IA non si limita al text-to-video, ma integra capacità di tipo image-to-video, dunque in grado di trasformare una singola immagine in una clip animata e creare video in uno stile personalizzato, prendendo come riferimento un’immagine fornita come input.

Un esempio della Stylized Generation di Lumiere

Lo stesso vale per l’applicazione di stili ed effetti ai video già esistenti (Video Stylization) e all’animazione selettiva di una porzione dell’immagine da elaborare (Cinemagraphs). Non è tutto, può creare porzioni di filmato mancanti (Video Inpainting) o modificarne aspetti specifici (ad esempio modificando il vestito indossato da una persona inquadrata).

L'abilità Video Inpainting di Google Lumiere

Gli stessi autori del progetto sono ben consapevoli di come una tecnologia simile possa essere utilizzata con finalità malevole, ad esempio per la diffusione di deepfake. A questo proposito affermano quanto segue.

Il nostro obiettivo principale, con questo lavoro, è di consentire agli utenti inesperti di generare contenuti visivi in modo creativo e flessibile. Tuttavia, esiste il rischio di uso improprio per creare contenuti falsi o dannosi con la nostra tecnologia, perciò riteniamo che sia di importanza cruciale sviluppare e utilizzare strumenti che possano individuare bias e casi d’uso malevoli, al fine di farantire un utilizzo sicuro ed equo.

La fase di addestramento dell’intelligenza artificiale alla base di Lumiere è stata condotta con un dataset contenente circa 30 milioni di filmati accompagnati dalle loro descrizioni testuali. Per maggiori informazioni rimandiamo alla documentazione pubblicata e al mini sito dedicato al progetto, da cui è tratta la demo visibile qui sopra. Al momento non è ancora possibile mettere alla prova le potenzialità della tecnologia.

Fonte: Google Research

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech