TalkingMachines: avatar AI in tempo reale per le videochiamate

TalkingMachines: avatar AI in tempo reale per le videochiamate

TalkingMachines è la nuova AI che genera un avatar parlante in tempo reale, partendo da un'immagine ed elaborando il segnale video
TalkingMachines: avatar AI in tempo reale per le videochiamate
TalkingMachines è la nuova AI che genera un avatar parlante in tempo reale, partendo da un'immagine ed elaborando il segnale video

La settimana si conclude con l’ennesima novità emersa dall’ambito dell’intelligenza artificiale: si chiama TalkingMachines e il nome scelto è già di per sé piuttosto esplicativo per capire di cosa si tratta. Il sistema si occupa di animare avatar AI in tempo reale, partendo da una singola immagine (una fotografia reale oppure di fantasia) e analizzando un segnale audio in ingresso. È un’iniziativa appena annunciata da Character.AI, realtà del settore già ben nota per il suo servizio di creazione dei chatbot.

Character.AI ha presentato TalkingMachines

Il modello, descritto come autoregressivo e capace di generare video in stile FaceTime, non è ancora disponibile pubblicamente. Le sue abilità possono però già essere apprezzate in una serie di filmati condivisi. Qui sotto, ad esempio, sul lato destro dello schermo c’è la riproduzione digitale di Albert Einstein che dopo aver alzato le sopracciglia spiega come funziona la tecnologia.

Qui sotto una demo un po’ diversa, in cui a essere animato non è un essere umano, ma una creatura di fantasia. In questo caso un drago. Molti altri filmati sono disponibili sul progetto GitHub dedicato.

Se da un lato un sistema come quello di TalkingMachines (ma siamo certi che ne arriveranno altre simili) potrà tornare utile, ad esempio, nell’ambito della comunicazione online per le videochiamate, dall’altro alza ulteriormente l’asticella per quanto riguarda la lotta al fenomeno dei deepfake e della impersonificazione.

Nel dettaglio, il modello si basa sulla Diffusion Transformer che sfrutta la tecnica definita distillazione asimmetrica della conoscenza per (citiamo testualmente) riuscire a convertire un modello video bidirezionale di alta qualità in un generatore in tempo reale estremamente veloce. Si occupa di animare dettagli come il movimento della bocca, degli occhi e della testa in modo coerente con il parlato, tenendo in considerazione aspetti come l’intonazione e, di conseguenza, esprimendo diverse emozioni e stati d’animo.

Fonte: Character.AI
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
4 lug 2025
Link copiato negli appunti