VASA-1 di Microsoft, l'AI che anima le foto facendole "parlare"

VASA-1 di Microsoft, l'AI che anima le foto facendole "parlare"

Microsoft ha presentato VASA-1, un'IA che anima le foto facendole parlare in modo ultra-realistico, nonostante alcune imperfezioni.
VASA-1 di Microsoft, l'AI che anima le foto facendole
Microsoft ha presentato VASA-1, un'IA che anima le foto facendole parlare in modo ultra-realistico, nonostante alcune imperfezioni.

Qualcuno potrà anche pensare che l’intelligenza artificiale sarà presto in grado di sostituire gli esseri umani, ma ha ancora molta strada da fare su un punto: ricreare le espressioni umane senza cadere nella cosiddetta “Uncanny Valley” o Valle Perturbante.

La sfida di ricreare le espressioni umane

Come promemoria, l’affascinante teoria della “Uncanny Valley” è stata proposta nel 1970 dall’ingegnere giapponese Masahiro Mori: più una macchina diventa simile a un essere umano, più la nostra reazione emotiva diventa positiva, fino a quando non sorge un senso di straniamento e repulsione perché ci accorgiamo che non è veramente umana.

L’AI di Microsoft sembra confermare la teoria della Uncanny Valley. VASA-1, infatti, è in grado di animare le foto e farle parlare in modo estremamente realistico, ma piccole imperfezioni tradiscono la sua natura artificiale (e artificiosa) generando un po’ di inquietudine. Tuttavia, è innegabile che l’AI abbia fatto dei  progressi sorprendenti nella creazione di deepfake, così tanto realistici da ingannare anche i più attenti.

Un altro esempio eclatante dei progressi dell’intelligenza artificiale è rappresentato dai presentatori AI di notiziari, praticamente indistinguibili da veri giornalisti in carne e ossa.

VASA-1: l’AI che anima i ritratti e li fa parlare

I numerosi video dimostrativi di VASA-1 mostrano una perfetta sincronizzazione labiale e espressioni facciali sorprendenti, riprodotte quasi alla perfezione. Tuttavia, nonostante l’incredibile realismo, alcuni dettagli rivelano la sua natura artificiale. Soprattutto i movimenti della testa appaiono innaturali, come se ci fosse uno stabilizzatore d’immagine; con i capelli lunghi è ancora più evidente. Anche certe espressioni non sono convincenti.

Per il resto è impressionante: VASA-1 gestisce varie lingue, anima foto, illustrazioni e dipinti… come la Monna Lisa, che si lancia in un rap sfrenato. Esilarante.

Microsoft prudente: niente demo pubblica per evitare abusi

Nonostante le sue potenzialità, il team di Microsoft è consapevole che VASA-1 potrebbe essere utilizzato in modo improprio, ad esempio per creare contenuti fuorvianti o ingannevoli. Pertanto, i ricercatori hanno deciso di non rilasciare una demo online, un’API o un prodotto fino a quando non saranno certi che la tecnologia sarà utilizzata in modo responsabile e in conformità con le normative appropriate.

L’intelligenza artificiale sta facendo passi da gigante nel ricreare le espressioni umane, ma la strada è ancora lunga. Inoltre, sarà fondamentale garantire che sistemi di questo tipo siano utilizzati in modo etico e responsabile, per evitare possibili abusi e inganni.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
18 apr 2024
Link copiato negli appunti