Veo di Google e Sora di Microsoft sono tra i modelli più noti ed evoluti per quanto riguarda la creazione di video AI. Da questa settimana hanno un nuovo concorrente, Seedance 1.0. Addestrato da ByteDance, la stessa società che gestisce il social network TikTok, si è già dimostrato in grado di superare i competitor in test specifici, eseguiti sia con benchmark dedicati al text-to-video sia nell’image-to-video.
Seedance 1.0, il modello di ByteDance per i video
È in grado non solo di generare singole clip, ma intere sequenze composte con angolazioni di ripresa differenti. Lo fa mantenendo la coerenza nella resa dei soggetti riprodotti, negli oggetti e nelle ambientazioni. Stando ai responsabili del progetti, uno dei punti di forza è rappresentato dalla capacità di considerare in modo attendo ogni singolo dettaglio incluso nel prompt iniziale, che si tratti di movimenti da seguire, di stacchi o di stili. Un altro valore aggiunto è quello relativo alla velocità: può creare un contenuto dalla durata pari a 5 secondi in un tempo ridotto a 41 secondi. Qui sotto una prima demo composta da più filmati.
La fase di addestramento è stata condotta partendo da un’enorme raccolta di video provenienti sia da risorse pubbliche sia da raccolte per le quali sono stati sottoscritti contratti di licenza. Prima dell’analisi, ogni file è stato ripulito. Questo step è stato fondamentale per eliminare loghi, sottotitoli e potenziali contenuti violenti, aggiungendo annotazioni manuali e automatiche necessarie per poi gestire i prompt.
L’unico gap ancora da colmare per ByteDance è quello riguardante l’impossibilità di implementare la componente audio. Il modello sarà impiegato in un primo momento in alcuni servizi controllati dal gruppo cinese come Doubao e Jimeng. La destinazione d’uso è sia in ambito professionale sia quello consumer. Per un approfondimento su tutti gli aspetti tecnici del modello rimandiamo a quanto pubblicato nell’archivio arXiv