Quante volte sarà capitato di ricevere un video lungo su WhatsApp e non avere il tempo per guardarlo tutto? O di dover rivedere una registrazione di una riunione o di una lezione solo per trovare quel punto preciso in cui si parla di budget, o viene mostrato un grafico importante?
Google Gemini ha appena lanciato una funzione che risolve questi problemi. È in grado di analizzare i video e dire esattamente cosa succede, quando succede e dove cercarlo. E sì, ChatGPT (almeno per ora) non può fare nulla di simile. Può analizzare testo e immagini, ma i video restano off limits.
La nuova capacità di analisi video di Gemini trasforma l’intelligenza artificiale in un assistente che non solo “vede” cosa succede nei video, ma può anche rispondere a domande specifiche, trovare momenti precisi e persino indovinare dove è stato girato.
Come funziona l’analisi video di Gemini?
Big G ha sempre giocato in difesa contro ChatGPT. Ma ora ha trovato la sua carta vincente: l’analisi video. Una funzione che sembra banale ma che in realtà è rivoluzionaria. Gemini non si limita a guardare il video frame per frame come un essere umano. Analizza contemporaneamente movimento, oggetti, testo visibile, audio e contesto per avere una comprensione completa di quello che sta succedendo.
È possibile caricare video fino a 5 minuti di durata e fare domande di qualsiasi tipo. Non c’è bisogno di essere specifici o tecnici: Gemini capisce richieste naturali come “Cosa vedi in questo video?“, “A che minuto parla di budget?” o “Dov’è stato girato secondo te?“.
Inoltre, dopo la prima analisi, si può scavare più a fondo con domande successive. Se Gemini dice che nel video si parla di tre argomenti principali, si può chiedere di approfondire solo il secondo, o di trovare il momento esatto in cui viene mostrato un grafico specifico.
Gemini utilizza la stessa architettura che alimenta Google Search e YouTube per comprendere i contenuti video. Questo significa che ha un vantaggio intrinseco nel riconoscere oggetti, persone, luoghi e contesti che ha già visto miliardi di volte attraverso la piattaforma video di Google.
La funzione è disponibile sia nella versione gratuita che in quella a pagamento di Gemini, funziona sui modelli 2.5 Flash e 2.5 Pro, ed è accessibile tramite app mobile (Android e iOS) e browser web. Non serve nessun abbonamento speciale o configurazione particolare.
Analisi video di Gemini e casi d’uso
1. Analisi di riunioni e lezioni registrate
Si carica la registrazione della riunione di 2 ore, e si chiede a Gemini di identificare le decisioni chiave. Oppure si chiede di analizzare una lezione universitaria per estrarre i concetti principali senza dover rivedere tutto. È come avere un assistente che prende appunti e può rispondere a domande specifiche su qualsiasi momento della registrazione.
2. Valutazione rapida di contenuti ricevuti
Quando si riceve un video lungo su Facebook o WhatsApp, Gemini può fare un riassunto in 30 secondi.
3. Analisi di materiale formativo e tutorial
Per chi lavora nell’e-learning o deve valutare contenuti formativi, Gemini può identificare la struttura del corso, i punti chiave trattati e persino suggerire miglioramenti. Può anche trovare il momento preciso in cui viene spiegato un concetto specifico, trasformando video lunghi in risorse facilmente navigabili.
4. Controllo qualità e verifica contenuti
Content creator e marketer possono usare Gemini per verificare che i loro video trasmettano effettivamente il messaggio voluto. L’AI può identificare se il branding è visibile, se il messaggio principale è chiaro, se ci sono elementi di distrazione che potrebbero compromettere l’efficacia del contenuto.
Come usare la funzione passo per passo
Sui dispositivi mobili, il processo è intuitivo. Basta aprire l’app Gemini, toccare il simbolo “+” nella casella del prompt, selezionare “Galleria”, scegliere il video che si vuole analizzare e toccare “Aggiungi”. A quel punto si può iniziare a fare domande. Sul browser web, è ancora più semplice. È sufficiente andare su gemini.google.com, trascinare il video direttamente nella casella del prompt e iniziare l’analisi.
La prima domanda più efficace, di solito, è: “Cosa vedi in questo video?” per ottenere una panoramica completa. Da lì, si possono fare domande sempre più specifiche basandosi sulle informazioni che Gemini fornisce.
I limiti
Il limite di 5 minuti può sembrare restrittivo, ma Google ha previsto una soluzione elegante. Si possono caricare video più lunghi su YouTube (anche non pubblici) e poi far analizzare a Gemini il link. È una funzione che esisteva già per i riassunti di YouTube, ora estesa all’analisi dettagliata.
Attualmente non si possono registrare video direttamente nell’app Gemini, è necessario caricare contenuti già esistenti. Questo limita l’uso in tempo reale, ma Google ha già annunciato che sta lavorando per rimuovere questa limite.
La qualità dell’analisi dipende molto dalla qualità del video originale. Filmati con audio distorto, immagini sfocate o illuminazione scarsa possono ridurre l’accuratezza delle risposte di Gemini.
Le possibilità creative per i content creator e le aziende
Per i content creator e le aziende, questa funzione è molto interessante per vari motivi.
- Ricerca e sviluppo prodotto: Le aziende possono far analizzare a Gemini video di test utente, per identificare reazioni, comportamenti e feedback non verbali che potrebbero sfuggire a un’analisi manuale.
- Analisi di contenuti social e marketing: I content creator possono far valutare a Gemini l’efficacia dei loro video prima della pubblicazione, identificando elementi che potrebbero migliorare l’engagement o elementi che potrebbero essere fraintesi dal pubblico target.
- Educazione e formazione: Gli istituti educativi possono trasformare vaste librerie di contenuti video in risorse facilmente ricercabili. Gli studenti possono trovare informazioni specifiche in centinaia di ore di lezioni senza dover guardare tutto manualmente.
- Documentazione e archivio: Le organizzazioni con grandi archivi video possono finalmente renderli davvero utilizzabili. Gemini può creare indici dettagliati, individuare contenuti duplicati e suggerire collegamenti tra video correlati.