Apple presenta sistema AI ReALM: assistenti vocali più naturali

Apple presenta sistema AI ReALM: assistenti vocali più naturali

I ricercatori di Apple hanno sviluppato ReALM, un sistema AI che consente agli assistenti vocali di e interagire in modo più naturale.
Apple presenta sistema AI ReALM: assistenti vocali più naturali
I ricercatori di Apple hanno sviluppato ReALM, un sistema AI che consente agli assistenti vocali di e interagire in modo più naturale.

Secondo un documento recentemente pubblicato, i ricercatori di Apple hanno sviluppato un innovativo sistema di intelligenza artificiale denominato ReALM (Reference Resolution As Language Modeling). Questo sistema è in grado di comprendere i riferimenti ambigui a entità presenti sullo schermo, nonché il contesto conversazionale e di fondo, consentendo interazioni più naturali con gli assistenti vocali.

Cosa sono i riferimenti ambigui a entità presenti sullo schermo

I riferimenti ambigui a entità presenti sullo schermo (ambiguous references to on-screen entities in inglese) si verificano quando un sistema di intelligenza artificiale conversazionale, come un chatbot, non è in grado di capire esattamente a quale entità (oggetto, persona, concetto ecc.) un utente si sta riferendo durante una conversazione.

Questa ambiguità può verificarsi ad esempio quando l’utente utilizza pronomi (“quello”, “lui”, “lei”) o dimostrativi (“questo”, “quello”) per indicare un’entità presente visivamente sullo schermo, ma senza specificarla in modo univoco. Il sistema AI potrebbe non essere in grado di risolvere il riferimento ambiguo basandosi solo sul testo, senza considerare anche il contesto visivo.

ReALM sfrutta gli LLM per trasformare il complesso compito della risoluzione dei riferimenti, inclusa la comprensione dei riferimenti agli elementi visivi sullo schermo, in un problema di pura modellazione linguistica. Grazie a questo approccio, ReALM è in grado di ottenere notevoli miglioramenti delle prestazioni rispetto ai metodi esistenti.

L’importanza della comprensione del contesto per gli assistenti conversazionali

Il team di ricercatori di Apple ha sottolineato l’importanza della capacità di comprendere il contesto, compresi i riferimenti, per un assistente conversazionale. Consentire all’utente di porre domande su ciò che vede sullo schermo rappresenta un passo fondamentale per garantire un’esperienza veramente a mani libere con gli assistenti vocali.

Per gestire i riferimenti basati sullo schermo, ReALM introduce un’innovazione chiave: la ricostruzione dello schermo utilizzando le entità analizzate e le loro posizioni per generare una rappresentazione testuale che catturi il layout visivo. I ricercatori hanno dimostrato che questo approccio, combinato con la messa a punto di modelli linguistici specifici per la risoluzione dei riferimenti, è in grado di superare le prestazioni del GPT-4 in questo compito.

Applicazioni pratiche e limiti del sistema ReALM

Il lavoro di Apple evidenzia il potenziale dei modelli linguistici mirati per gestire compiti come la risoluzione dei riferimenti nei sistemi di produzione, dove l’uso di modelli end-to-end massicci potrebbe non essere fattibile a causa di vincoli di latenza o di calcolo. La pubblicazione di questa ricerca segnala l’impegno continuo di Apple per rendere Siri e altri prodotti sempre più consapevoli del contesto.

Tuttavia, i ricercatori riconoscono che affidarsi al parsing automatico delle schermate presenta dei limiti. La gestione di riferimenti visivi più complessi, come la distinzione tra più immagini, richiederebbe probabilmente l’integrazione di tecniche di computer vision e multimodali.

La corsa di Apple per colmare il divario dell’intelligenza artificiale

Apple sta compiendo progressi significativi nella ricerca sull’intelligenza artificiale, nonostante sia in ritardo rispetto ai rivali tecnologici in questo campo in rapida evoluzione. Le scoperte provenienti dai laboratori di ricerca dell’azienda suggeriscono un crescente interesse e ambizioni in materia di AI.

Tuttavia, Apple deve affrontare una dura concorrenza da parte di Google, Microsoft, Amazon e OpenAI, che hanno già integrato l’AI generativa in vari prodotti e servizi. Durante il Worldwide Developers Conference di giugno, Apple dovrebbe svelare nuove funzionalità basate sull’intelligenza artificiale in tutto il suo ecosistema.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
2 apr 2024
Link copiato negli appunti