Google DeepMind ha annunciato il Frontier Safety Framework, un insieme di protocolli da seguire per identificare le future capacità IA che potrebbero causare danni e per implementare le necessarie misure di mitigazione. Il framework verrà aggiornato in base all’evoluzione della tecnologia e applicato a partire dall’inizio del 2025.
Come rilevare e mitigare i rischi
È ormai evidente che i modelli di intelligenza artificiale (generativa e non) saranno sempre più utilizzati in vari settori per risolvere problemi complessi, come lo studio dei cambiamenti climatici e la scoperta di nuovi farmaci. Tuttavia, insieme alle loro capacità aumentano anche i rischi. Già oggi è possibile sfruttare le tecnologia IA per attività pericolose, tra cui gli attacchi informatici.
Il Frontier Safety Framework è stato introdotto per identificare i rischi derivanti dallo sviluppo dei futuri modelli IA. È costituito da tre componenti principali. Il primo prevede la classificazione dei modelli in base ai livelli di capacità critici, considerando quattro domini: autonomia, biosicurezza, cybersicurezza e ricerca e sviluppo del machine learning.
Durante la fase di sviluppo e il successivo aggiornamento, Google DeepMind effettuerà frequenti valutazioni per rilevare se un modello è prossimo a raggiungere un livello di capacità critico. In base ai risultati verranno adottate misure per limitare al minimo i rischi, principalmente quelli associati alla sicurezza (esfiltrazione dei modelli) e alla distribuzione (abusi delle capacità).
Se il modello supera il livello di capacità critico, prima dell’applicazione delle mitigazioni, Google DeepMind sospenderà lo sviluppo e la distribuzione finché non verranno adottate altre misure preventive. Tutti i dettagli possono essere letti nel documento ufficiale (PDF).