Un gruppo di ricercatori del Noah’s Ark Lab di Huawei a Parigi ha recentemente pubblicato una ricerca pre-print che delinea un potenziale quadro per l’intelligenza artificiale incarnata (E-AI), che secondo loro servirà come “prossimo passo fondamentale nel perseguimento dell’intelligenza artificiale generale (AGI)”.
L’intelligenza generale, a volte chiamata “IA di livello umano” o “IA forte”, si riferisce tipicamente a un sistema di intelligenza artificiale (IA) in grado di eseguire qualsiasi compito, date le risorse necessarie. Sebbene non vi sia un chiaro consenso scientifico su cosa esattamente qualifichi un determinato sistema di IA per essere considerato un’intelligenza generale, aziende come OpenAI sono state fondate al solo scopo di perseguire questa tecnologia.
Modelli linguistici di grandi dimensioni
Con l’avvento della tecnologia dei trasformatori generativi pre-addestrati (GPT) alla fine degli anni 2010, molti esperti che si occupano di AGI hanno adottato il mantra “la scala è tutto ciò che serve”. I ricercatori credevano che i trasformatori, a scale superiori a quelle attualmente possibili, avrebbero portato alla fine a un modello di AGI.
Ma il documento del team di Huawei sostiene essenzialmente che i modelli linguistici di grandi dimensioni, come ChatGPT di OpenAI e Gemini di Google, non possono comprendere il mondo reale perché non ci vivono.
Secondo il documento:
“È convinzione prevalente che il semplice scalare tali modelli, in termini di volume di dati e potenza di calcolo, possa portare all’AGI. Noi contestiamo questo punto di vista. Proponiamo che la vera comprensione… sia raggiungibile solo attraverso agenti E-AI che vivono nel mondo e lo conoscono interagendo con esso”.
Intelligenza artificiale incarnata
Affinché gli agenti di IA possano interagire veramente con il mondo reale, sostengono i ricercatori, i modelli dovranno essere ospitati in una qualche forma di incarnazione in grado di percepire, agire, ricordare e apprendere.
Percezione, in questo contesto, significa dare al sistema di IA la capacità di ottenere dati grezzi dal mondo reale, in tempo reale, e la capacità di elaborare e codificare tali dati in uno spazio di apprendimento latente. In sostanza, l’IA dovrà essere in grado di prestare attenzione a ciò che vuole, con i propri “occhi” e le proprie “orecchie”, al fine di comprendere il mondo reale abbastanza bene da agire come un’intelligenza generale.
Oltre alla percezione, gli agenti devono essere in grado di compiere azioni e osservarne i risultati. Gli attuali modelli di IA sono “pre-addestrati”, come uno studente a cui viene dato un test e le relative risposte allo stesso tempo. Consentendo all’IA di agire da sola e di percepire i risultati delle sue azioni come nuovi ricordi, il team ritiene che gli agenti potrebbero diventare capaci di imparare a conoscere il mondo nello stesso modo in cui lo fanno le creature viventi, attraverso prove ed errori.
In definitiva, i ricercatori dimostrano un quadro teorico in base al quale un LLM o un modello di AI fondamentale potrebbe essere incarnato per raggiungere questi obiettivi un giorno.
Tuttavia, i ricercatori sottolineano anche che ci sono una miriade di sfide da affrontare. Non ultimo il fatto che i LLM più potenti attualmente “esistono” su reti cloud di grandi dimensioni, il che rende l’incarnazione una proposta difficile con la tecnologia attuale.