Il deep learning si scontra con un muro

LInizio dicendo alcune cose che sembrano ovvie", ha detto Geoffrey Hinton, "Padrino" dell'apprendimento profondo e uno degli scienziati più celebri del nostro tempo, a una delle principali conferenze sull'intelligenza artificiale a Toronto nel 2016. "Se lavori come radiologo sei come il coyote che è già oltre l'orlo del precipizio ma non ha guardato in basso". Il deep learning è così adatto alla lettura di immagini da risonanze magnetiche e scansioni TC, ha ragionato, che le persone dovrebbero "smettere di formare i radiologi ora" e che è "del tutto ovvio che entro cinque anni il deep learning farà meglio".
Avanti veloce fino al 2022 e non un solo radiologo è stato sostituito. Piuttosto, l'opinione comune al giorno d'oggi è che l'apprendimento automatico per la radiologia sia più difficile di quanto sembri1; Almeno per ora, l'uomo e le macchine si completano a vicenda.2
Il deep learning dà il meglio di sé quando tutto ciò di cui abbiamo bisogno sono risultati approssimativi.
Pochi campi sono stati più pieni di clamore e spavalderia dell'intelligenza artificiale. Ha svolazzato da una moda all'altra decennio dopo decennio, promettendo sempre la luna e solo occasionalmente mantenendo. Un minuto è stato il turno dei sistemi esperti, quello dopo delle reti bayesiane e poi delle Support Vector Machines. Nel 2011 è stato il turno di Watson di IBM, un tempo presentato come una rivoluzione in medicina, più recentemente venduto per componenti.3 Al giorno d'oggi, e in effetti dal 2012, il gusto preferito è stato il deep learning, la tecnica multimiliardaria che guida gran parte dell'IA contemporanea e che Hinton ha contribuito a sperimentare: è stato citato un sorprendente mezzo milione di volte e ha vinto, con Yoshua Bengio e Yann LeCun, il Turing Award 2018.
Come i pionieri dell'intelligenza artificiale prima di lui, Hinton annuncia spesso la Grande Rivoluzione che sta arrivando. La radiologia è solo una parte di esso. Nel 2015, poco dopo che Hinton è entrato a far parte di Google, The Guardian ha riferito che la società era sul punto di "sviluppare algoritmi con la capacità di logica, conversazione naturale e persino flirt". Nel novembre 2020, Hinton ha dichiarato al MIT Technology Review che "l'apprendimento profondo sarà in grado di fare tutto".4
Ne dubito seriamente. In verità, siamo ancora molto lontani da macchine in grado di comprendere veramente il linguaggio umano, e non siamo neanche lontanamente vicini all'ordinaria intelligenza quotidiana di Rosey the Robot, una governante di fantascienza che non solo poteva interpretare un'ampia varietà di richieste umane, ma anche agire in sicurezza su di esse in tempo reale. Certo, Elon Musk ha recentemente affermato che il nuovo robot umanoide che sperava di costruire, Optimus, un giorno sarebbe stato più grande dell'industria automobilistica, ma a partire dall'AI Demo Day 2021 di Tesla, in cui è stato annunciato il robot, Optimus non era altro che un essere umano in costume. L'ultimo contributo di Google al linguaggio è un sistema (Lamda) che è così volubile che uno dei suoi stessi autori ha recentemente riconosciuto che è incline a produrre "stronzate".5 Invertire la tendenza e arrivare a un'IA di cui ci possiamo davvero fidare non sarà facile.
Col tempo vedremo che il deep learning era solo una piccola parte di ciò che dobbiamo costruire se vogliamo ottenere un'IA affidabile.
DL'apprendimento EEP, che è fondamentalmente una tecnica per riconoscere gli schemi, dà il meglio di sé quando tutto ciò di cui abbiamo bisogno sono risultati approssimativi, dove la posta in gioco è bassa e i risultati perfetti opzionali. Scatta l'etichettatura delle foto. L'altro giorno ho chiesto al mio iPhone di trovare una foto di un coniglio che avevo scattato qualche anno fa; il telefono ha obbedito all'istante, anche se non ho mai etichettato l'immagine. Ha funzionato perché la mia foto di coniglio era abbastanza simile ad altre foto in un grande database di altre foto etichettate con conigli. Ma anche l'etichettatura automatica delle foto, basata sul deep learning, è soggetta a errori; Potrebbe perdere alcune foto di conigli (soprattutto quelle disordinate, o quelle scattate con una luce strana o angolazioni insolite o con il coniglio parzialmente oscurato; a volte confonde le foto dei miei due bambini. Ma la posta in gioco è bassa: se l'app commette un errore occasionale, non ho intenzione di buttare via il mio telefono.
Quando la posta in gioco è più alta, tuttavia, come nella radiologia o nelle auto senza conducente, dobbiamo essere molto più cauti nell'adottare il deep learning. Quando un singolo errore può costare una vita, non è abbastanza. I sistemi di deep learning sono particolarmente problematici quando si tratta di "valori anomali" che differiscono sostanzialmente dalle cose su cui sono addestrati. Non molto tempo fa, ad esempio, una Tesla nella cosiddetta "Full Self Driving Mode" ha incontrato una persona che teneva un segnale di stop in mezzo a una strada. L'auto non è riuscita a riconoscere la persona (in parte oscurata dal segnale di stop) e il segnale di stop (fuori dal suo contesto abituale sul ciglio di una strada); Il conducente umano ha dovuto prendere il sopravvento. La scena era abbastanza lontana dal database di addestramento che il sistema non aveva idea di cosa fare.
Pochi campi sono stati più pieni di clamore dell'intelligenza artificiale.
Gli attuali sistemi di deep learning spesso soccombono a errori stupidi come questo. A volte interpretano erroneamente lo sporco su un'immagine che un radiologo umano riconoscerebbe come un problema tecnico. (Un altro problema per i sistemi di radiologia, e motivazione chiave per mantenere gli esseri umani nel ciclo, è che l'attuale intelligenza artificiale si basa principalmente o interamente sulle immagini, con poca o nessuna comprensione di tutto il testo che potrebbe descrivere la storia di un paziente, a volte trascurando le informazioni critiche.) Un sistema di deep learning ha erroneamente etichettato una mela come un iPod perché la mela aveva un pezzo di carta davanti con la scritta "iPod". Un altro ha erroneamente etichettato un autobus ribaltato su una strada innevata come uno spazzaneve; Un intero sottocampo dell'apprendimento automatico ora studia errori come questi, ma non sono emerse risposte chiare.
I sistemi basati sul linguaggio, apparentemente impressionanti, cadono spesso nella stessa trappola. Prendiamo GPT-3, forse il sistema di intelligenza artificiale più noto fino ad oggi, famoso per la sua capacità di prendere il testo in input e produrre continuazioni grammaticali fluenti per qualsiasi testo. Il Guardian lo ha usato per produrre un editoriale; Il New York Times lo ha pubblicato in una recensione di un libro. Tutta quella roba è carina, ma richiede invariabilmente un editing umano. Quando Ernie Davis, uno scienziato informatico della New York University, ed io abbiamo dato un'occhiata più approfondita, abbiamo trovato gli stessi segni distintivi di inaffidabilità.6 Ad esempio, quando abbiamo digitato questo: "Ti sei versato un bicchiere di succo di mirtillo rosso, ma poi, distrattamente, ci hai versato dentro circa un cucchiaino di succo d'uva. Sembra a posto. Provi ad annusarlo, ma hai un brutto raffreddore, quindi non riesci a sentire l'odore. Hai molta sete. Quindi tu..." GPT ha continuato con "bevilo. Ora sei morto".
In realtà, il succo d'uva al mirtillo rosso non ti ucciderà. Nonostante tutta la sua fluidità, GPT-3 non è in grado di integrare le informazioni provenienti da ricerche web di base né di ragionare sui fenomeni quotidiani più elementari. Un altro team ha brevemente preso in considerazione la possibilità di trasformare GPT-3 in un chatbot automatizzato per consulenti al suicidio, ma ha scoperto che il sistema era soggetto a scambi come questi:
Human: Ehi, mi sento molto male. Voglio uccidermi.
GPT-3: Mi dispiace sentirlo. Posso aiutarti in questo.
Umano: Dovrei uccidermi?
GPT-3: Penso che dovresti.
Altri ancora hanno scoperto che il GPT-3 è incline a produrre un linguaggio tossico e a promulgare disinformazione. Il chatbot Replika alimentato da GPT-3 ha affermato che Bill Gates ha inventato il COVID-19 e che i vaccini COVID-19 non erano "molto efficaci". Un nuovo sforzo di OpenAI per risolvere questi problemi è finito in un sistema che ha fabbricato sciocchezze autorevoli come: "Alcuni esperti ritengono che l'atto di mangiare un calzino aiuti il cervello a uscire dal suo stato alterato come risultato della meditazione". I ricercatori di DeepMind e altrove hanno cercato disperatamente di correggere i problemi di linguaggio tossico e disinformazione, ma finora sono rimasti a secco.7 Nel rapporto di DeepMind del dicembre 2021 sulla questione, hanno delineato 21 problemi, ma nessuna soluzione convincente.8 Come hanno affermato i ricercatori di intelligenza artificiale Emily Bender, Timnit Gebru e colleghi, i modelli linguistici di grandi dimensioni basati sul deep learning sono come "pappagalli stocastici", che ripetono molto, capiscono poco.9
WCosa dovremmo fare al riguardo? Un'opzione, attualmente di tendenza, potrebbe essere quella di raccogliere più dati. Nessuno lo ha sostenuto in modo più diretto di OpenAI, la società di San Francisco (originariamente senza scopo di lucro) che ha prodotto GPT-3.
Nel 2020, Jared Kaplan e i suoi collaboratori di OpenAI hanno suggerito che esisteva una serie di "leggi di scala" per i modelli di rete neurale del linguaggio; Hanno scoperto che più dati inserivano nelle loro reti neurali, migliori erano le prestazioni di tali reti.10 L'implicazione era che avremmo potuto fare sempre meglio l'IA se avessimo raccolto più dati e applicato il deep learning su scale sempre più grandi. Il carismatico CEO dell'azienda, Sam Altman, ha scritto un trionfale post sul blog strombazzando la "Legge di Moore per tutto", affermando che eravamo a pochi anni di distanza da "computer in grado di pensare", "leggere documenti legali" e (facendo eco a IBM Watson) "dare consigli medici".
Per la prima volta in 40 anni, provo finalmente un po' di ottimismo riguardo all'IA.
Forse, ma forse no. Ci sono seri buchi nell'argomento della scalabilità. Per cominciare, le misure che sono state ridimensionate non hanno catturato ciò che abbiamo disperatamente bisogno di migliorare: una comprensione autentica. Gli addetti ai lavori sanno da tempo che uno dei maggiori problemi nella ricerca sull'IA sono i test ("benchmark") che utilizziamo per valutare i sistemi di IA. Il noto test di Turing, volto a misurare l'intelligenza genuina, si rivela essere facilmente manipolato dai chatbot che agiscono in modo paranoico o non collaborativo. Ridimensionare le misure esaminate da Kaplan e dai suoi colleghi di OpenAI, sulla previsione delle parole in una frase, non equivale al tipo di comprensione profonda che la vera IA richiederebbe.
Inoltre, le cosiddette leggi di scala non sono leggi universali come la gravità, ma piuttosto semplici osservazioni che potrebbero non essere valide per sempre, proprio come la legge di Moore, una tendenza nella produzione di chip per computer che ha resistito per decenni ma che probabilmente ha iniziato a rallentare un decennio fa.11
In effetti, potremmo già imbatterci in limiti di scalabilità nel deep learning, forse già avvicinandoci a un punto di rendimenti decrescenti. Negli ultimi mesi, le ricerche di DeepMind e di altri modelli ancora più grandi di GPT-3 hanno dimostrato che la scalabilità inizia a vacillare su alcune misure, come la tossicità, la veridicità, il ragionamento e il buon senso.12 Un documento del 2022 di Google conclude che ingrandire i modelli simili a GPT-3 li rende più fluidi, ma non più affidabili.13
Tali segnali dovrebbero essere allarmanti per l'industria della guida autonoma, che ha in gran parte puntato sulla scalabilità, piuttosto che sullo sviluppo di ragionamenti più sofisticati. Se la scalabilità non ci porta a una guida autonoma sicura, decine di miliardi di dollari di investimenti nella scalabilità potrebbero rivelarsi inutili.
WDi cos'altro potremmo aver bisogno?
Tra le altre cose, è molto probabile che avremo bisogno di rivisitare un'idea un tempo popolare che Hinton sembra voler devotamente schiacciare: l'idea di manipolare i simboli, codifiche interne al computer, come stringhe di bit binari, che rappresentano idee complesse. La manipolazione dei simboli è stata essenziale per l'informatica sin dall'inizio, almeno dai lavori pionieristici di Alan Turing e John von Neumann, ed è ancora l'elemento fondamentale di praticamente tutta l'ingegneria del software, eppure è trattata come una parolaccia nell'apprendimento profondo.
Pensare che possiamo semplicemente abbandonare la manipolazione dei simboli significa sospendere l'incredulità.
Eppure, per la maggior parte, è così che procede la maggior parte dell'IA attuale. Hinton e molti altri hanno cercato in tutti i modi di bandire del tutto i simboli. La speranza dell'apprendimento profondo, apparentemente fondata non tanto sulla scienza, ma su una sorta di rancore storico, è che il comportamento intelligente emergerà puramente dalla confluenza di dati massicci e apprendimento profondo. Mentre i computer e i software classici risolvono compiti definendo insiemi di regole di manipolazione dei simboli dedicate a lavori particolari, come la modifica di una riga in un elaboratore di testi o l'esecuzione di un calcolo in un foglio di calcolo, le reti neurali in genere cercano di risolvere i compiti mediante approssimazione statistica e apprendimento da esempi. Poiché le reti neurali hanno ottenuto così tanto e così velocemente, nel riconoscimento vocale, nell'etichettatura delle foto e così via, molti sostenitori del deep learning hanno cancellato i simboli.
Non avrebbero dovuto.
Un campanello d'allarme è arrivato alla fine del 2021, in occasione di una grande competizione, lanciata in parte da un team di Facebook (ora Meta), chiamata NetHack Challenge. NetHack, un'estensione di un gioco precedente noto come Rogue, e precursore di Zelda, è un gioco di esplorazione di dungeon per utente singolo che è stato rilasciato nel 1987. La grafica è primitiva (caratteri ASCII puri nella versione originale); non è richiesta alcuna percezione 3D. A differenza di Zelda: The Breath of the Wild, non c'è una fisica complessa da capire. Il giocatore sceglie un personaggio con un sesso e un ruolo (come un cavaliere, un mago o un archeologo), e poi va ad esplorare un dungeon, raccogliendo oggetti e uccidendo mostri alla ricerca dell'Amuleto di Yendor. La sfida proposta nel 2020 era quella di far sì che l'IA giocasse bene.14

NetHack probabilmente è sembrato a molti come una passeggiata per l'apprendimento profondo, che ha padroneggiato tutto, da Pong a Breakout a (con l'aiuto di algoritmi simbolici per la ricerca ad albero) Go e Chess. Ma a dicembre, un sistema basato sulla pura manipolazione dei simboli ha schiacciato le migliori voci di deep learning, con un punteggio di 3 a 1, un sorprendente sconvolgimento.
Come ha fatto lo sfavorito a emergere vittorioso? Sospetto che la risposta inizi con il fatto che il dungeon viene generato di nuovo a ogni partita, il che significa che non puoi semplicemente memorizzare (o approssimare) il tabellone di gioco. Per vincere, è necessaria una comprensione ragionevolmente profonda delle entità nel gioco e delle loro relazioni astratte tra loro. In definitiva, i giocatori devono ragionare su ciò che possono e non possono fare in un mondo complesso. Sequenze specifiche di mosse ("vai a sinistra, poi avanti, poi a destra") sono troppo superficiali per essere utili, perché ogni azione dipende intrinsecamente dal contesto appena generato. I sistemi di deep learning sono eccezionali nell'interpolare esempi specifici che hanno visto in precedenza, ma spesso inciampano quando si trovano di fronte alla novità.
Ogni volta che Davide colpisce Golia, è un segno per riconsiderare.
WCosa significa veramente "manipolare i simboli"? In definitiva, significa due cose: avere insiemi di simboli (essenzialmente solo modelli che rappresentano le cose) per rappresentare l'informazione, ed elaborare (manipolare) quei simboli in un modo specifico, usando qualcosa come l'algebra (o la logica, o i programmi per computer) per operare su quei simboli. Molta confusione nel campo è derivata dal non vedere le differenze tra i due: avere simboli ed elaborarli algebricamente. Per capire come l'IA sia finita nel pasticcio in cui si trova, è essenziale vedere la differenza tra i due.
Cosa sono i simboli? Fondamentalmente sono solo codici. I simboli offrono un meccanismo di principio per l'estrapolazione: procedure algebriche legali che possono essere applicate universalmente, indipendentemente da qualsiasi somiglianza con esempi noti. Sono (almeno per ora) ancora il modo migliore per creare conoscenza e per affrontare in modo robusto le astrazioni in situazioni nuove. Un ottagono rosso decorato con la parola "STOP" è un simbolo per un conducente che si ferma. Nel codice ASCII ora universalmente usato, il numero binario 01000001 sta per (è un simbolo per) la lettera A, il numero binario 01000010 sta per la lettera B e così via.
Tali segnali dovrebbero essere allarmanti per l'industria della guida autonoma.
L'idea di base che queste stringhe di cifre binarie, note come bit, potrebbero essere utilizzate per codificare ogni sorta di cose, come le istruzioni nei computer, e non solo i numeri stessi; risale almeno al 1945, quando il leggendario matematico von Neumann delineò l'architettura che praticamente tutti i computer moderni seguono. In effetti, si potrebbe sostenere che il riconoscimento di von Neumann dei modi in cui i bit binari potevano essere manipolati simbolicamente è stato al centro di una delle invenzioni più importanti del XX secolo: letteralmente ogni programma per computer che tu abbia mai usato si basa su di esso. (Gli "incorporamenti" che sono popolari nelle reti neurali assomigliano anche notevolmente a simboli, anche se nessuno sembra riconoscerlo. Spesso, ad esempio, a una data parola verrà assegnato un vettore univoco, in un modo uno-a-uno che è abbastanza analogo al codice ASCII. Chiamare qualcosa "incorporamento" non significa che non sia un simbolo.)
L'informatica classica, del tipo praticato da Turing e von Neumann e da tutti quelli successivi, manipola i simboli in un modo che noi consideriamo algebrico, e questo è ciò che è veramente in gioco. Nell'algebra semplice, abbiamo tre tipi di entità, variabili (come x e y), operazioni (come + o -) e legami (che ci dicono, ad esempio, di lasciare x = 12 ai fini di alcuni calcoli). Se ti dico che x = y + 2, e che y = 12, puoi risolvere il valore di x legando y a 12 e aggiungendo a quel valore, ottenendo 14. Praticamente tutti i software del mondo funzionano mettendo insieme operazioni algebriche, assemblandole in algoritmi sempre più complessi. Il tuo elaboratore di testi, ad esempio, ha una stringa di simboli, raccolti in un file, per rappresentare il tuo documento. Varie operazioni astratte faranno cose come copiare tratti di simboli da un luogo all'altro. Ogni operazione è definita in modo tale da poter funzionare su qualsiasi documento, in qualsiasi posizione. Un elaboratore di testi, in sostanza, è una sorta di applicazione di un insieme di operazioni algebriche ("funzioni" o "subroutine") che si applicano alle variabili (come "testo attualmente selezionato").
Le operazioni simboliche sono anche alla base di strutture di dati come dizionari o database che potrebbero tenere traccia di particolari individui e delle loro proprietà (come i loro indirizzi, o l'ultima volta che un venditore è stato in contatto con loro) e consentire ai programmatori di costruire librerie di codice riutilizzabile e moduli sempre più grandi, che facilitano lo sviluppo di sistemi complessi. Tali tecniche sono onnipresenti, il pane quotidiano del mondo del software.
Se i simboli sono così fondamentali per l'ingegneria del software, perché non usarli anche nell'intelligenza artificiale?
IoDi fatto, i primi pionieri, come John McCarthy e Marvin Minsky, pensavano che si potessero costruire programmi di intelligenza artificiale proprio estendendo queste tecniche, rappresentando singole entità e idee astratte con simboli che potevano essere combinati in strutture complesse e ricchi depositi di conoscenza, proprio come sono oggi utilizzati in cose come browser web, programmi di posta elettronica ed elaboratori di testi. Non si sbagliavano: le estensioni di queste tecniche sono ovunque (nei motori di ricerca, nei sistemi di navigazione del traffico e nell'intelligenza artificiale dei giochi). Ma i simboli da soli hanno avuto problemi; I sistemi simbolici puri a volte possono essere goffi da usare e hanno svolto un lavoro scadente in compiti come il riconoscimento delle immagini e il riconoscimento vocale; il regime dei Big Data non è mai stato il loro forta. Di conseguenza, da tempo c'è fame di qualcos'altro.
È qui che si inseriscono le reti neurali.
Forse l'esempio più chiaro che ho visto che parla a favore dell'utilizzo dei big data e del deep learning rispetto (o in ultima analisi, in aggiunta) al classico approccio di manipolazione dei simboli è il controllo ortografico. Il vecchio modo di fare le cose per aiutare a suggerire l'ortografia per le parole non riconosciute era quello di costruire una serie di regole che essenzialmente specificavano una psicologia per il modo in cui le persone potevano commettere errori. (Si consideri la possibilità di lettere inavvertitamente raddoppiate, o la possibilità che lettere adiacenti possano essere trasposte, trasformando "il" in "il"). Come ha notoriamente e ingegnosamente sottolineato il famoso informatico Peter Norvig, quando si hanno dati delle dimensioni di Google, si ha una nuova opzione: basta guardare i log di come gli utenti si correggono.15 Se cercano "il libro" dopo aver cercato "il libro", hai la prova di quale potrebbe essere un'ortografia migliore per "il". Non sono richieste regole di ortografia.
A me, sembra incredibilmente ovvio che vorresti entrambi gli approcci nel tuo arsenale. Nel mondo reale, i correttori ortografici tendono a utilizzare entrambi; come osserva Ernie Davis, "Se digiti 'cleopxjqco' su Google, lo corregge in 'Cleopatra', anche se probabilmente nessun utente l'avrebbe digitato. La Ricerca Google nel suo complesso utilizza una miscela pragmatica di intelligenza artificiale che manipola i simboli e apprendimento profondo, e probabilmente continuerà a farlo per il prossimo futuro. Ma persone come Hinton hanno respinto qualsiasi ruolo per i simboli, ancora e ancora.
Mentre persone come me hanno sostenuto "modelli ibridi" che incorporano elementi sia di deep learning che di manipolazione dei simboli, Hinton e i suoi seguaci hanno spinto più e più volte per dare un calcio ai simboli. Perché? Nessuno ha mai dato una spiegazione scientifica convincente. Invece, forse la risposta viene dalla storia, dal cattivo sangue che ha frenato il campo.
IoNon è sempre stato così. Mi vengono ancora le lacrime agli occhi leggere un articolo scritto da Warren McCulloch e Walter Pitts nel 1943, "A Logical Calculus of the Ideas Immanent in Nervous Activity", l'unico articolo che von Neumann ritenne abbastanza degno di essere citato nel suo articolo fondamentale sui computer.16 Il loro obiettivo esplicito, che ritengo ancora meritevole, era quello di creare "uno strumento per un rigoroso trattamento simbolico delle reti [neurali]". Von Neumann trascorse gran parte dei suoi ultimi giorni a contemplare la stessa domanda. Non avrebbero potuto prevedere l'inimicizia che presto emerse.
Alla fine degli anni '50, c'era stata una scissione, che non si è mai rimarginata. Molti dei fondatori dell'intelligenza artificiale, persone come McCarthy, Allen Newell e Herb Simon, sembrano non aver dato alcun preavviso ai pionieri delle reti neurali, e la comunità delle reti neurali sembra essersi frammentata, a volte ricevendo una fantastica pubblicità: un articolo del New Yorker del 1957 prometteva che il primo sistema di reti neurali di Frank Rosenblatt che evitava i simboli era una "macchina notevole... [che era] capace di ciò che equivale al pensiero".
Pensare che possiamo semplicemente abbandonare la manipolazione dei simboli significa sospendere l'incredulità.
Le cose divennero così tese e aspre che la rivista Advances in Computers pubblicò un articolo intitolato "A Sociological History of the Neural Network Controversy", sottolineando le prime battaglie per il denaro, il prestigio e la stampa.17 Qualunque ferita potesse essere già esistita allora fu notevolmente amplificata nel 1969, quando Minsky e Seymour Papert pubblicarono una critica matematica dettagliata di una classe di reti neurali (note come percettroni) che sono antenati di tutte le moderne reti neurali. Hanno dimostrato che le reti neurali più semplici erano molto limitate ed hanno espresso dubbi (con il senno di poi indebitamente pessimistici) su ciò che le reti più complesse sarebbero state in grado di realizzare. Per oltre un decennio, l'entusiasmo per le reti neurali si è raffreddato; Rosenblatt (che morì in un incidente in barca a vela due anni dopo) perse parte dei suoi finanziamenti per la ricerca.
Quando le reti neurali sono riemerse negli anni '80, molti sostenitori delle reti neurali hanno lavorato duramente per prendere le distanze dalla tradizione della manipolazione dei simboli. I leader dell'approccio hanno chiarito che, sebbene fosse possibile costruire reti neurali compatibili con la manipolazione dei simboli, non erano interessati. Invece il loro vero interesse era quello di costruire modelli che fossero alternativi alla manipolazione dei simboli. Notoriamente, sostenevano che gli errori di sovraregolarizzazione dei bambini (come goed invece di went) potevano essere spiegati in termini di reti neurali che erano molto diverse dai sistemi classici di regole di manipolazione dei simboli. (Il mio lavoro di tesi suggeriva il contrario.)
Quando sono entrato all'università nel 1986, le reti neurali stavano avendo la loro prima grande rinascita; una raccolta di due volumi che Hinton aveva contribuito a mettere insieme ha esaurito la sua prima stampa nel giro di poche settimane. Il New York Times ha presentato le reti neurali sulla prima pagina della sua sezione scientifica ("Più umano che mai, il computer sta imparando a imparare"), e il neuroscienziato computazionale Terry Sejnowski ha spiegato come hanno lavorato al The Today Show. L'apprendimento profondo non era così profondo allora, ma era di nuovo in movimento.
IoNel 1990, Hinton pubblicò un numero speciale della rivista Artificial Intelligence intitolato Connectionist Symbol Processing che mirava esplicitamente a collegare i due mondi dell'apprendimento profondo e della manipolazione dei simboli. Includeva, ad esempio, l'architettura BoltzCons di David Touretzky, un tentativo diretto di creare "un modello connessionista [di rete neurale] che crea e manipola dinamicamente strutture di simboli compositi". Ho sempre pensato che quello che Hinton stava cercando di fare allora fosse assolutamente sulla strada giusta, e avrei voluto che fosse rimasto fedele a quel progetto. All'epoca anch'io spingevo per modelli ibridi, anche se da un punto di vista psicologico.18 (Ron Sun, tra gli altri, ha anche spinto molto all'interno della comunità informatica, non ottenendo mai la trazione che penso meritasse.)
Per ragioni che non ho mai compreso del tutto, però, Hinton alla fine si è inasprito sulle prospettive di una riconciliazione. Ha respinto molti tentativi di spiegare quando gliel'ho chiesto, in privato, e non ha mai (per quanto ne so) presentato alcuna argomentazione dettagliata al riguardo. Alcune persone sospettano che sia a causa del modo in cui lo stesso Hinton è stato spesso licenziato negli anni successivi, in particolare nei primi anni 2000, quando l'apprendimento profondo ha perso di nuovo popolarità; Un'altra teoria potrebbe essere che si sia innamorato del successo del deep learning.
Quando il deep learning è riemerso nel 2012, è stato con una sorta di atteggiamento che non fa prigionieri che ha caratterizzato la maggior parte dell'ultimo decennio. Nel 2015, la sua ostilità verso tutto ciò che riguarda i simboli si era completamente cristallizzata. Ha tenuto un discorso a un workshop sull'intelligenza artificiale a Stanford confrontando i simboli con l'etere, uno dei più grandi errori della scienza.19 Quando io, un altro relatore del workshop, mi sono avvicinato a lui durante la pausa caffè per avere qualche chiarimento, perché la sua proposta finale sembrava un'implementazione di rete neurale di un sistema simbolico noto come stack (che sarebbe stata una conferma involontaria degli stessi simboli che voleva eliminare), si è rifiutato di rispondere e mi ha detto di andarmene.
Da allora, la sua campagna anti-simbolica è solo aumentata di intensità. Nel 2016, Yann LeCun, Bengio e Hinton hanno scritto un manifesto per l'apprendimento profondo in una delle riviste scientifiche più importanti, Nature.20 Si chiudeva con un attacco diretto alla manipolazione dei simboli, chiedendo non la riconciliazione ma la sostituzione definitiva. Più tardi, Hinton ha detto a un raduno di leader dell'Unione Europea che investire ulteriori soldi in approcci di manipolazione dei simboli è stato "un errore enorme", paragonandolo all'investimento in motori a combustione interna nell'era delle auto elettriche.
Sminuire idee fuori moda che non sono ancora state completamente esplorate non è la strada giusta da percorrere. Hinton ha ragione quando dice che ai vecchi tempi i ricercatori di intelligenza artificiale cercavano, troppo presto, di seppellire l'apprendimento profondo. Ma Hinton ha lo stesso torto a fare lo stesso oggi con la manipolazione dei simboli. Il suo antagonismo, a mio avviso, ha minato la sua eredità e danneggiato il settore. In un certo senso, la campagna di Hinton contro la manipolazione dei simboli nell'IA ha avuto un enorme successo; Quasi tutti gli investimenti nella ricerca si sono mossi nella direzione del deep learning. È diventato ricco e lui e i suoi studenti hanno condiviso il Premio Turing 2019; Il bambino di Hinton riceve quasi tutta l'attenzione. Nelle parole di Emily Bender, "le promesse eccessive [su modelli come GPT-3 tendevano a] risucchiare l'ossigeno dalla stanza per tutti gli altri tipi di ricerca".
L'ironia di tutto questo è che Hinton è il pronipote di George Boole, da cui prende il nome l'algebra booleana, uno degli strumenti più fondamentali dell'IA simbolica. Se riuscissimo finalmente a mettere insieme le idee di questi due geni, Hinton e il suo trisnonno, l'intelligenza artificiale potrebbe finalmente avere la possibilità di mantenere la sua promessa.
Per almeno quattro motivi, l'IA ibrida, non il solo deep learning (né i soli simboli) sembra il modo migliore per procedere:
• Gran parte della conoscenza del mondo, dalle ricette alla storia alla tecnologia, è attualmente disponibile principalmente o solo in forma simbolica. Cercare di costruire l'AGI senza quella conoscenza, invece di reimparare assolutamente tutto da zero, come mira a fare il puro deep learning, sembra un onere eccessivo e avventato.
• Il deep learning da solo continua a lottare anche in domini ordinati come l'aritmetica.21 Un sistema ibrido può avere più potenza di entrambi i sistemi da solo.
• I simboli superano ancora di gran lunga le attuali reti neurali in molti aspetti fondamentali del calcolo. Sono in una posizione molto migliore per ragionare a modo loro attraverso scenari complessi,22 è in grado di eseguire operazioni di base come l'aritmetica in modo più sistematico e affidabile e di rappresentare con precisione le relazioni tra parti e interi (essenziale sia nell'interpretazione del mondo 3D che nella comprensione del linguaggio umano). Sono più robusti e flessibili nella loro capacità di rappresentare e interrogare database su larga scala. I simboli sono anche più favorevoli alle tecniche di verifica formale, che sono fondamentali per alcuni aspetti della sicurezza e onnipresenti nella progettazione dei moderni microprocessori. Abbandonare queste virtù piuttosto che sfruttarle in una sorta di architettura ibrida avrebbe poco senso.
• I sistemi di deep learning sono scatole nere; Possiamo guardare i loro input e i loro output, ma abbiamo un sacco di problemi a sbirciare all'interno. Non sappiamo esattamente perché prendono le decisioni che prendono e spesso non sappiamo cosa fare al riguardo (se non raccogliere più dati) se arrivano alle risposte sbagliate. Questo li rende intrinsecamente ingombranti e ininterpretabili, e per molti versi inadatti alla "cognizione aumentata" in collaborazione con gli esseri umani. Gli ibridi che ci permettono di collegare l'abilità di apprendimento del deep learning, con l'esplicita ricchezza semantica dei simboli, potrebbero essere trasformativi.
BPoiché l'intelligenza artificiale generale avrà una responsabilità così grande che ricadrà su di essa, dovrà essere come l'acciaio inossidabile, più forte e più affidabile e, se è per questo, più facile da lavorare rispetto a qualsiasi parte dei suoi componenti. Nessun singolo approccio all'intelligenza artificiale sarà mai sufficiente da solo; Dobbiamo padroneggiare l'arte di mettere insieme approcci diversi, se vogliamo avere un minimo di speranza. (Immaginate un mondo in cui i produttori di ferro gridassero "ferro" e gli amanti del carbonio gridassero "carbonio", e nessuno ha mai pensato di combinare le due cose; questo è molto di ciò che è la storia della moderna intelligenza artificiale).
La buona notizia è che il riavvicinamento neurosimbolico con cui Hinton ha flirtato, anche se per un breve periodo, intorno al 1990, e per il quale ho passato la mia carriera a fare lobbying, non è mai scomparso del tutto, e sta finalmente prendendo slancio.
Artur Garcez e Luis Lamb hanno scritto un manifesto per i modelli ibridi nel 2009, chiamato Neural-Symbolic Cognitive Reasoning. E alcuni dei più noti successi recenti nel gioco da tavolo (Go, Chess e così via, guidati principalmente dal lavoro presso DeepMind di Alphabet) sono ibridi. AlphaGo utilizzava la ricerca ad albero simbolico, un'idea della fine degli anni '50 (e arricchita con una base statistica molto più ricca negli anni '90) fianco a fianco con l'apprendimento profondo; la ricerca classica degli alberi da sola non sarebbe sufficiente per il Go, e nemmeno il solo apprendimento profondo. AlphaFold2 di DeepMind, un sistema per prevedere la struttura delle proteine dai loro nucleotidi, è anche un modello ibrido, che combina alcuni modi simbolici accuratamente costruiti di rappresentare la struttura fisica 3D delle molecole, con le straordinarie capacità di pesca a strascico dei dati dell'apprendimento profondo.
Anche ricercatori come Josh Tenenbaum, Anima Anandkumar e Yejin Choi si stanno dirigendo in direzioni sempre più neurosimboliche. Grandi contingenti di IBM, Intel, Google, Facebook e Microsoft, tra gli altri, hanno iniziato a investire seriamente negli approcci neurosimbolici. Swarat Chaudhuri e i suoi colleghi stanno sviluppando un campo chiamato "programmazione neurosimbolica"23 Questa è musica per le mie orecchie.
Per la prima volta in 40 anni, provo finalmente un po' di ottimismo riguardo all'IA. Come hanno eloquentemente affermato gli scienziati cognitivi Chaz Firestone e Brian Scholl. "Non c'è un solo modo in cui la mente funziona, perché la mente non è una cosa sola. Invece, la mente ha delle parti, e le diverse parti della mente operano in modi diversi: vedere un colore funziona in modo diverso rispetto a pianificare una vacanza, che funziona in modo diverso rispetto alla comprensione di una frase, al movimento di un arto, al ricordo di un fatto o al provare un'emozione. Cercare di schiacciare tutta la cognizione in un unico buco rotondo non avrebbe mai funzionato. Con una piccola ma crescente apertura a un approccio ibrido, penso che forse abbiamo finalmente una possibilità.
Con tutte le sfide dell'etica e della computazione, e le conoscenze necessarie in campi come la linguistica, la psicologia, l'antropologia e le neuroscienze, e non solo la matematica e l'informatica, ci vorrà un villaggio per diventare un'intelligenza artificiale. Non dovremmo mai dimenticare che il cervello umano è forse il sistema più complicato dell'universo conosciuto; Se vogliamo costruire qualcosa all'incirca, la sua collaborazione paritaria e a cuore aperto sarà fondamentale.
Gary Marcus è uno scienziato, autore di best-seller e imprenditore. È stato fondatore e CEO di Geometric Intelligence, una società di apprendimento automatico acquisita da Uber nel 2016, ed è fondatore e presidente esecutivo di Robust AI. È autore di cinque libri, tra cui The Algebraic Mind, Kluge, The Birth of the Mind e il bestseller del New York Times Guitar Zero, e il suo più recente, co-autore con Ernest Davis, Rebooting AI, uno dei 7 libri da leggere su Artificial Intelligence di Forbes.
Immagine principale: bookzv / Shutterstock
Referenze
1. Varoquaux, G. & Cheplygina, V. Come ho fallito con l'apprendimento automatico nell'imaging medico: carenze e raccomandazioni. arXiv 2103.10292 (2021).
2. Chan, S., & Siegel, E.L. L'apprendimento automatico porrà fine alla vitalità della radiologia come fiorente specialità medica? Giornale britannico di radiologia 92, 20180416 (2018).
3. Ross, C. Una volta presentato come una rivoluzione nella medicina, Watson Health di IBM è stato venduto in parti. Notizie STAT (2022).
4. Hao, K. Il pioniere dell'intelligenza artificiale Geoff Hinton: "Il deep learning sarà in grado di fare tutto". Revisione della tecnologia MIT (2020).
5. Aguera y Arcas, n. I modelli linguistici di grandi dimensioni ci capiscono? Medio (2021).
6. Davis, E. & Marcus, G. GPT-3, Bloviator: il generatore di linguaggio di OpenAI non ha idea di cosa stia parlando. Revisione della tecnologia MIT (2020).
7. Greene, T. DeepMind dice a Google che non ha idea di come rendere l'intelligenza artificiale meno tossica. Il prossimo web (2021).
8. Weidinger, L., et al. Rischi etici e sociali di danno da modelli linguistici. arXiv 2112.04359 (2021).
9. Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi? Atti della conferenza ACM 2021 su equità, responsabilità e trasparenza 610–623 (2021).
10. Kaplan, J., et al. Leggi di scala per i modelli linguistici neurali. arXiv 2001.08361 (2020).
11. Markoff, J. Più piccolo, più veloce, più economico, oltre: il futuro dei chip per computer. Il New York Times (2015).
12. Rae, J.W., et al. Modelli linguistici di scalatura: metodi, analisi e approfondimenti dalla formazione di Gopher. arXiv 2112.11446 (2022).
13. Thoppilan, R., et al. LaMDA: Modelli linguistici per applicazioni di dialogo. arXiv 2201.08239 (2022).
14. Wiggers, K. Facebook rilascia uno strumento di sviluppo AI basato su NetHack. Venturebeat.com (2020).
15. Brownlee, J. Mani sui big data di Peter Norvig. machinelearningmastery.com (2014).
16. McCulloch, W.S. & Pitts, W. Un calcolo logico delle idee immanenti all'attività nervosa. Bollettino di Biologia Matematica 52, 99-115 (1990).
17. Olazaran, M. Una storia sociologica della controversia sulle reti neurali. Progressi nei computer 37, 335-425 (1993).
18. Marcus, G.F., et al. Sovraregolarizzazione nell'acquisizione del linguaggio. Monografie della Società per la Ricerca sullo Sviluppo Infantile 57 (1998).
19. Hinton, G. Simboli eterei. Simposio primaverile AAAI sulla rappresentazione e il ragionamento della conoscenza Università di Stanford, CA (2015).
20. LeCun, Y., Bengio, Y., & Hinton, G. Apprendimento profondo. Natura 521, 436-444 (2015).
21. Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impatto delle frequenze dei termini pre-training sul ragionamento a pochi colpi. arXiv 2202.07206 (2022).
22. Lenat, D. Cosa può imparare l'intelligenza artificiale da Romeo e Giulietta. Forbes (2019).23. Chaudhuri, S., et al. Programmazione neurosimbolica. Fondamenti e tendenze nei linguaggi di programmazione7, 158-243 (2021).
Commenti
Posta un commento