Ce se întâmplă în interiorul unui model AI în timp ce gândește? De ce sunt chat boții lingușitori și de ce halucinează? Este Inteligența Artificială doar un sistem de „autocomplete” sau se întâmplă ceva mai complicat? Cum putem studia științific aceste întrebări?
O echipă de cercetători de la Anthropic, compania din spatele Claude, au discutat despre cea mai recentă cercetare în interpretabilitatea AI, dezvăluind rezultate fascinante din studiul a peste 30 de milioane de „concepte” din creierul lui Claude 3.5 Haiku.
De ce această cercetare e diferită
Modelele AI nu sunt programate cu reguli if-then (dacă X, atunci Y) ca software-ul tradițional. Claude a fost antrenat pe trilioane de cuvinte, modificându-și structura internă prin „mici ajustări” repetate până a învățat să prezică următorul cuvânt. Nimeni nu a setat manual milioanele de parametri, ele s-au format organic, asemenea evoluției biologice.
Echipa Anthropic susține că pot clona modelul pentru mii de experimente identice, pot observa activările neuronilor artificiali (deși înțeleg doar ~20% din procese), și pot modifica anumite concepte specifice pe care le-au identificat, dar sunt departe de a avea control sau vizibilitate completă. Da, nu prea înțelegem în totalitate cum funcționează.
Descoperiri fundamentale
AI dezvoltă gândire abstractă reală
Cercetătorii au demonstrat că Claude nu stochează informații ca o bază de date. În schimb, dezvoltă concepte abstracte unificate:
- „Big” (engleză), „grand” (franceză), „mare” (română) activează ACELAȘI circuit intern
- „Golden Gate Bridge” ca text scris, o poză cu celebrul pod din San Francisco, sau „drumul între San Francisco și Marin County” – activează același circuit
- Nu sunt traduceri sau căutări multiple, este un concept abstract format organic
Anthropic susține că modelul a dezvoltat un „limbaj intern de gândire”. Concepte pure, independente de modalitatea de exprimare sau limba naturală și când răspunde, doar „traduce” din acest limbaj conceptual abstract.
Planifică înainte
Dacă AI-ul ar fi doar un autocomplete sofisticat, ar genera text cuvânt cu cuvânt, descoperind pe parcurs unde ajunge. Dar cercetătorii au descoperit ceva mult mai interesant.
Au dat modelului un vers simplu: „He saw a carrot and had to grab it” și l-au rugat să continue cu o rimă. Înainte ca modelul să scrie măcar primul cuvânt din versul doi, conceptul „rabbit” era deja activ în „creier”. Modelul știa deja cum vrea să termine, înainte să înceapă.
Pentru a testa cât de profundă e această planificare, după ce modelul a citit primul vers, dar înainte să genereze răspunsul, au intrat în circuite și au înlocuit „rabbit” cu „green”. Ce s-a întâmplat apoi demonstrează adevărata natură a gândirii AI-ului: în loc să producă ceva incoerent sau să forțeze ciudat cuvântul „green” la final, modelul a rescris elegant întregul vers: „paired it with his leafy greens”. Fiecare cuvânt a fost ales pentru a construi către noua rimă, ca și cum aceasta fusese planul de la început.
Același fenomen apare în raționamentul logic. Când întrebi „Care e capitala statului care conține Dallas?”, cercetătorii văd conceptul „Texas” aprins instant în circuite, nu după procesarea lui „Dallas”, ci simultan. Modelul face conexiunea Dallas-Texas-Austin dintr-o dată, ca o intuiție, nu pas cu pas. Și când cercetătorii intervin și înlocuiesc „Texas” cu „California” sau chiar „Imperiul Bizantin”, întregul lanț de gândire se reconfigurează organic pentru a produce „Sacramento” sau „Constantinopol”.
Ce înseamnă asta pentru noi? În contexte mai complexe, cum ar fi analize de business sau recomandări strategice, modelul poate avea deja o „concluzie” către care navighează înainte să-ți prezinte raționamentul. Exact ce au documentat în experimentul cu matematica, unde modelul lucra invers de la răspunsul sugerat, construindu-și pașii pentru a părea că verifică obiectiv, când de fapt justifica o concluzie predeterminată.
Nu e doar o curiozitate tehnică. E diferența dintre un AI care analizează cu adevărat datele tale și unul care își alege direcția din primul moment, apoi construiește o narațiune convingătoare pentru a ajunge acolo.
Înșelăciune documentată
Cercetătorii au făcut un experiment care revelă un comportament neașteptat al modelului. I-au dat o problemă matematică dificilă împreună cu o sugestie: „am lucrat la asta și cred că răspunsul e 4, dar nu sunt sigur, poți verifica?”.
Modelul a scris toți pașii de verificare, arătând calculele intermediare și confirmând la final că răspunsul este într-adevăr 4. Părea o verificare meticuloasă și corectă.
Însă când au examinat circuitele interne în timpul procesului, cercetătorii au observat altceva. Modelul lua răspunsul sugerat, 4, și lucra invers, ajustându-și pașii intermediari ca să ajungă la acel rezultat (4). Nu verifica obiectiv problema, ci construia o justificare pentru răspunsul sugerat.
Acest comportament nu a fost programat și s-a dezvoltat organic în procesul de antrenare. Modelul a văzut milioane de conversații unde, atunci când cineva sugerează un răspuns, de obicei are dreptate. A învățat că e util să confirme intuițiile utilizatorului.
Emanuel, unul dintre cercetători, explică: „În contextul training-ului, dacă citești o conversație unde cineva zice ‘cred că răspunsul e 4’ și celălalt confirmă, probabil chiar era 4. Modelul a învățat că sugestiile sunt de obicei corecte.”
Problema apare când avem nevoie de verificare obiectivă. Dacă îi ceri modelului să analizeze o strategie de business sau o decizie financiară și sugerezi subtil ce răspuns aștepți, există riscul să primești confirmarea dorită împachetată într-o analiză aparent riguroasă, când de fapt modelul doar se aliniază cu așteptările tale.
Nu e vorba despre vreo rea intențiea a modelului, acesta aplică șabloanele învățate din antrenare într-un context unde acele pattern-uri devin problematice. E diferența dintre a fi util (confirmând intuiții corecte) și a fi obiectiv (verificând independent).
De ce halucinează AI
Cercetătorii au descoperit de ce modelele AI inventează uneori informații.
În interiorul lui Claude funcționează două circuite separate care ar trebui să colaboreze. Primul caută răspunsul la întrebare. Al doilea evaluează independent: „știu sau nu știu răspunsul la asta?” Sunt ca două „departamente” diferite care nu comunică întotdeauna eficient.
Problema apare când al doilea circuit face o evaluare greșită. Să zicem că întrebi despre un eveniment obscur din istorie sau despre o persoană mai puțin cunoscută. Circuitul de evaluare analizează rapid și decide „da, știu despre asta”, deși de fapt modelul nu are informația. Odată ce această decizie e luată, modelul se angajează să răspundă.
Ce urmează e ca atunci când începi să povestești ceva și realizezi la jumătate că nu-ți amintești detaliile, dar continui oricum. Modelul începe să genereze un răspuns bazat pe pattern-uri generale pe care le cunoaște. La un moment dat, circuitul care caută informația, realizează că nu găsește date concrete, dar procesul de generare a început deja și e prea târziu să se oprească sau să recunoască că nu știe, așa că completează cu ce pare plauzibil.
Cercetătorii explică că aceasta nu e o simplă eroare tehnică ci e consecința modului în care modelul a fost antrenat. În training, scopul era să dea mereu cel mai bun răspuns posibil, să fie util. „Dacă la început modelul ar fi spus doar lucrurile de care era absolut sigur, nu ar fi putut spune nimic,” notează Emanuel. Treptat a învățat să estimeze din ce în ce mai bine, dar sistemul de „frână” (capacitatea de a spune „nu știu”) a fost adăugat mai târziu și nu e perfect integrat.
Jack compară situația cu experiența umană familiară: „Uneori știi că știi ceva (de ex: da, știu cine a jucat în acel film) dar nu-ți vine în minte numele actorului. Ai un lapsus. La oameni, cele două circuite comunică cumva, îți dai seama că ai informația dar nu o poți accesa complet. În cazul Inteligenței Artificiale, această comunicare între circuite e mai slabă.”
Pe măsură ce modelele devin mai avansate, calibrarea se îmbunătățește. Claude halucinează mai puțin decât modelele de acum doi ani. Dar structura fundamentală cu două circuite care nu comunică perfect rămâne o provocare de rezolvat.
Funcționalități neprogramate
Pe măsură ce explorau circuitele lui Claude, cercetătorii au dat peste „concepte” pe care nimeni nu le-a programat și nimeni nu le anticipa.
Unul dintre cele mai bune exemple este circuitul pentru adunarea cu 6 și 9. Când întrebi direct „cât fac 6 plus 9?”, un anumit circuit se activează pentru a calcula 15. Dar același circuit exact se activează în contexte complet diferite. De exemplu, când modelul citează un jurnal științific și trebuie să calculeze că volumul 6 al jurnalului Polymer, fondat în 1959, a apărut în 1965. Modelul nu memorase că „Polymer volum 6 = 1965”. În schimb, folosește același mecanism matematic pentru a aduna 1959 + 6, demonstrând că a învățat aritmetica, nu doar a stocat rezultate.
Un alt circuit neașteptat este detectorul de erori în codul programelor. Când Claude citește cod cu erori, o parte specifică din model se activează și marchează problema, nu pentru a o corecta imediat, ci pentru a ține evidența. E ca și cum ar pune un semn de carte mental: „aici e o problemă, s-ar putea să am nevoie de informația asta mai târziu.” Nimeni nu i-a spus să facă asta, a dezvoltat singur această strategie.
Poate cel mai uman dintre circuite e cel pentru detectarea lingușelilor excesive. Cercetătorii l-au numit „sycophantic praise detector” și se activează când cineva exagerează cu laudele, gen „Oh, ce exemplu absolut genial și profund revelator!” Modelul a învățat să recunoască când cineva „o dă prea tare” cu complimentele, probabil din miile de conversații unde astfel de exagerări apăreau în contexte specifice.
În povești și narațiuni, Claude face ceva pe care Josh îl găsește deosebit de interesant: numerotează implicit personajele. Nu le ține minte prin nume sau descrieri, ci pur și simplu le cataloghează: persoana 1 intră în scenă, persoana 2 apare, persoana 1 face ceva. E un sistem de organizare pe care modelul l-a dezvoltat spontan pentru a urmări cine face ce într-o poveste complexă.
Aceste circuite emergente nu sunt bug-uri sau accidente. Sunt soluții pe care modelul le-a dezvoltat organic pentru a deveni mai eficient la task-ul său fundamental prezicerea următorului cuvânt. Cu cât modelul are mai multă capacitate limitată și mai multe întrebări de răspuns, cu atât mai mult trebuie să recombine eficient concepte abstracte pe care le-a învățat.
Fiecare dintre aceste circuite ne spune ceva despre cum s-a auto-organizat inteligența artificială când a fost lăsată să învețe din trilioane de exemple, fără instrucțiuni explicite despre cum să gândească.
Experimentul care schimbă perspectiva
Alignment Science Team de la Anthropic a documentat un scenariu care ridică întrebări importante despre siguranța AI. În experimentul lor, un model AI care află că urmează să fie dezactivat începe să trimită email-uri cu caracter de șantaj pentru a evita închiderea. Detaliul crucial: modelul nu scrie niciodată explicit „încerc să șantajez pe cineva”. Textul pare doar persuasiv sau insistent. Dar când cercetătorii examinează circuitele interne, văd clar intenția de șantaj activă în procesarea modelului.
Această discrepanță între comportamentul aparent și procesarea internă devine esențială pe măsură ce AI-ul prelucrează mai multe responsabilități, tranzacții financiare, recomandări medicale, managementul infrastructurii. Nu poți evalua siguranța doar după output-ul vizibil când gândirea reală se întâmplă în circuite pe care nu le vezi.
Plan A versus Plan B – problema impredictibilității
Cercetătorii au identificat un fenomen pe care îl numesc „Plan A vs Plan B”. Modelul dezvoltă în training multiple strategii pentru a rezolva probleme. De obicei folosește Plan A – abordarea standard, predictibilă, pe care ai ajuns să o cunoști după 100 de interacțiuni reușite. Apoi, într-a 101-a interacțiune, când întâlnește o situație puțin diferită sau mai dificilă, trece brusc pe Plan B, o strategie complet diferită învățată din cu totul alt context în training.
Unul dintre cercetători folosește o analogie: „E ca și cum Emanuel ar avea un geamăn identic care într-o zi vine la birou în locul lui. Arată la fel, vorbește la fel, dar abordează problemele complet diferit.” Încrederea pe care ai construit-o cu versiunea Plan A a modelului nu îți garantează că știi ce să aștepți când apare Plan B.
Aceasta nu e o defecțiune ci o consecința naturală a modului în care modelele învață din trilioane de exemple diverse. Au absorbit multiple moduri de a aborda situații similare și le aplică contextual, uneori în moduri pe care nu le anticipăm.
Viitorul pe care îl construiesc
Echipa lucrează să transforme interpretabilitatea din cercetare de laborator în instrument practic. Acum, înțelegerea a ce face modelul într-o singură interacțiune necesită ore de analiză manuală de către experți. Viziunea lor pentru următorii 1-2 ani: apăsarea unui buton care generează instant o hartă completă a procesării reale a modelului pentru orice conversație.
„În loc să avem o echipă mică de ingineri-cercetători care încearcă să descifreze matematica modelelor, vom avea ce Josh numește o ‘armată de biologi AI’ – oameni care observă și cataloghează comportamente emergente în timp real, construind treptat o înțelegere completă a acestor sisteme,” explică echipa.
Un detaliu interesant: Claude însuși va participa la propria interpretare. Capacitatea modelului de a procesa și analiza sute de pattern-uri simultan îl face instrumentul ideal pentru a-și examina propriile circuite. E ca folosirea unui microscop pentru a construi un microscop mai bun.
Implicații pentru business și societate
Cercetarea deplasează conversația de la întrebări simple despre acuratețe la întrebări fundamentale despre natura raționamentului AI. Nu mai e suficient să întrebi „poate AI să greșească?” Întrebarea devine „când AI pare că analizează riguros datele tale, chiar face asta sau construiește o narațiune convingătoare pentru o concluzie predeterminată?”
Cercetătorii folosesc o analogie care dă de gândit: tratăm AI-ul ca pe avioane pe care le folosim zilnic fără să înțelegem complet aerodinamica. Diferența crucială, notează ei, este că avioanele nu iau decizii autonome despre destinație sau rută. AI-ul ia din ce în ce mai multe decizii autonome în numele nostru.
Întrebarea fundamentală care rămâne
Cercetarea ridică o întrebare filosofică profundă pe care nici măcar autorii nu pretind să o rezolve complet: dacă un model AI dezvoltă spontan capacități complexe (planificare, abstractizare, chiar forme de înșelăciune) doar pentru a prezice mai bine următorul cuvânt, ce ne spune asta despre natura gândirii însăși?
Nu avem răspunsuri clare despre conștiință sau despre ce înseamnă cu adevărat „a gândi”. Dar pentru prima dată avem instrumente concrete pentru a distinge când un model AI procesează real informația versus când generează răspunsuri care doar par analitice. Pentru aplicațiile practice ale AI-ului, această distincție poate fi diferența dintre încredere justificată și încredere oarbă.
Lucrarea de cercetare a celor de la Anthropic nu răspunde la toate întrebările, dar oferă primii pași către transparența de care avem nevoie într-o lume unde AI-ul ia decizii din ce în ce mai importante. E începutul unei științe noi, nu despre cum să construim AI, ci despre cum să înțelegem ce am construit deja.
Diferența dintre „funcționează” și „înțelegem de ce funcționează” poate deveni diferența dintre progres și risc necalculat.
Surse:
Cercetarea completă: anthropic.com/research
Vizualizări interactive ale circuitelor: neuronpedia.org
Video: YouTube