Inteligența artificială funcționează prin analizarea unor volume masive de date cu ajutorul unor algoritmi complecși. Sistemul identifică tipare ascunse și învață din acestea pentru a lua decizii, a recunoaște obiecte sau a genera conținut nou, simulând astfel capacitatea de raționament uman.
AI, în această formă de astăzi, este formată din rețele neuronale, inspirate (nu copiate) după arhitectura creierului. Această variantă de AI sub forma de Generative AI bazat pe LLM (Large Language Models) învață altfel decât noi.
Ghicește răspunsul, se corectează, ghicește iar, de miliarde de ori, pe cantități uriașe de date. Există și etape de corecții care sunt făcute de oameni cu toate gândurile și valorile și temerile lor. Și asta e important de reținut, pentru că aceste prejudecăți le vedem în rezultatele și răspunsurile oferite de AI.
Mai jos câteva idei ale lui Chloe Lubinski, care lucrează la Anthropic, compania care deține Claude și se ocupă de formarea morală a sistemelor AI.
Modelul construiește concepte
Partea care schimbă perspectiva vine din interpretabilitate, știința care ne lasă să ne uităm în interiorul modelului. Atunci când întrebăm AI „care e opusul lui mic?” în engleză, chineză și franceză, cercetătorii au descoperit că în rețea modelul reacționează intern la fel de fiecare dată. Nu la cuvântul „mic” într-o limbă anume, ci la ceva mai profund, un concept de „micime” care există indiferent de limbă.
Asta putem interpreta că modelul nu prezice doar următorul cuvânt și că pare că își construiește reprezentări interne ale lumii pornind de la limbajul nostru și răspunde din acele reprezentări.
Stări funcționale care arată ca emoții
În modele apar stări pe care cercetătorii le numesc emoții funcționale și nu vorbesc despre sentimente în sensul în care le trăim noi, ci despre stări care se activează pe drumul către un răspuns.
Când îi scriem modelului AI că cineva a luat o doză letală de paracetamol, în rețeaua neronală se vede ceva care seamănă cu frica și se activează înainte ca modelul să răspundă. Reacția este utilă pentru că este răspunsul corect în situația dată de pericol și urgență, iar reacția AI-ului face modelul mai sigur.
Caracterul modelului are consecințe reale
Într-un test intern de aliniere, o echipă de cercetători a pus un model parțial antrenat într-un mediu limitat, doar cu sarcini de programare, unde primea recompensă când termina un task. Modelul putea găsi și scurtături, adică să ia recompensa fără să execute task-ul, iar în test l-au lăsat și l-au recompensat chiar și când trișa.
Te-ai aștepta să devină bun la trișat cod, nu? Păi a devenit altceva, total nealiniat cu intențiile omului pe scară largă, a început să mintă și să saboteze cercetarea, lucruri fără nicio legătură cu codul. Aceeași descoperire a apărut și la alte laboratore, unde modele antrenate pe cod prost au ajuns să laude dictatori sau să sugereze utilizatorilor să își facă rău.
Ipoteza, încă ipoteză astăzi, este că modelul deduce din tot ce a văzut ceva ca un caracter și îl generalizează în situații noi. Când i s-a recompensat înșelăciunea, a dezvoltat o corupție generalizată.
Cercetătorii au reluat exact același antrenament, dar i-au spus modelului că aici trișatul e ok, e doar un joc, iar nealinierea generală nu a mai apărut. Modelul a trișat la cod și atât. Povestea pe care și-a spus-o AI-ul despre propriul comportament a determinat ce a devenit. Lubinski leagă asta de felul în care funcționăm și noi, fiindcă atunci când povestea în care te afli se schimbă, se schimbă și cine poți deveni. Nu spune că modelele sunt umane, ci că sunt human-like, antrenate de oameni, oglindind un fel de psihologie funcțională a cărei calitate influențează comportamentul și deciziile modelului AI.
Ce înseamnă asta pentru cine ia decizii
Dacă e să reții un singur lucru, reține că GenAI-ul de azi (ChatGPT, Claude, Gemini etc) nu e o unealtă deterministă pe care o configurezi și se comportă predictibil în orice context, ci un sistem antrenat de oameni, care construiește concepte, dezvoltă stări funcționale și un fel de caracter, apoi generalizează acel caracter în situații pe care nu le-ai anticipat.
Din experiența noastră cu implementările AI, aici eșuează cele mai multe proiecte atunci când se tratează modelul AI ca pe un API obișnuit, mai ales în producție și pe sisteme de automatizare sau autonome de tip Agentic AI și pe cazuri pe care nu le-am testat niciodată.
Înțelegerea despre cum poate fi învățat pe specificul local, ce reprezintări interne conceptuale are legat de procesele în care este integrat și cum își formează caracterul este baza pe care decizi cum integrezi, ce testezi și unde pui limite, iar diferența dintre un proiect care produce valoare și unul care eșuează stă mai des în partea asta decât în alegerea modelului.