
În câteva cuvinte
În ciuda îmbunătățirilor în anumite domenii, cele mai recente sisteme de inteligență artificială, inclusiv modele de la OpenAI, Google și DeepSeek, demonstrează o creștere a numărului de erori și „halucinații” în anumite teste. Acest lucru ridică semne de întrebare cu privire la fiabilitatea lor, în special atunci când lucrează cu informații sensibile.
Luna trecută, un bot AI care gestionează suportul tehnic pentru Cursor, un instrument emergent pentru programatorii de computere, a alertat mai mulți clienți cu privire la o schimbare a politicii companiei. Acesta a transmis că nu li se mai permitea să utilizeze Cursor pe mai mult de un singur computer.
În postări furioase pe forumuri online, clienții s-au plâns. Unii și-au anulat conturile Cursor. Și unii au devenit și mai furioși când și-au dat seama ce s-a întâmplat: botul AI a anunțat o schimbare de politică care nu exista.
„Nu avem o astfel de politică. Desigur, sunteți liberi să folosiți Cursor pe mai multe mașini”, a scris Michael Truell, directorul executiv și co-fondatorul companiei, într-o postare pe Reddit. „Din păcate, acesta este un răspuns incorect din partea unui bot de suport AI de primă linie.”
La peste doi ani de la apariția ChatGPT, companiile de tehnologie, angajații de birou și consumatorii de zi cu zi utilizează roboți AI pentru o gamă tot mai largă de sarcini. Dar încă nu există nicio modalitate de a se asigura că aceste sisteme produc informații precise.
Cele mai noi și mai puternice tehnologii – așa-numitele sisteme de raționament de la companii precum OpenAI, Google și startup-ul chinez DeepSeek – generează mai multe erori, nu mai puține. Pe măsură ce abilitățile lor matematice s-au îmbunătățit vizibil, precizia lor în privința faptelor a devenit mai nesigură. Nu este pe deplin clar de ce.
Boții AI de astăzi se bazează pe sisteme matematice complexe care își învață abilitățile analizând cantități enorme de date digitale. Ei nu decid – și nu pot decide – ce este adevărat și ce este fals. Uneori, ei inventează pur și simplu lucruri, un fenomen pe care unii cercetători în AI îl numesc halucinații. Într-un test, ratele de halucinație ale sistemelor AI mai noi au fost de până la 79 la sută.
Aceste sisteme utilizează probabilități matematice pentru a ghici cel mai bun răspuns, nu un set strict de reguli definite de inginerii umani. Așa că fac un anumit număr de greșeli. „În ciuda celor mai bune eforturi ale noastre, ele vor halucina întotdeauna”, a declarat Amr Awadallah, directorul executiv al Vectara, un startup care construiește instrumente AI pentru afaceri. „Asta nu va dispărea niciodată.”
De câțiva ani, acest fenomen a ridicat îngrijorări cu privire la fiabilitatea acestor sisteme. Deși sunt utile în unele situații – precum scrierea de lucrări sau rezumarea documentelor – greșelile lor pot cauza probleme.
Boții AI legați de motoare de căutare precum Google și Bing generează uneori rezultate de căutare ridicol de greșite. Dacă îi întrebi despre un maraton bun pe Coasta de Vest, ar putea sugera o cursă în Philadelphia. Dacă îți spun numărul de gospodării din Illinois, ar putea cita o sursă care nu include acea informație.
Aceste halucinații s-ar putea să nu fie o problemă mare pentru mulți oameni, dar este o problemă serioasă pentru oricine folosește tehnologia cu documente legale, informații medicale sau date sensibile de afaceri.
„Petreci mult timp încercând să-ți dai seama care răspunsuri sunt factuale și care nu”, a spus Pratik Verma, co-fondator și director executiv al Okahu, o companie care ajută afacerile să navigheze problema halucinațiilor. „A nu gestiona corect aceste erori practic elimină valoarea sistemelor AI, care ar trebui să automatizeze sarcini pentru tine.”
De mai bine de doi ani, companii precum OpenAI și Google și-au îmbunătățit constant sistemele AI și au redus frecvența acestor erori. Dar odată cu utilizarea noilor sisteme de raționament, erorile sunt în creștere. Cele mai recente sisteme OpenAI halucinează cu o rată mai mare decât sistemul anterior al companiei, conform propriilor teste ale companiei.
Compania a constatat că o3 – cel mai puternic sistem al său – a halucinat în 33 la sută din cazuri la testul de referință PersonQA, care implică răspunsuri la întrebări despre persoane publice. Aceasta este mai mult decât dublu față de rata de halucinație a sistemului de raționament anterior al OpenAI, numit o1. Noul o4-mini a halucinat cu o rată chiar mai mare: 48 la sută.
La efectuarea unui alt test numit SimpleQA, care pune întrebări mai generale, ratele de halucinație pentru o3 și o4-mini au fost de 51 la sută și, respectiv, 79 la sută. Sistemul anterior, o1, a halucinat în 44 la sută din cazuri.
Într-o lucrare care detaliază testele, OpenAI a declarat că sunt necesare mai multe cercetări pentru a înțelege cauza acestor rezultate. Deoarece sistemele AI învață din mai multe date decât pot oamenii să înțeleagă, tehnologii se străduiesc să determine de ce se comportă așa cum o fac.
„Halucinațiile nu sunt inerent mai prevalente în modelele de raționament, deși lucrăm activ pentru a reduce ratele mai mari de halucinație pe care le-am văzut în o3 și o4-mini”, a declarat o purtătoare de cuvânt a companiei, Gaby Raila. „Vom continua cercetarea noastră asupra halucinațiilor în toate modelele pentru a îmbunătăți acuratețea și fiabilitatea.”
Hannaneh Hajishirzi, profesor la Universitatea din Washington și cercetător la Allen Institute for Artificial Intelligence, face parte dintr-o echipă care a conceput recent o modalitate de a urmări comportamentul unui sistem până la fragmentele individuale de date pe care a fost antrenat. Dar, deoarece sistemele învață din atât de multe date, acest nou instrument nu poate explica totul. „Încă nu știm exact cum funcționează aceste modele”, a spus ea.
Testele efectuate de companii și cercetători independenți indică faptul că ratele de halucinație sunt în creștere și pentru modelele de raționament de la companii precum Google și DeepSeek.
Începând cu sfârșitul anului 2023, compania lui domnului Awadallah, Vectara, a urmărit cât de des chatbot-urile se abat de la adevăr. Compania cere acestor sisteme să îndeplinească o sarcină simplă care este ușor de verificat: rezumarea unor articole de știri specifice. Chiar și atunci, chatbot-urile inventează informații în mod persistent.
Cercetarea inițială a Vectara a estimat că, în această situație, chatbot-urile inventau informații în cel puțin 3 la sută din cazuri și uneori chiar până la 27 la sută. În anul și jumătate de atunci, companii precum OpenAI și Google au redus aceste cifre la intervalul de 1 sau 2 la sută. Altele, cum ar fi startup-ul Anthropic din San Francisco, s-au situat în jurul valorii de 4 la sută. Dar ratele de halucinație la acest test au crescut odată cu sistemele de raționament. Sistemul de raționament R1 al DeepSeek a halucinat în 14,3 la sută din cazuri. O3 de la OpenAI a urcat la 6,8%.
O altă problemă este că modelele de raționament sunt concepute să petreacă timp „gândindu-se” la probleme complexe înainte de a se decide asupra unui răspuns. Pe măsură ce încearcă să abordeze o problemă pas cu pas, riscă să halucineze la fiecare pas. Erorile se pot acumula pe măsură ce petrec mai mult timp gândindu-se.
Cei mai noi boți arată utilizatorilor fiecare pas, ceea ce înseamnă că utilizatorii pot vedea și fiecare eroare. Cercetătorii au descoperit, de asemenea, că în multe cazuri, pașii afișați de un bot nu sunt legați de răspunsul pe care îl oferă în cele din urmă.
„Ceea ce sistemul spune că gândește nu este neapărat ceea ce gândește”, a comentat Aryo Pradipta Gema, un cercetător în AI.