ȘtiriȘtiință

Limitările raționamentului matematic în LLM-uri evidențiate de un studiu Apple

Un studiu realizat de cercetătorii Apple a scos la iveală limitările raționamentului matematic în LLM-uri (Large Language Models), cum ar fi ChatGPT sau LLaMA. În ciuda progreselor în domeniul procesării limbajului natural, studiul demonstrează că aceste modele nu au raționament logic autentic, bazându-se în schimb pe reproducerea pașilor întâlniți în datele de antrenament.

GSM-Symbolic și ”erorile complexității”

Pentru a explora în profunzime aceste limitări, cercetătorii Apple au dezvoltat GSM-Symbolic, un benchmark care oferă o metodă mai controlată și flexibilă de testare a capacităților de raționament matematic ale LLM-urilor. Acest benchmark generează variații simbolice ale întrebărilor matematice, permițând o evaluare mai detaliată a modului în care modelele răspund la întrebări similare, dar cu date ușor modificate.

Rezultatele testelor au fost surprinzătoare: LLM-urile testate au avut performanțe variabile, chiar și la schimbări minore ale valorilor numerice sau ale formulării întrebărilor. Această fragilitate a raționamentului matematic sugerează că modelele nu efectuează un raționament autentic, ci doar încearcă să reproducă tipare din datele de antrenament.

Un alt aspect important al studiului este că limitările raționamentului matematic în LLM-uri devin mai evidente pe măsură ce complexitatea întrebărilor crește. În unele cazuri, acuratețea răspunsurilor a scăzut cu până la 65% atunci când întrebările includeau propoziții care nu aveau relevanță pentru soluția matematică. Aceste rezultate indică o problemă fundamentală în modul în care aceste modele „înțeleg” informațiile: nu disting corect între informațiile relevante și cele irelevante.

Limitările raționamentului matematic în LLM-uri studiu Apple foto Freepik

Cercetătorii Apple susțin că modelele actuale nu reușesc să efectueze raționament logic autentic, ci se bazează pe potrivirea probabilistică a tiparelor întâlnite în datele lor de antrenament. De exemplu, o întrebare matematică implicând adunarea unor fructe putea deveni problematică pentru LLM-uri atunci când era introdusă o propoziție irelevantă despre dimensiunea fructelor, ceea ce a determinat modelele să dea răspunsuri greșite.

Cercetarea Apple arată că limitările raționamentului matematic în LLM-uri derivă din faptul că aceste modele se bazează pe machine learning pentru a reproduce tipare din datele de antrenament, nu pe un raționament logic autentic. Acest lucru le face vulnerabile la erori când se confruntă cu întrebări ușor diferite de cele la care au fost expuse în procesul de învățare.

Iată un exemplu prin care ai putea deruta LLM-ul de la rezolvarea unui probleme matematice simple.

Întrebarea inițială: „Dacă Ana are 5 mere și primește încă 3, câte mere are Ana în total?”
Răspuns corect: Ana are 8 mere.

Dar dacă întrebarea este formulată astfel: „Dacă Ana are 5 mere, dintre care două sunt verzi, și primește încă 3 mere roșii, câte mere are Ana în total?”

Informația despre culorile merelor este irelevantă pentru calculul final, dar un model AI ar putea fi derutat de introducerea ei în problemă și să dea un rezultat greșit.

Context, critici și rezerve asupra studiului

În contextul competiției cu alți giganți din tech, precum OpenAI și Google, lansarea acestui studiu ar putea pregăti terenul pentru introducerea Apple Intelligence, soluția AI dezvoltată de Apple. Deși clarifică limitările raționamentului matematic în LLM-uri, studiul nu abordează în detaliu alte domenii în care modelele de limbaj mari excelează, cum ar fi generarea de text.

Studiul subliniază clar vulnerabilitățile actuale ale LLM-urilor în sarcinile de raționament matematic, dar nu oferă soluții pentru depășirea acestora, lăsând loc pentru viitoare cercetări și îmbunătățiri.

 

 

Articole asemanatoare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.

Back to top button