Limitările raționamentului matematic în LLM-uri evidențiate de un studiu Apple

Adrian Pogingeanu14/10/2024

0 813 2 minute

Limitările raționamentului matematic în LLM-uri studiu Apple foto Freepik

Un studiu realizat de cercetătorii Apple a scos la iveală limitările raționamentului matematic în LLM-uri (Large Language Models), cum ar fi ChatGPT sau LLaMA. În ciuda progreselor în domeniul procesării limbajului natural, studiul demonstrează că aceste modele nu au raționament logic autentic, bazându-se în schimb pe reproducerea pașilor întâlniți în datele de antrenament.

GSM-Symbolic și ”erorile complexității”

Pentru a explora în profunzime aceste limitări, cercetătorii Apple au dezvoltat GSM-Symbolic, un benchmark care oferă o metodă mai controlată și flexibilă de testare a capacităților de raționament matematic ale LLM-urilor. Acest benchmark generează variații simbolice ale întrebărilor matematice, permițând o evaluare mai detaliată a modului în care modelele răspund la întrebări similare, dar cu date ușor modificate.

Rezultatele testelor au fost surprinzătoare: LLM-urile testate au avut performanțe variabile, chiar și la schimbări minore ale valorilor numerice sau ale formulării întrebărilor. Această fragilitate a raționamentului matematic sugerează că modelele nu efectuează un raționament autentic, ci doar încearcă să reproducă tipare din datele de antrenament.

Un alt aspect important al studiului este că limitările raționamentului matematic în LLM-uri devin mai evidente pe măsură ce complexitatea întrebărilor crește. În unele cazuri, acuratețea răspunsurilor a scăzut cu până la 65% atunci când întrebările includeau propoziții care nu aveau relevanță pentru soluția matematică. Aceste rezultate indică o problemă fundamentală în modul în care aceste modele „înțeleg” informațiile: nu disting corect între informațiile relevante și cele irelevante.

Limitările raționamentului matematic în LLM-uri studiu Apple foto Freepik

Cercetătorii Apple susțin că modelele actuale nu reușesc să efectueze raționament logic autentic, ci se bazează pe potrivirea probabilistică a tiparelor întâlnite în datele lor de antrenament. De exemplu, o întrebare matematică implicând adunarea unor fructe putea deveni problematică pentru LLM-uri atunci când era introdusă o propoziție irelevantă despre dimensiunea fructelor, ceea ce a determinat modelele să dea răspunsuri greșite.

Cercetarea Apple arată că limitările raționamentului matematic în LLM-uri derivă din faptul că aceste modele se bazează pe machine learning pentru a reproduce tipare din datele de antrenament, nu pe un raționament logic autentic. Acest lucru le face vulnerabile la erori când se confruntă cu întrebări ușor diferite de cele la care au fost expuse în procesul de învățare.

Iată un exemplu prin care ai putea deruta LLM-ul de la rezolvarea unui probleme matematice simple.

Întrebarea inițială: „Dacă Ana are 5 mere și primește încă 3, câte mere are Ana în total?”
Răspuns corect: Ana are 8 mere.

Dar dacă întrebarea este formulată astfel: „Dacă Ana are 5 mere, dintre care două sunt verzi, și primește încă 3 mere roșii, câte mere are Ana în total?”

Informația despre culorile merelor este irelevantă pentru calculul final, dar un model AI ar putea fi derutat de introducerea ei în problemă și să dea un rezultat greșit.

Context, critici și rezerve asupra studiului

În contextul competiției cu alți giganți din tech, precum OpenAI și Google, lansarea acestui studiu ar putea pregăti terenul pentru introducerea Apple Intelligence, soluția AI dezvoltată de Apple. Deși clarifică limitările raționamentului matematic în LLM-uri, studiul nu abordează în detaliu alte domenii în care modelele de limbaj mari excelează, cum ar fi generarea de text.

Studiul subliniază clar vulnerabilitățile actuale ale LLM-urilor în sarcinile de raționament matematic, dar nu oferă soluții pentru depășirea acestora, lăsând loc pentru viitoare cercetări și îmbunătățiri.

Taguri

Adrian Pogingeanu14/10/2024

0 813 2 minute

Lasă un răspuns

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.

German Alexandru
Si cu cenzura cum ramane? De ce ar lua cineva internetul cen...
GERMAN Alexandru
Nu tin minte cand am folosit ultima oara un floppy si desi l...
Tarcau Dragos
Dăăă, normal ca sunt facute sa creeze dependenta! Orice ar s...
Tarcau Dragos
Da, se vede clar aceasta tendinta de a scumpi midrange-urile...
Tarcau dragos
Schimbati titlul! Poate primul power bank cu incarcare rapid...

Limitările raționamentului matematic în LLM-uri evidențiate de un studiu Apple

GSM-Symbolic și ”erorile complexității”

Context, critici și rezerve asupra studiului

Adrian Pogingeanu

Lasă un răspuns

Aroganță sau normalitate: Apple cere pentru schimbarea bateriei iPhone 16 Pro mai mult decât prețul unui telefon ieftin cu Android

Smart TV-urile au devenit un „cal troian digital” în casele oamenilor, folosit la colectarea de informații și manipularea opiniei prin reclame personalizate

Antivirusul Kaspersky, dezinstalat automat și înlocuit cu UltraAV antivirus, luând prin surprindere utilizatorii din SUA

GSM-Symbolic și ”erorile complexității”

Context, critici și rezerve asupra studiului

Adrian Pogingeanu

Google avertizează utilizatorii Chrome că uBlock Origin și alte extensii Adblock vor fi dezactivate în curând

Vivo X200, prezentat oficial: X200, X200 Pro și Vivo X200 Pro mini vin cu Dimensity 9400

Articole asemanatoare

Google lansează noi funcții pentru toate dispozitivele Pixel

Amazon lansează primul Kindle cu ecran color și alte „minuni”

Exynos 2500, comparat cu Exynos 2400 în teste de performanță neoficiale

Lenovo Tech World 2024: AI Now, ThinkPad și noi concepte pentru productivitate

Lasă un răspuns

Aroganță sau normalitate: Apple cere pentru schimbarea bateriei iPhone 16 Pro mai mult decât prețul unui telefon ieftin cu Android

Smart TV-urile au devenit un „cal troian digital” în casele oamenilor, folosit la colectarea de informații și manipularea opiniei prin reclame personalizate

Antivirusul Kaspersky, dezinstalat automat și înlocuit cu UltraAV antivirus, luând prin surprindere utilizatorii din SUA