Conținut tradus, reinterpretat sau complet falsificat cu ajutorul AI. Cam asta poți găsi pe mai bine de jumătate dintre site-urile de internet, folosirea motoarelor de căutare pentru a găsi informații folositoare devenind tot mai mult o luptă zadarnică împotriva autorilor de spam care alimentează la foc automat mii de site-uri populate practic exclusiv cu conținut generat de AI.
Potrivit unui studiu semnat de cercetătorii Amazon Web Services (AWS), 57 % din conținutul disponibil pe internet este generat parțial sau integral de AI.
Documentul cu titlul “A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism” detaliază modul în care folosirea la scară largă a tehnologiilor de traducere și generare text asistată de AI a poluat întregul internet cu conținut de calitate îndoielnică. Spre exemplu, un „antreprenor” poate face de unul singur munca unei redacții cu zeci de angajați, periind alte site-uri de internet în căutare de articole care sunt apoi rezumate/rescrise cu ajutorul AI și vărsate cu minim de efort pe propriile site-uri avute în administrare, traduse în cât mai multe limbi cu scopul de a monetiza de pe urma unei audiențe diverse. Iar într-o astfel de operațiune cantitatea și nu calitatea este cea care contează, site-urile apărute ca ciupercile după ploaie răspândind articole pe subiecte dintre cele mai diverse, majoritatea fiind publicate fără a fi văzute măcar o dată de ochii unei persoane reale. Iar ca să fie treaba-treabă, avem și nenumărate articole complet „halucinate” de AI pornind de la simple indicații și parametrii furnizați în interogări ChatGPT, Gemini sau Claude. Practic, dezinformări și fake news de la un capăt la altul, care apoi sunt periate de alți proprietari de site-uri și „reîncălzite” pentru a da aparența de conținut nou și original.
Potrivit experților Amazon Web Services, cantitatea tot mai mare de conținut generat de AI pe internet, combinată cu dependența de instrumentele AI pentru a edita și manipula acel conținut, ar putea induce colapsul generalizat tocmai al modelor AI pe care ne bazăm. Pe măsură ce acestea asimilează tot mai mult conținut deja generat de AI, acuratețea și calitatea rezultatelor oferite va scădea până la inutilizabil. Deja, „poluarea” generată de AI a degradat masiv calitatea rezultatelor obținute la căutările web.
Având în vedere că modelele AI de frontieră precum ChatGPT , Gemini și Claude se bazează pe cantități masive de date pentru antrenament, obținute prin perierea web-ului public (cu sau fără încălcarea drepturilor de autor), este doar o chestiune de timp până ce „intoxicarea” cu inexactități și falsuri generate de AI va atinge un punct critic, dincolo de care nu te mai poți baza pe fiabilitatea acestor modele:
”Este surprinzător cât de rapid se produce colapsul modelului și cât de greu detectabil poate fi”, a declarat dr. Ilia Shumailov de la Universitatea din Oxford pentru Windows Central . ”La început, afectează datele minoritare – date care sunt prost reprezentate. Apoi afectează diversitatea rezultatelor, iar varianța se reduce. Uneori, poți observa o mică îmbunătățire pentru datele majoritare, care însă ascunde degradarea performanței pe datele minoritare. Prăbușirea modelului poate avea consecințe grave.”
Cercetătorii au demonstrat acest trend solicitând unor lingviști profesioniști să clasifice 10.000 de propoziții în engleză selectate aleatoriu dintr-una din 20 de categorii. Cercetătorii au observat ”o schimbare dramatică în distribuția subiectelor atunci când se compară datele paralele în două direcții cu 8+ moduri (adică numărul de traduceri în limbi), subiectele de ”conversație și opinie” crescând de la 22,5% la 40,1%” dintre cele publicate.
Oglindind aceste temeri vizând colapsul progresiv și inevitabil al modelelor AI, CEO-ul OpenAI Sam Altman militează (deocamdată fără rezultat) pentru obținerea de acces gratuit la lucrări protejate prin drepturi de autor, care să fie apoi folosite pentru antrenarea directă a instrumentelor precum ChatGPT.