Marques Brownlee interviu cercetători Sora — captură YouTube / Waveform Clips

Știri Știință Tech&IT

Interviu cu 3 cercetători OpenAI despre Sora: ”Vedem modelarea realității ca un prim pas pentru a o depăși”

La un moment dat, OpenAI va combina cele trei modele AI pentru a crea AGI

Adrian Pogingeanu18/03/2024

0 837 4 minute

Am descoperit în weekend un interviu despre Sora, realizat de YouTuber-ul Marques Brownlee, cu trei cercetători în inteligență artificială, care se ocupă de acest proiect în cadrul OpenAI. În ordinea în care s-au prezentat, cei trei sunt Bill Peebles, Tim Brooks și Aditya Ramesh.

Idei cheie din interviul despre Sora

„Sora este un model de generare video și asta înseamnă că analizează o mulțime de date video și învață să genereze videoclipuri realiste. Modul exact în care face asta: preia tehnici atât de la modele bazate pe difuzie, precum DALL-E, cât și de la LLM-uri, precum familia GPT. E undeva între ele. E antrenat ca DALL-E, dar, arhitectural, seamănă mai mult cu familia GPT”, apare în interviu. Iată o explicație mai jos.

Ce sunt modelele bazate pe difuzie?

Modele de inteligență artificială utilizate pentru generarea de imagini, texturi sau alte tipuri de date. Aceste modele funcționează prin procesul de difuzie, care înseamnă adăugarea treptată de zgomot aleatoriu sau interferențe, la datele inițiale într-o serie de pași. Apoi, învață să inverseze acest proces pentru a recrea sau genera noi date, care să semene cu setul original de date fără zgomot.

Ce înseamnă că e antrenat ca DALL-E, dar, arhitectural, seamănă mai mult cu familia GPT?

Înseamnă că funcționează prin procesul de difuzie, dar folosește principii similare sau structuri de rețea neuronale pentru a învăța și a genera conținut, în acest caz, videoclipuri, într-un mod generativ. Acest lucru implică faptul că Sora poate înțelege și prelucra interogările / cererile într-un mod secvențial și contextual-dependent, similar cu modul în care modelele GPT procesează și generează text, deși aplică aceste principii în domeniul generării de videoclipuri. Sugerează că avem de-a face cu un model de inteligență artificială hibrid.

„Este antrenat pe o combinație de date publice, precum și date pe care OpenAI le-a licențiat. Sora este dezvoltat prin antrenarea modelului pe o gamă largă de videoclipuri cu durate, rapoarte de aspect și rezoluții variate, o abordare nouă față de metodele tradiționale care se limitau la dimensiuni fixe. Acest proces implică segmentarea datelor vizuale în fragmente mici, numite patch-uri, permițând modelului să învețe dintr-o diversitate mai mare de surse și să genereze conținut adaptabil la diferite formate și calități”, explică specialiștii OpenAI.

Probabil unul dintre motivele principale, în afară de pericolul deepfake în an electoral, pentru care Sora nu este disponibil public deocamdată, este problema drepturilor de autor. Sora nu poate crea ceva din nimic, o să explorăm ideea asta mai departe, în interviu, are nevoie de o bază largă de date pe care să se antreneze și OpenAI se apără deja în mai multe procese de drepturi de autor.

„Sora excelează în crearea de videoclipuri fotorealiste cu durată până la un minut, marcând un progres semnificativ față de clipurile anterioare care durau câteva secunde. Dar întâmpină dificultăți în reprezentarea corectă a mâinilor, anumitor aspecte ale fizicii și în redarea precisă a traiectoriilor sau a anumitor mișcări specifice.”
”Motivul pentru care am vrut să facem public Sora, anunțându-l pe blog, deși nu este gata, a fost ca să obținem feedback, să înțelegem cum ar putea fi util pentru oameni. De asemenea, ce măsuri de siguranță trebuie luate. În prezent nu este un produs. Nu este disponibil și nu avem niciun calendar stabilit pentru a-l transforma într-un produs. Chiar acum suntem în faza de obținere a feedback-ului. Și cum ar trebui să îl îmbunătățim este oarecum o întrebare deschisă. Am vrut să arătăm lumii această tehnologie care este la orizont și să începem să auzim de la oameni despre cum ar putea fi utilă, să aflăm de la experți în siguranță, cum am putea-o face sigură, să aflăm de la unii artiști, cum ar putea fi utilă în fluxurile lor de lucru. Și în funcție de asta o vom dezvolta în continuare.

”În cele din urmă cred că va fi posibil să creăm clipuri video cu Sora, pe care nu le poți deosebi de imagini reale.” Pe măsură ce ne apropiem de acel punct, vrem să fim atenți la lansarea acestor capacități, astfel încât oamenii de pe rețelele sociale să fie conștienți când un videoclip pe care îl văd ar putea fi real sau fals și când un videoclip pe care îl văd provine de la o sursă de încredere. Și vrem să ne asigurăm că aceste capacități nu sunt folosite într-un mod care ar putea perpetua dezinformarea”. Întrebat când va fi disponibil Sora, Aditya Ramesh răspunde: ”Nu în curând, cred”.

Dar, dintr-un alt interviu realizat săptămâna trecută de Joanna Stern, pentru Wall Street Journal, cu Mira Murati – CTO la OpenAI, aflăm că va fi lansat în câteva luni, în mod cert în 2024.

Modelul Sora depășește cererile bazate pe text, demonstrând capacitatea de a fuziona două videoclipuri și de a crea conținut nou, cum ar fi transformarea unui zbor de dronă prin Colosseum într-un fluture subacvatic, oferind o nouă dimensiune creativității video.

Probabil cea mai interesantă idee din interviu este enunțată, ușor grăbit, de Aditya Ramesh: ”Într-un fel, vedem modelarea realității ca un prim pas pentru a o depăși”.

Practic, înainte să putem crea ceva cu totul nou și inedit cu ajutorul inteligenței artificiale, trebuie să fim siguri că această tehnologie poate imita lumea reală cât mai fidel. Așa că, înainte de a trece la crearea de videoclipuri sau conținut original, modelul AI, precum Sora, învață să reproducă exact ”ceea ce vede”, realitatea. Înainte de a încerca să zbori, trebuie întâi să înveți să mergi!

Exprimarea sună mult mai clar și totodată mai nuanțat în engleză și m-a dus cu gândul la ultima frază din prezentarea modelului: ”Sora servește drept fundație pentru modele care pot înțelege și simula lumea reală, o capacitate despre care credem că va fi o etapă importantă pentru realizarea AGI.”

Nu știu ce-și sugerează ție acest citat combinat cu declarația lui Aditya, dar îmi imaginez că, la un moment dat, OpenAI va combina cele 3 modele și împreună pot duce la un sistem AI care poate înțelege, răspunde și interacționa cu lumea într-un mod similar cu oamenii. Adică la Inteligența Artificială Generală. La asta mă conduce și faptul că ChatGPt a primit de curând un corp, vezi aici materialul lui Aurelian.

Autor

Adrian Pogingeanu

Taguri

Adrian Pogingeanu18/03/2024

0 837 4 minute

Lasă un răspuns

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.