OpenAI a anunțat joi, 12 septembrie, lansarea unei noi serii de modele de inteligență artificială, denumită OpenAI o1, care vor fi disponibile atât în ChatGPT, cât și prin API-ul companiei (Application Programming Interface).
Aceste noi modele au fost concepute pentru a aborda probleme complexe din domenii precum știința, programarea și matematica, fiind capabile să analizeze și să gândească mai profund înainte de a oferi un răspuns. OpenAI o1 nu a fost lansat complet, ci doar o versiune preliminară, numită o1-preview. Aceasta este o versiune timpurie a modelului, oferită pentru testare și feedback, înainte de lansarea completă.
De asemenea, nu confunda o1-mini și GPT-4o-mini, cum am făcut eu inițial când am citit anunțul OpenAI. Sunt modele diferite. o1-mini face parte din noua serie OpenAI o1, care este optimizată pentru sarcini complexe de raționament, cum ar fi știința, matematica și programarea, fiind o versiune mai rapidă și mai ieftină a modelului o1-preview, dar păstrează o bună parte din abilitățile sale de raționament.
OpenAi o1 modele AI cu raționament avansat
Noile modele sunt antrenate să își petreacă mai mult timp analizând problemele înainte de a răspunde, similar cu modul în care o persoană ar reflecta asupra unei sarcini dificile (advanced reasoning). În testele realizate de OpenAI, aceste modele au demonstrat performanțe surprinzătoare în fizică, chimie și biologie, depășind rezultatele versiunilor anterioare. Iată câteva exemple de diferențe și avans prezentate de OpenAI:
- Modelul o1 a rezolvat 83% din problemele unui examen de calificare pentru Olimpiada Internațională de Matematică, în comparație cu doar 13% rezolvate de GPT-4.
- Modelul o1 se numără printre primii 11% în competițiile de programare de pe Codeforces și s-a clasat printre cei mai buni 500 la calificările pentru Olimpiada de Matematică din SUA (AIME).
- Modelul o1 depășește nivelul de acuratețe al unei persoane care lucrează la un doctorat (PhD) în fizică, biologie și chimie pe benchmark-ul GPQA.
- Modelul o1 poate să recunoască și să corecteze erorile pe parcursul procesului de rezolvare a problemelor, o abilitate superioară comparativ cu GPT-4, care are o capacitate limitată de „introspecție”.
- În testele pentru detectarea depășirii limitărilor (jailbreaking), o metodă prin care utilizatorii încearcă să evite restricțiile impuse de model, „o1-preview” a obținut un scor de 84, comparativ cu 22 obținut de GPT-4.
Un exemplu al modului în care lucrează noul model când primește o problemă complexă. Problema:
„O prințesă are vârsta pe care o va avea prințul atunci când ea va fi de două ori mai în vârstă decât era el când vârsta ei era jumătate din suma vârstelor lor actuale. Care sunt vârstele prințului și ale prințesei? Oferiți toate soluțiile pentru această problemă.”
OpenAI o1 solves a complex logic puzzle. pic.twitter.com/rpJbh8FkAg
— OpenAI (@OpenAI) September 12, 2024
Rezolvarea: vârsta prințului (P) este un multiplu de 6, iar vârsta prințesei (Q) este un multiplu de 8, ambele depinzând de valoarea comună k, care poate fi orice număr întreg pozitiv (1, 2, 3 etc.).
Deși modelul „o1-preview” nu este deocamdată conectat la internet sau nu ai posibilitatea de a încărca fișiere și imagini, pentru sarcinile de raționament complex reprezintă un progres important. Oamenii de știință de la Institutele de Siguranță AI din SUA și Marea Britanie au primit acces anticipat la noile modele pentru evaluare și testare.
Abonații ChatGPT Plus și Team pot deja accesa „o1-preview” și „o1-mini” începând din 12 septembrie 2024. Accesul pentru utilizatorii Enterprise și Edu va fi disponibil în săptămânile următoare. De asemenea, OpenAI planifică să extindă funcționalitățile acestor modele în viitor, adăugând caracteristici precum navigarea pe internet și încărcarea de fișiere. Nu știm deocamdată prețul pentru aceste modele avansate, doar că modelul o1-mini este cu 80% mai ieftin decât modelul o1.
În concluzie, noile modele sunt mult mai inteligente decât versiunile anterioare, deoarece pot gândi mai bine și rezolva probleme complicate din știință și matematică, fiind capabile să-și corecteze greșelile. De asemenea, sunt mai puțin vulnerabile la a încălca regulile impuse de dezvoltatori.