Google a anunțat, pe 16 decembrie, lansarea Veo 2, o nouă versiune a modelului său de generare video, și Imagen 3, o versiune îmbunătățită a modelului anterior, Imagen 2, destinat generării de imagini. Aceste instrumente AI sunt destinate creatorilor de conținut digital și vor fi disponibile în peste 100 de țări prin platforma Google Labs.
Ce aduce nou tehnologia Google de generare video
Veo 2 poate genera videoclipuri în rezoluție 4K și înțelege comenzi specifice legate de tehnica video. Spre deosebire de versiuni anterioare sau alte modele din industrie, Veo 2 „înțelege” mai bine mișcările umane, expresiile faciale și elementele vizuale specifice cinematografiei. Utilizatorii pot specifica detalii precum unghiuri de filmare, tipuri de lentile sau efecte, iar rezultatele sunt mult mai aproape de realitate.
De exemplu, cerințe precum „un cadru apropiat al unui om de știință privind prin microscop” sau „un cadru larg realizat cu lentila de 18 mm” sunt interpretate precis de Veo 2. Modelul produce și mai puține erori obișnuite ale AI-ului, cum ar fi detalii ireale sau deformări ale obiectelor.
În ceea ce privește utilizarea, Google testează Veo 2 prin VideoFX, instrumentul experimental de generare video din platforma Google Labs, unde utilizatorii se pot înscrie pe o listă de așteptare pentru a-l testa. Compania plănuiește să integreze această tehnologie și în YouTube Shorts anul viitor. Modelul include și un watermark SynthID invizibil, care ajută la identificarea clipurilor ca fiind create de AI, reducând astfel pericolul dezinformării.
Imagen 3, imagini mai detaliate și stiluri diverse
Imagen 3, cel mai recent model de generare a imaginilor, aduce îmbunătățiri vizibile în compoziție, detalii și varietatea stilurilor artistice. Fie că este vorba de fotorealism, artă abstractă sau stiluri animate, Imagen 3 oferă rezultate mai precise și mai apropiate de cerințele utilizatorului.
Testele realizate comparativ cu alte modele de top au arătat că Imagen 3 generează imagini mai luminoase și mai bine definite, respectând fidel cererile utilizatorilor. Modelul este disponibil acum în ImageFX, o platformă accesibilă în peste 100 de țări, unde oricine poate experimenta această tehnologie.
Pe lângă Veo 2 și Imagen 3, Google a anunțat și Whisk, un experiment care combină modelele existente cu capacități de înțelegere vizuală. Utilizatorii pot încărca imagini pentru a crea și modifica conținut vizual, combinând stiluri și elemente într-un mod intuitiv.
Whisk folosește modelul Gemini pentru a genera descrieri automate ale imaginilor și a permite remixarea acestora într-o formă nouă.
Google susține că noile modele Veo 2 și Imagen 3 oferă rezultate superioare competiției în evaluările făcute de experți umani, inclusiv în comparație cu modelele OpenAI. Totuși, pentru că modelele Google nu sunt încă disponibile oficial în România, o comparație este deocamdată imposibilă.