ȘtiriTech&IT

Apple dezvăluie ReALM, un model AI care ar putea face Siri mai rapid și mai inteligent

De la Small Language Model, la Visual Context Model

Într-o mișcare îndrăzneață, Apple a dezvăluit un nou model de limbaj numit ReALM (Reference Resolution As Language Modeling), conceput pentru a rula pe un telefon și pentru a face asistenții vocali precum Siri mai inteligenți, ajutându-i să înțeleagă contextul și referințele ambigue.

Ce este de fapt ReALM și cum îl va folosi Apple

Detaliile au fost publicate într-un nou studiu Apple, apărut vineri, 29 martie și citat în premieră de Venture Beat. Apple nu a comentat încă asupra cercetării și nu știm dacă acesta va face parte efectiv din iOS 18, dar orice e posibil.

Săptămâna trecută apăruse informația că Apple negociază extinderea parteneriatului Google Search pentru a include și AI-ul Gemini. La mijlocul lunii martie, altă informație despre inteligență artificială și Apple ținea prima pagină a publicațiilor tech: ”Apple a achiziționat un startup canadian, DarwinAI, care este specializat în tehnologii cu inteligență artificială vizuală pentru monitorizarea componentelor pe parcursul procesului de producție”. E clar că Apple e interesată de inteligența artificială, dar ce va decide să folosească în dispozitivele sale și când rămâne încă un domeniu al speculației.

ReALM este mic în comparație cu modelele precum GPT- 4 și acest lucru se datorează faptului că nu trebuie să facă totul. ReALM este conceput să servească ca un model intermediar sau de suport pentru alte modele AI, cum ar fi Siri. În loc să încerce să acopere toate aspectele complexe ale limbajului natural și ale contextului, ReALM se concentrează pe o funcționalitate mai specifică: oferirea de context altor modele AI.

Capturi din ReALM, modelul AI al Apple

Este un model vizual care analizează ecranul telefonului și identifică și localizează fiecare element vizual prezent pe acesta. Aceste elemente vizuale pot fi butoane, meniuri, texte sau alte componente care sunt afișate pe ecran. ReALM creează o reprezentare bazată pe text a aspectului vizual al ecranului, care poate fi apoi utilizată pentru a oferi context asistenților vocali sau altor modele AI. În ceea ce privește precizia, Apple afirmă că ReALM se descurcă la fel de bine ca și GPT-4 la mai multe capitole cheie, în ciuda faptului că este mai mic.

Impactul asupra Siri

Dacă o versiune a lui ReALM este implementată în Siri, atunci asistentul Apple va avea o înțelegere mai bună a ceea ce utilizatorul indică când îi spune să deschidă ”această aplicație” sau întreabă ”ce înseamnă acest cuvânt” dintr-o imagine / captură de ecran.

De asemenea, ar oferi lui Siri mai multe abilități de conversație fără a fi nevoie să implementeze complet un model de limbaj mare ca Gemini.

Inițial m-am gândit la modelul Apple ca la un Small Language Model, apoi mi-am dat seama că e un model vizual și că o încadrare mai potrivită pentru ReALM ar fi cea de ”Visual Context Model”. Nu mică mi-a fost surpriza când am descoperit că mai există alte astfel de modele și iată câteva: ViLBERT (Vision and Language BERT), CLIP (Contrastive Language–Image Pretraining), VisualBERT, UNITER (UNiversal Image-TExt Representation).

Ulterior am realizat că din această perspectivă, comparația cu GPT-4 este inutilă, și inteligența artificială de la OpenAI a fost luată ca referință doar pentru notorietatea ei.

Două întrebări pentru utilizatorii de iPhone

Ce părere ai despre ideea de a folosi ReALM pentru a îmbunătăți conversațiile cu Siri și pentru a face interacțiunea cu asistentul vocal mai clară și mai eficientă?

Crezi că există riscuri pentru confidențialitate asociate cu utilizarea ReALM în cadrul interacțiunilor cu Siri sau alți asistenți vocali AI?

 

 

 

Articole asemanatoare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.

Back to top button