Dacă vă mai aduceți aminte, am mai testat ChatRTX acum câteva luni, si astăzi o facem din nou pentru că între timp a mai primit încă vreo câteva iterații, si eram extrem de curioși să vedem dacă au fost remediate probleme inerente oricărei prime versiuni.
Iar pentru acest experiment, ne-am apucat sa facem un sistem dedicat, cu Intel Core Ultra 9 285K, daca tot l-am testat chiar săptămâna trecută, 32GB RAM, si perla coroanei, un RTX 4090 Founders Edition cu 24GB VRAM, pe principiul ca mai bine sa rămână decât să n-ajungă.
Și înarmat cu configurația asta, am descărcat de pe site-ul lor ChatRTX, ajuns la versiunea 0.4, am pus pe un SSD o puzderie de documente de-ale mele si de poze, si… haideți sa vedem ce-a ieșit!
Primul pas este sa descarci Chat RTX pe site-ul dedicat, pachet care are undeva la vreo 11 giga. Cerințele de sistem zic ei, sunt Windows 11, vreo 100 de giga liberi pe SSD-ul pe care instalezi, 16GB RAM si o placa grafica din generațiile 3000 sau 4000 cu minim 8GB VRAM si evident, un driver actualizat, așadar check, check si check.
După ce ai descărcat, dezarimezi frumușel fișierul si te apuci de instalat. Instalarea se face simplu, ca la orice alta aplicație, dar durează ceva, ca la vreo 20-30 de minute pana își pune in place toate modulele. Oricum, găsești toate aceste detalii pe site-ul dedicat, cu user guide, versiune pentru dezvoltatori, cerințe de sistem, etc. Instalarea s-a derulat fără probleme de data asta, după ce in trecut îmi aduc aminte ca am avut tot felul de glitch-uri pana am făcut-o sa meargă cum trebuie.
Si prima chestie pe care am remarcat-o imediat ce s-a deschis interfața, a fost ca acum ai si interacțiune prin voce, ceea ce mi s-a părut wow. Am înhățat o pereche de caști cu microfon de prin birou, am conectat-o, si in loc sa scriu prompt-urile, m-am apucat sa le dictez. Si trebuie sa recunosc ca si mai plăcut surprins am fost când am văzut ca funcționează perfect.
A tradus in format text impecabil ceea ce i-am dictat pe gura, chiar daca am avut ezitări, bâlbe si întreruperi in timp ce dictam promptul. Adică a părut sa înțeleagă ce vreau de la sufletul lui. Dar anticipez. Înainte de asta, hai sa vedem ce aduce in plus noua versiune a chatbot-ului personalizat al celor de la NVIDIA.
Default, el vine cu modelul Mistral, dar ai posibilitatea de a-ti selecta tu însuti LLM-ul pe care dorești sa-l folosești. Celelalte opțiuni sunt LLama 2 al celor de la META, Gemma dezvoltat de Google, sau un anume ChatGLM, care am văzut ca suporta si chineza, o chestie cu care NVIDIA se lauda si este trecuta printre noutățile pe care le aduce aceasta versiune de ChatRTX.
Dar cel mai interesant pare sa fie Clip, al celor de la OpenAI, aceeași companie care dezvolta si ChatGPT sau DallE, si care este responsabil cu partea de imagine, pentru ca așa cum spuneam si mai înainte, asta este o alta noutate pe care o aduce ChatRTX. Problema cu acesta din urma este ca merge din doi in doi, si la o investigație sumara pe GitHub, am descoperit ca nu suntem singurii care întâmpinam probleme cu ea.
Deci, in teorie si pe hârtie, ChatRTX suporta si imagine, in realitate mai lițe. Ieri am reușit totuși sa-l fac sa funcționeze, i-am dat ca baza de date vreo mie de imagini din pozele mele proprii, dar rezultatele căutărilor au fost niște ciudățenii, fără prea mare legătura cu baza mea de date. Practic a generat niște imagini bazate vag pe sursele pe care i le-am dat. Oricum, admit ca intenția este generoasa, si ca ar fi interesant ca acest sistem AI personalizabil sa beneficieze si de astfel de funcții „vizuale”. Probabil un viitor update va remedia aceste glitch-uri, așa cum fiecare versiune noua de ChatRTX a adus îmbunătățiri fata de precedenta.
Așa cum ziceam, ChatRTX vine cu Mistral by default, iar celelalte modele, daca dorești sa le folosești, gen Llama, sau Gemma, se descarcă separat si au fiecare cate 4,5,6 giga. Modelele pe care le-am folosit cel mai intens au fost Mistral si Llama, ambele se mișca extrem de rapid, si cu rezultate bune, si n-am sesizat diferențe de acuratețe intre ele. Dar ce anume am făcut mai exact? Am adunat într-un folder vreo mie de articole text de pe zonait.ro, si am setat respectivul folder ca baza de date pentru LLM-ul din ChatRTX, fie el Mistral sau Llama.
După care, cu ajutorul vocii, i-am dat diverse prompt-uri, cerându-i sa-mi caute in respectivele articole diverse informații sau sa compileze tot felul de rezumate.
Si trebuie sa recunosc ca ChatRTX s-a mișcat mai mult decât decent. Am pus întrebări despre tot felul de telefoane sau laptop-uri pe care le-am testat de-a lungul timpului, despre procesoare, despre mașini, si rezultatele au fost satisfăcătoare. In cele mai multe cazuri, LLM-ul a fost in stare sa identifice sursa si sa o „citeze”, afișând-o la finalul rezultatului, apoi sa compileze rezumate decente la întrebări mai generale, care presupuneau obținerea informației din mai multe surse din baza de date.
Prin urmare, ChatRTX pare a fi mai degrabă un soi de motor de căutare glorificat, personalizabil pe propriile tale documente. Acuma, daca-ti trebuie așa ceva, se poate dovedi util, dar tine cont ca mai da si fuck up-uri, câteodată are tendința de a afișa selectiv doar anumite informații din anumite documente, parând sa ignore cu încăpățânare alte surse cel puțin la fel de relevante pentru promptul respectiv.
O alta chestie de care trebuie sa țineți cont este ca ChatRTX nu e contextual, asta înseamnă ca după ce i-ai dat un prompt si ti-a livrat un răspuns, nu poți continua firul discuției, pentru ca nu înțelege contextul. Asta este un downside important pentru cei care au in plan sa se bazeze in munca de zi cu zi pe acest chatbot. Exista însă și alte soluții care sa pună in valoare potenta in materie de inteligenta artificiala a plăcii tale video, așa ca permiteți-mi o scurta paranteza, si revin imediat la ChatRTX. Soluția se numește OpenWeb UI, si este tot un sistem personalizabil, in care poți selecta LLM-ul pe care vrei sa-l folosești, si care de asemenea se folosește de capabilitățile plăcii video pe care o deții deja in PC-ul tău.
Interfața este destul de prietenoasa si de intuitiva, si am văzut ca modelele folosite sunt mai actuale decât cele din ChatRTX. Poți utiliza GPT 4 al celor de la OpenAI, sau Llama 3 al celor de la META. Singura chestie este ca OpenWeb UI presupune un pic mai mult skill, in sensul in care instalarea se face prin Python, iar mie mi-a dat niște erori, dar promit sa aprofundez subiectul si sa revin cat de curând cu un video dedicat.
Revenind acum la ChatRTX, proiectul celor de la NVIDIA are câteva beneficii indiscutabile. In primul rând este local. Daca informațiile tale sunt sensibile sau pur si simplu ești mai strict când vine vorba despre datele tale, atunci acest AI care se instalează si rulează pe propriul tău PC, poate fi o soluție buna. In al doilea rând, este personalizabil. Baza de date pe care i-o pui la dispoziție este a ta, prin urmare, nu exista probleme de copyright si li „antrenezi” pe informațiile tale, deci te poate ajuta in căutări si rezumate.
Asta ca sa nu mai zic ca se folosește de hardware-ul NVIDIA pe care li ai deja la dispoziție. Daca ai investit într-o placa buna pentru jocuri sau grafica, asta este o funcție noua care vine extra. In plus, deși va spun sincer ca mă așteptam sa fie doar un experiment, vad ca NVIDIA nu a abandonat acest proiect, si a fost îmbunătățit de la o versiune la alta. Nu e perfect, dar e perfectibil.
Versiunea actuală, față de prima pe care am încercat-o, aduce iată si imagine si voice to text, chiar daca partea vizuala cam scârțâie. Mai simplu spus ideea mi se pare foarte buna, dar implementarea încă lasă de dorit. Pe lângă faptul ca nu înțelege context, ceea ce mi se pare iarăși dezamăgitor, este ca fiecare versiune noua trebuie instalata de la 0. Cu alte cuvinte, daca faci in sfârșit totul sa funcționeze, dar apare o varianta noua intre timp, trebuie sa o iei de la capăt. Vorba colegului Rafi, o sa fie o aplicație foarte buna… la anul prin vremea asta.
De partea cealaltă însă, trebuie sa ținem cont că există deja soluții mainstream, mai ușor de implementat si de utilizat. Am început acest material vorbind despre Apple Intelligence, care pare sa fie cel mai aproape de un astfel de instrument local, care sa se muleze pe dispozitivul si informațiile tale. Prin comparație, ChatRTX pare greoi. Sigur, are avantajul localizării stricte si al faptului ca li configurezi tu însuti. Dar pentru majoritatea utilizatorilor mi se pare cam complicat. Consumatorul obișnuit nu-si bate capul sa descarce chestii, sa selecteze LLM-uri, sa alcătuiască baze coerente de date, prin urmare, nu-i vad pe multi făcând asta.
În schimb, pentru cei obsedați de tweaking and tuning si de privacy, este un experiment interesant pe care va invit sa-l încercați. La o căutare banala pe net, găsiți ChatRTX si-l puteți testa voi înșivă.