Mistral, o companie franceză de inteligență artificială, a anunțat marți, 10 iunie, lansarea primului LLM (model mare de limbaj) european bazat pe raționament. Modelul, denumit Magistral, este disponibil în două versiuni: Small (open-source) și Medium (adresată mediului de afaceri).
Ce este un LLM bazat pe „raționament”?
Spre deosebire de modelele lingvistice clasice, care generează răspunsuri prin simple corelații statistice între cuvinte, modelele de tip „reasoning”, precum Magistral, folosesc o tehnică numită chain-of-thought (lanț de gândire). Adică parcurg un proces logic în pași, pentru a ajunge la o concluzie, imitând modul în care oamenii rezolvă problemele dificile.
Mistral susține că acest model este „excelent la matematică și programare”, potrivit CEO-ului Arthur Mensch, care a prezentat noul produs în cadrul London Tech Week.
Mistral, companie europeană, într-un peisaj dominat de SUA și China
Deși Mistral a fost înființată abia în 2023, compania a devenit rapid una dintre cele mai promițătoare inițiative europene în domeniul AI, fiind evaluată la 6,2 miliarde de dolari. Sprijinită de Microsoft, dar fidelă viziunii europene privind transparența și inovația deschisă, Mistral se diferențiază de jucători americani precum OpenAI și Google prin faptul că oferă versiuni open-source ale modelelor sale.
Această deschidere permite dezvoltatorilor să descarce, ajusteze și implementeze modelele fără a depinde de infrastructura unei companii private, o strategie similară cu cea adoptată de chinezii de la DeepSeek sau Alibaba.
Magistral, poliglot și disponibil acum
Una dintre particularitățile esențiale ale lui Magistral este capacitatea de a raționa în mai multe limbi europene. „Modelele din SUA sunt antrenate să gândească în engleză, iar cele din China în chineză”, a declarat Arthur Mensch pentru CNBC.
Versiunea Magistral Small este disponibilă deja pe platforma Hugging Face și poate fi folosită gratuit de către dezvoltatori, cercetători și de toți cei interesați.
Cum rulează Magistral Small pe un PC personal
Pentru articol, am descărcat versiunea open-source Magistral Small (12,4 GB) direct din LM Studio, una dintre cele mai populare interfețe pentru rularea LLM-urilor pe PC. Modelul s-a instalat rapid și a pornit imediat, fără nici o configurare.

Important de menționat: dacă folosiți un sistem cu placă grafică AMD, cum este cazul meu, Magistral va rula pe procesor (CPU). Deocamdată, LM Studio și majoritatea instrumentelor AI nu oferă suport pentru accelerare GPU pe AMD în Windows. Performanțele sunt totuși decente, mai ales dacă aveți un procesor puternic, dar utilizatorii cu plăci NVIDIA sunt avantajați datorită compatibilității native cu CUDA.
Am testat modelul cu câteva întrebări simple în română, iar la final i-am cerut să rezolve o problemă de matematică și logică. Răspunsurile au fost corecte, problema a fost explicată pas cu pas, iar modelul a demonstrat clar că poate susține un lanț de gândire coerent, chiar și atunci când rulează exclusiv pe CPU, fără sprijinul unui GPU. Singura „nemulțumire” ar fi că răspunsul a alternat între română și engleză, semn că modelul a fost antrenat mai mult în engleză și acolo se simte cel mai „sigur” când formulează explicații. Puțin ciudat pentru un model creat de francezi, dar asta e.

Încercați și voi modelul și spuneți-ne cum vi se pare.
UPDATE: În weekend, am testat și rularea modelului Magistral Small prin Ollama, o alternativă la LM Studio care permite folosirea modelelor LLM direct din PowerShell. Spre deosebire de LM Studio, Ollama suportă accelerare GPU pe plăci AMD chiar și în Windows. În cazul meu, cu o placă Radeon, modelul Magistral a fost rulat cu succes pe GPU, fără erori sau configurări complicate.

Am descărcat versiunea GGUF a modelului direct din Hugging Face și am rulat-o cu „ollama run”, după ce am activat opțiunea „use_gpu” în fișierul de configurare. Răspunsurile au fost generate aproape instantaneu, iar activitatea pe GPU a fost confirmată atât vizual, în Task Manager, cât și prin viteza de generare, peste 90 de tokens pe secundă.

În timpul rulării modelului Magistral Small cu Ollama, Task Manager a indicat o utilizare completă a plăcii video: 100% GPU usage și 19,3 GB ocupați din cei 20 disponibili în VRAM. În plus, sistemul a alocat și 0,7 GB din memoria RAM ca „shared GPU memory”, ceea ce sugerează că, deși inferența este accelerată pe GPU, modelul are nevoie de resurse extinse pentru context și caching. În total, rularea locală a unui LLM ca Magistral necesită nu doar o placă puternică, ci și minimum 32 GB RAM pentru stabilitate și performanță.
Așadar, dacă aveți o placă AMD compatibilă și vreți să rulați local modele AI precum Magistral, Ollama este în acest moment cea mai simplă soluție care folosește eficient GPU-ul în Windows.
Îi mulțumim lui Paul Stoica, care ne-a dat pontul legat de Ollama.

