Blackwell B200 oferă fundațiile următorului GPU de gaming de la Nvidia. Dar între timp, succesorul cipului H100 aduce salturi de performanță atât de mari la procesare AI încât putem decât să ne întrebăm cât de departe va evolua inteligența artificială în următoarele luni și ani.
Cipul H100 AI a propulsat Nvidia în topul companiilor de trilioane de dolari. Mai mare decât Apple. Mai mare decât întreaga economie a unor țări. Iar Blackwell B200 să cimenteze dominația Nvidia pe segmentul soluțiilor de procesare AI, noul cip aducând salturi de performanță și eficiență atât de mari încât va fi foarte greu pentru AMD sau alt competitor să vină cu o alternativă credibilă. Dar evoluțiile la partea de hardware reprezintă doar o parte din ecuație, Nvidia investind masiv și în dezvoltarea părții de software, platformele create fiind puse la dispoziția clienților dornici să-și pună cât mai repede în aplicare ideile și proiectele bazate pe AI.
Iar Blackwell B200 este doar „felul principal”, Nvidia prezentând și un „supercip ” GB200, cu 208 miliarde de tranzistori. Cu până la 20 de petaflopi de putere de procesare FP4, cip-ul este gândit să funcționeze în pereche. Nvidia susține că un sistem de calcul echipat cu două cipuri GB200 plus un procesor Grace Hopper poate oferi de 30 de ori mai multă performanță pentru sarcinile de lucru de inferență LLM, totodată fiind substanțial mai eficient în privința consumului de energie. Roluția ”reduce costurile și consumul de energie de până la 25 de ori” față de un H100, spune Nvidia.
Dacă anterior, antrenarea unui model cu 1,8 trilioane de parametri ar fi necesitat o configurație cu 8000 de unități GPU bazate pe arhitectura Hopper și 15 megawați putere consumată, acum poți face asta cu 2000 de GPU-uri Blackwell, la un consum de doar 4 megawați.
Pe un benchmark GPT-3 LLM cu 175 de miliarde de parametri, Nvidia spune că GB200 are o performanță de șapte ori mai mare decât un H100, iar respectiv de 4 ori viteza de inferență LLM. CEO-ul Nvidia precizează că una dintre îmbunătățirile cheie este un motor de procesare a transformărilor de a doua generație, care dublează puterea de calcul, lățimea de bandă și dimensiunea modelului, folosind patru biți pentru fiecare neuron în loc de opt (astfel, cei 20 de petaflopi ai FP4 pe care i-am menționat mai devreme). O a doua diferență cheie apare la folosirea unui număr mare de GPU-uri conectate: un switch NVLink de nouă generație care permite 576 de GPU-uri să comunice între ele, dispunând de 1,8TB pe secundă de lățime de bandă bidirecțională. Pentru a cest scop Nvidia a creat un cip dedicat, cu cu 50 de miliarde de tranzistori și propriul computer SoC. Anterior, un cluster de doar 16 GPU-uri și-ar petrece 60% din timp comunicând între ele și doar 40% calculând efectiv.
Nvidia se bazează pe companii pentru a cumpăra cantități mari din aceste GPU-uri, super-cipul GB200 venind în configurații precum GB200 NVL72, care conectează 36 de procesoare și 72 de GPU-uri într-un singur rack răcit cu lichid pentru un total de 720 de petaflopi de performanță AI sau 1.440 de petaflopi (alias 1,4 exaflopi ) de inferență LLM.
Compania spune că Amazon, Google, Microsoft și Oracle și-au exprimat deja intenția de a include soluția NVL72 în infrastructura lor de servicii cloud, însă volumul comandat rămâne confidențial.
Mai există și DGX Superpod pentru DGX GB200, care combină opt sisteme într-unul pentru un total de 288 de procesoare, 576 de GPU-uri, 240 TB de memorie și 11,5 exaflopi de calcul FP4.
Deși prezentarea ținută de CEO-ul Jensen Huang nu a inclus nimic despre subiectul gaming, putem fi siguri că tehnologiile prezentate acum își vor face loc și în unități GPU pentru consumatori,



