Zaznacz stronę

Światowy numer 1 w dziedzinie autoryzacji twarzy oraz rozpoznawania tęczówki oka oraz laureat 8-go miejsca na świecie, jeśli chodzi o akceptację, na najlepszych możliwych konferencjach dotyczących uczenia maszynowego. We wszystkich laboratoriach NEC przeprowadza badania na temat sztucznej inteligencji, a liczba osób zainteresowanych tym tematem oraz naukowców zajmujących się sztuczną inteligencją wciąż wzrasta. NEC ma zatem wyjątkowy potencjał w zakresie badań i rozwoju AI. Aby wzmocnić technologiczną konkurencyjność AI oraz utrzymać i wzmocnić konkurencyjność biznesową w dziedzinie sztucznej itneligencji NEC wykorzystuje systemy Supermicro GPU i Ultra.

Problemy głębokiego uczenia dla rozwoju AI

AI i jej rozwój wiąże się z podejmowaniem prób i popełnianiem błędów – setki, a może i tysiące razy. Zdarzają się jednak przypadki, w których uczenie pochłania do kilku tysięcy godzin (lub jeszcze więcej czasu) na jeden przebieg treningu. Dzieje się tak ze względu na wzrost wymaganej ilości obliczeń głębokiego uczenia. Dla przykładu GPT-3, będący ogromnym modelem językowym potrzebował do 355 lat na naukę przy użyciu pojedynczych układów GPU NVIDIA Tesla V100. Czas jaki był potrzebny do przeprowadzenia tego typu szkolenia oznaczał, iż wyniki te nie nadawały się do wykorzystania w wielu branżach, ponieważ szkolenie zazwyczaj musi być przeprowadzone w ciągu kilku lub kilkudziesięciu godzin, a nie lat.

Przytoczony realny przykład zastosowania ukazuje, że superkomputer AI jest niezbędny dla wielu modeli szkoleniowych. Wymaga to jednak wewnętrznej wiedzy lub zaufanego dostawcy do zaprojektowania i wdrożenia tak dużego klastra.

Propozycja Supermicro

Najbardziej wytrzymałe serwery wysokiej wydajności oparte na procesorach graficznych NVIDIA Ampere buduje Supermicro. Serwery te zostały wykorzystane przez wiodące przedsiębiorstwa, które wykorzystują wielkoskalowe modele wizji komputerowej i przetwarzania języka naturalnego. Supermicro wspiera potrzeby klientów dzięki wysoce zoptymalizowanym systemom dla nowych platform HGX™ A100 8-GPU i HGX™ A100 4-GPU.

Najnowsza wersja technologii NVIDIA® NVLink™ i NVIDIA NVSwitch™u możliwia serwerom wykorzystywanie do 5 PetaFLOPS wydajności AI w pojedynczym systemie 4U.  Supermicro obsługuje również rodzinę procesorów graficznych Ampere firmy NVIDIA w szeregu systemów PCI-E, z maksymalnie 10 procesorami graficznymi w serwerze 4U.

Rozwiązanie NVIDIA A100 z obsługą TF32

NEC wykorzystuje procesory graficzne NVIDIA A100 Tensor Core, których przepustowość pamięci GPU w A100 wynosi 2TB/s, ale w głębokim uczeniu jest to w zasadzie ograniczenie przepustowości pamięci. Dzięki TF32 wykorzystanemu w A100 zakres zrównuje się z FP32, a precyzja może być traktowana jak FP16 – chociaż dokładność nie jest zagrożona, wąskie gardło przepustowości pamięci może zostać złagodzone. W NEC prowadzone są liczne badania na temat rozwoju sztucznej inteligencji i wykorzystaniu jej w obrazach, takich jak uwierzytelnianie biometryczne, rozpoznawanie obrazów i rozpoznawanie wideo. Są to funkcje, które są bardziej ograniczone pod względem pamięci dla procesorów graficznych, więc firma NEC przyjęła A100 z obsługą TF32.

Zwiększenie efektywności badań nad AI

Fakt, że HGX A100 jest wyposażony w procesor graficzny z rdzeniem Tensor NVIDIA A100 i wykorzystuje podczas komunikacji między procesorami graficznymi trzecią generację NVIDIA NVSwitch™ z prędkością 600 GB/s zmotywował NEC do wyboru i wykorzystania tego sprzętu. Komunikacja GPU-to-GPU umożliwia w pełni wykorzystanie wydajności obliczeniowej GPU przy rozproszonym przetwarzaniu danych, dzięki czemu wydajność badań nad sztuczną inteligencją będzie ciągle wzrastać.

Serwer GPU Supermicro i technologie NVIDIA dla NEC

Innym powodem, który zmotywował NEC do wyboru produktów NVIDIA dla przełączników sieciowych i kart NIC jest rozwiązanie ConnextX-6, które obsługuje komunikację end-to-end RoCEv2 (od serwera do przełącznika), a rzeczywista wydajność może być bliska granicy 200 GbE. W celu wymiany parametrów konieczne jest przetworzenie każdej iteracji AllReduce w rozproszonym przetwarzaniu uczenia głębokiego. Przy zaznaczeniu, że znaczna część komunikacji występuje w obrębie klastrów. Skutkiem realizacji NVIDIA GPUDirect® RDMA przy użyciu RoCE v2 jest pominięcie w procesie procesora oraz zmniejszenie opóźnień. Firma NEC przyjęła rozwiązania GPU Supermicro i technologie NVIDIA, aby łatwo połączyć wszystkie przełączniki i serwery end-to-end.

Przeprowadzenie wielu testów NEC ustalił, że dzięki nowemu super-komputerowi AI wydajność uczenia głębokiego będzie do 4600 razy większa. Rezultatem będzie to, iż naukowcy NEC będą mogli osiągnąć znacznie więcej badań w wielu domenach AI dzięki nowemu super-komputerowi AI od firmy Supermicro.