AMD: s Instinct GPU-serie blir populär inom dator- och AI-communityt. Här är varför.

Det råder ingen tvekan om att NVIDIA fortsätter att dominera det parallella datorutrymmet med sina olika populära GPU-serier. Men med AMD: s Instinct AI-acceleratorer som utrustar två av de nyaste och största superdatorerna (Frontier och El Capitan) och samhällets växande stöd för deras ROCm-plattform med öppen källkod, kan NVIDIA ha hittat sin största rival hittills.

Så vad exakt är AMD: s Instinct AI-acceleratorer? Vad gör dem kraftfulla och hur jämför de med NVIDIAs Tensor GPU: er?

Vad är en AMD Instinct-processor?

AMD: s Instinct-processorer är maskinvara av företagsklass som används för högpresterande beräkningar (HPC) och AI-accelererad bearbetning. Till skillnad från vanliga GPU: er av konsumentklass, är Instinct GPU: erna specialiserade för att bättre hantera AI-inlärning och andra högpresterande uppgifter genom mjukvaru- och hårdvaruinnovationer.

AMD: s Instinct-serie av GPU: er användes för att driva den första superdatorn som bröt Exascale-barriären och presterade med 1,1 EFLOPs med dubbel precision per sekund. Superdatorer som använder Instinct GPU: er används för närvarande för att undersöka cancerbehandlingar, hållbar energi och klimatförändringar.

instagram viewer

Hur instinktprocessorer accelererar AI och HPC

För världens mest kraftfulla vanliga servrar och superdatorer för att uppnå bearbetning på Exascale-nivå var AMDs Instinct-acceleratorer tvungna att utrustas med flera tekniska uppgraderingar och innovationer.

Låt oss diskutera några av den nya och uppdaterade tekniken som används på AMD Instinct GPU: er.

1. Beräkna DNA (CDNA)

Bildkredit: Pascal Liebart/AMDLibrary

De senaste AMD Instinct-acceleratorerna (med början från MI100) har använt företagets CDNA-arkitektur.

CDNA fokuserar främst på funktioner som parallell bearbetning, minneshierarki och optimerade datorprestanda genom deras Matrix Core-teknologi. Även HPC och AI eller maskininlärning som körs på enstaka servrar kan stödjas av CDNA, såväl som enorma Exascale-datorer.

AMD: s Matrix Core-teknik accelererar AI-inlärning genom att stödja operationer med blandad precision. Möjligheten att beräkna med olika precision tillåter Instinct GPU: er att effektivt beräkna matrisoperationer baserat på den precisionsnivå som behövs.

De mest populära beräkningsprecisionsformaten inkluderar FP64, FP32, FP16, BF16 och INT8. FP står för Floating Point, BF för Brain Floating Point och INT för Integer. Ju högre nummer som motsvarar formatet, desto mer exakt blir beräkningen. Att arbeta med 64-bitars är känt som dubbelprecision. Med 32-bitars är det enkelprecision, 16-bitars är halvprecision och så vidare.

Eftersom en stor del av träningsmodeller för djupinlärning inte kräver mycket precision, har förmågan att beräkna matris operationer med halvprecision eller till och med kvartsprecision för slutledning minskar arbetsbelastningen avsevärt, vilket accelererar AI inlärning.

2. High Bandwidth Memory (HBM)

Bildkredit: Jason De Vos/AMDLibrary

Varje AMD Instinct AI-accelerator kommer med upp till 880 matriskärnor. Med AMD: s Matrix Core-processorer som kan göra 383 TFLOPs med halvprecisionsberäkningar, är det nödvändigt att ha ultrasnabbt minne. AMD: s senaste Instinct-erbjudanden är utrustade med High Bandwidth Memory (HBM) istället för det vanliga DDR4 eller DDR5 RAM-minnet.

Till skillnad från konventionellt minne använder HBM vad som kallas en 3D-stackad arkitektur. Denna typ av arkitektur hänvisar till en designstrategi där DRAM-matrisar staplas vertikalt ovanpå varandra. Detta gör att matriser kan staplas på både den vertikala och horisontella axeln, därav termen 3D-stapling.

Med denna 3D-staplingsteknik kan HBM: er ha fysisk minneskapacitet så stor som några hundra gigabyte per modul, medan DRR5 bara kan göra upp till tiotals gigabyte per modul. Förutom kapacitet är HBM också kända för att ha högre prestanda när det gäller överföringshastighet och bättre energieffektivitet än vanligt DDR-minne.

3. Infinity tyg

En annan innovation som ingår i Instinct GPU: er är AMD: s Infinity Fabric-teknologi. Infinity Fabric är en typ av sammankopplingssystem som länkar ihop CPU: er och GPU: er på ett smart dynamiskt sätt. Detta gör att komponenterna effektivt kan kommunicera med varandra.

Med Infinity Fabric, istället för att koppla ihop komponenter med en vanlig buss, kopplas nu komponenter i ett meshliknande nätverk där bandbredderna kan vara upp till flera hundra gigabyte per sekund.

Förutom den nätliknande sammankopplingen, använder Infinity Fabric också sensorer inbäddade i varje form för att dynamiskt kontrollera frekvens, dataöverföringshastigheter och andra adaptiva beteenden, optimera prestanda och minimera latens.

4. ROCm utvecklingsplattform

NVIDIAs CUDA (compute unified device architecture) är den mest använda utvecklingsplattformen för att träna AI-modeller. Problemet med CUDA är att det bara fungerar med NVIDIA GPU: er. Detta är en av de viktigaste anledningarna till att NVIDIA har den överväldigande majoriteten av marknadsandelar för HPC och AI GPU-acceleratorer.

Eftersom AMD ville få en större del av HPC- och AI-marknaden, var de tvungna att utveckla sin egen plattform, ROCm (Radeon Open Compute). ROCm är en mjukvaruplattform med öppen källkod som gör att Instinct GPU: er kan användas som AI-acceleratorer.

Även om det inte nödvändigtvis är en del av Instinct-hårdvaran, är ROCm grundläggande när det kommer till överlevnaden av Instinct-linjen av GPU: er. Med ROCm, utvecklare och forskare får ROCm-verktygen, kompilatorn, kärndrivrutiner, en mängd bibliotek och tillgång till ramverk som TensorFlow och PyTorch för att utvecklas med deras föredraget AI programmeringsspråk.

Hur jämför Instinct AI-acceleratorer med Radeon GPU AI-acceleratorer?

AMD erbjuder sin Instinct-serie av GPU: er för företag och Radeon GPU: er för vanliga konsumenter. Som diskuterats tidigare använder Instinct GPU AMD: s CDNA-arkitektur, HBM och Infinity Fabric interconnect. Omvänt använder Radeon AMD: s RDNA-arkitektur, DDR6-minne och Infinity Cache.

Även om de är mindre kapabla, har Radeon-serien av AI-acceleratorer fortfarande en kraft genom att implementera en eller två AI-acceleratorkärnor per beräkningsenhet. Det senaste Radeon RX7900 XT GPU har två AI-acceleratorkärnor per beräkningsenhet, vilket möjliggör 103 TFLOP: s topp-halvprecision och 52 TFLOP: s topp-enkelprecisionsberäkningar.

Medan Instinct-serien av GPU: er är bättre lämpade för LLM: er och HPC, kan Radeon AI-acceleratorer användas för att finjustera förtränade modeller, slutsatser och grafikintensiva uppgifter.

AMD Instinct vs. NVIDIA Tensor

Enligt a TrendForce-undersökning, NVIDA har 80 % marknadsandel för server-GPU: er, medan AMD bara har 20 %. Denna överväldigande framgång från NVIDIA beror på att de är ett företag som specialiserar sig på GPU-design och montering. Detta gör att de kan designa betydligt bättre presterande GPU: er som saknar motstycke från andra erbjudanden.

Låt oss jämföra AMD: s Instinct MI205X och NVIDIAs H100SXM5 med specifikationer från AMD: s officiella hemsida och NVIDIAs eget datablad:

GPU modell

FP64 (TFLOP)

FP32 (TFLOP)

FP16 (TFLOP)

INT8 (TFLOP)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Som du kan se i tabellen presterar AMD: s MI250X bättre vad gäller dubbel precision och halvprecision beräkningar, medan NVIDIAs H100SXMS är mycket bättre när det gäller halvprecision och kvartsprecisionsmatris beräkningar. Detta gör AMDs MI250X bättre lämpad för HPC medan NVIDIAs H100SXMS med AI-inlärning och slutledning.

Framtiden för AMD: s instinktprocessorer

Även om AMD: s senaste erbjudande, MI250X, är designat för HPC, är deras kommande MI300 mer AI-träningsorienterad. Denna AI-accelerator tillkännages vara en APU, som kombinerar GPU och CPU i ett paket. Detta gör att MI300 kan använda sin CNDA3 Unified Memory APU-arkitektur, där GPU och CPU bara kommer att använda ett minne, vilket ökar effektiviteten och sänker priset.

Även om AMD inte kommer att konkurrera med NVIDIA på AI-acceleratormarknaden idag, när MI300 väl släpps och ROCm blir polerad, kan AMD: s Instinct-serie vara tillräckligt bra för att ta en betydande del av AI-acceleratormarknaden från NVIDIA.