Nvidia GPU: er har kommit långt, inte bara när det gäller spelprestanda utan även i andra applikationer, särskilt artificiell intelligens och maskininlärning. De två huvudfaktorerna som är ansvariga för Nvidias GPU-prestanda är CUDA- och Tensor-kärnorna som finns på nästan varje modern Nvidia GPU du kan köpa.

Men vad exakt gör dessa kärnor, och om de båda används i tillämpningar för artificiell intelligens och maskininlärning, hur är de annorlunda?

Vad är CUDA-kärnor och vad används de till?

CUDA står för Compute Unified Device Architecture, vilket inte gör mycket för att förklara deras närvaro i en GPU. Dessa kärnor introducerades i Nvidia GPU-serien i 2014 års Maxwell-arkitektur och är specialiserade på parallell bearbetning.

De är ganska lika CPU-kärnor när det gäller deras funktion men är bättre på att hantera vissa uppgifter, inklusive kryptografiska hash, fysikmotorer, datavetenskapsrelaterade projekt och till och med spel utveckling.

Bildkredit: Nvidia

Medan vi redan har täckt hur CUDA-kärnor påverkar din dators spelprestanda

instagram viewer
, de är lika hjälpsamma när det gäller att knäcka siffror. Även om även de mest kraftfulla CPU: erna har tvåsiffriga kärnor, kommer Nvidia GPU: er med flera tusen CUDA-kärnor, vilket gör dem mycket snabbare vid numeriska arbetsbelastningar. Dessutom, eftersom de gör dessa beräkningar parallellt, får du mycket snabbare hastigheter med CUDA-kärnor.

CUDA-kärnor är snabbare än vanliga CPU-kärnor när det kommer till knappa siffror, men de är fortfarande inte den idealiska lösningen. Det beror på att de aldrig var avsedda att användas på det sättet. CUDA-kärnor var specialbyggda för grafisk bearbetning och för att göra Nvidia GPU: er mer kapabla i spelprestanda.

Vad är tensorkärnor och vad används de till?

När GPU: er började användas för artificiell intelligens och arbetsbelastningar för maskininlärning, introducerade Nvidia Tensor-kärnor i Volta-arkitekturen för sina datacenter GPU: er från och med 2017.

Det tog dock innan Nvidia Turing-arkitekturen (RTX 20-seriens GPU: er) för dessa kärnor att komma till konsument-GPU: er. Kom ihåg att även om korten i GTX 16-serien också är baserade på Turing-arkitekturen, innehåller de inte någon strålspårning eller Tensor kärnor.

Medan CUDA-kärnor i bästa fall var tillräckliga för beräkningsarbeten, ökade Tensor-kärnorna ante genom att vara betydligt snabbare. Medan CUDA-kärnor bara kan utföra en operation per klockcykel, kan Tensor-kärnor hantera flera operationer, vilket ger dem en otrolig prestandaökning. I grund och botten är allt Tensor-kärnor gör att öka hastigheten för matrismultiplikation.

Denna ökning av beräkningshastighet kommer på bekostnad av noggrannhet, med CUDA-kärnor som är betydligt mer exakta. Som sagt, när det kommer till träning av maskininlärningsmodeller är Tensor-kärnor mycket mer effektiva när det gäller beräkningshastighet och total kostnad; därför försummas ofta förlusten i noggrannhet.

Hur påverkar Tensor- och CUDA-kärnor GPU-prestanda?

Som du förmodligen kan gissa vid det här laget, medan CUDA- och Tensor-kärnor kan hantera samma arbetsbelastningar, är de båda specialiserade kärnor för grafikrendering respektive numerisk arbetsbelastning.

Det betyder att beroende på vilken användare en viss GPU riktar sig till, kommer den att ha ett annat antal kärnor. Om vi ​​till exempel betraktar RTX 4090, Nvidias senaste och bästa konsumentinriktade spel-GPU, får du mycket fler CUDA-kärnor än Tensor-kärnor. 16 384 CUDA-kärnor till 512 Tensor-kärnor, närmare bestämt.

Som jämförelse har Nvidia L40 GPU för datacenter, baserad på samma Ada Lovelace-arkitektur som RTX 4090, 18 176 CUDA-kärnor och 568 Tensor-kärnor. Detta kanske inte verkar vara så stor skillnad, men det kan kraftigt påverka prestandan hos dessa GPU: er.

När det gäller teoretisk prestanda har L40 90,52 TFlops av FP16- och FP32-prestanda samt 1 414 GFlops av FP64-prestanda. Detta är en enorm prestandaökning jämfört med RTX 4090:s 82,58 TFlops av FP16- och FP32-prestanda och 1 290 GFlops av FP64-prestanda.

Om du inte är väl bevandrad med numeriska GPU-prestandasiffror, kanske Nvidia GPU: s flyttalsprestandasiffror ovan inte betyder mycket för dig. Men i korthet visar de att L40 är mycket snabbare än RTX 4090 när det kommer till numeriska beräkningar – de som behövs för artificiell intelligens och maskininlärningsbaserade arbetsbelastningar.

Prestandaförbättringen blir desto mer imponerande när man tänker på strömförbrukningen för de två GPU: erna. RTX 4090 har en klassad TGP (inte att förväxla med TDP, det finns en liten skillnad) på 450W, medan L40 är klassad för endast 300W.

Båda dessa GPU: er kommer att köra spel och träna din maskininlärningsmodell alldeles utmärkt. RTX 4090 kommer dock att bli bättre på att köra spel, och L40 kommer att bli bättre på att träna maskininlärningsmodeller.

CUDA Cores vs. Tensorkärnor: Vilket är viktigare?

Båda kärnorna är lika viktiga, oavsett om du köper din GPU för spel eller lägger den i ett datacenterrack. Nvidias konsumentinriktade spel-GPU: er använder ett gäng AI-funktioner (främst DLSS), och att ha Tensor-kärnor ombord kan vara praktiskt.

När det gäller datacenter-GPU: er, så fungerar CUDA- och Tensor-kärnor samtidigt för det mesta, så du får båda oavsett vilken GPU du väljer. Istället för att fokusera på en specifik typ av kärna i din GPU bör du fokusera mer på vad grafikkortet gör som helhet och vilken typ av användare det är avsett för.

CUDA-kärnor är specialiserade på att hantera grafiska arbetsbelastningar, medan Tensor-kärnor är bättre på numeriska. De samarbetar och är till viss del utbytbara, men de hanterar sina egna inriktningar, varför de finns i första hand.

Olika GPU: er är specialiserade på olika aspekter. RTX 4090 kommer lätt att krossa alla spel du kastar på den, medan RTX 4060 bara kan hantera 1080p-spel. Om du inte spelar med din GPU och bara behöver den för att knäcka siffror eller träna neurala nätverk, är en A-Series datacenter GPU som A100 eller till och med L40 din bästa insats.

Dina GPU-kärnor är viktiga

Fler GPU-kärnor ger dig bättre övergripande prestanda eftersom din GPU blir mer mångsidig och har dedikerade resurser för att hantera olika uppgifter. Att blint få en GPU med det högsta antalet kärnor är dock inte det bästa beslutet. Ta en stund att noggrant överväga ditt användningsfall, ta en titt på grafikprocessorns kapacitet som helhet och gör sedan ditt val.