Japaho schreef op 31 oktober 2024 09:54:
Nvidia presenteert Blackwell-AI-gpu met 208 miljard transistors
Op Nvidia’s GPU Technology Conference heeft de fabrikant zijn Blackwell-gpu aangekondigd. Ceo Jensen Huang presenteerde tijdens zijn keynote de op AI-gerichte B200-chip en de gecombineerde GB200 ‘superchip’. Productie en levering van deze chip moet later dit jaar op gang gaan komen.
De B200-chip telt 208 miljard transistors en bestaat uit twee gpu-chiplets (B100) die verbonden zijn met wat Nvidia zijn High Bandwidth Interface (NV-HBI) noemt. De voorgangers GA100 en GH100 waren nog opgebouwd uit een enkele, grote processordie. Bij Blackwell kiest Nvidia nu dus voor een multichipmodule, maar de B100-gpu’s zijn met een oppervlakte van naar schatting meer dan 800mm² ongeveer even groot als wat het bedrijf voorheen in dit segment uitbracht. Er wordt dus flink meer chipoppervlakte gebruikt om de rekenkracht te vergroten. Nvidia zal voor Blackwell gebruik blijven maken van TSMC’s 5nm-proces, zij het op een sterk verfijnde versie van deze node, genaamd N4P.
De twee gpu-chiplets op B200 zijn elk voorzien van vier geheugencontrollers, met op elk 24GB HBM3e-geheugen dat met een 1024bit-geheugenbus is verbonden. Elke gpu-chiplet beschikt daarmee over een 4096bit-geheugenbus met daar in totaal 96GB werkgeheugen aan gekoppeld. Op B200 komt het totaal dan uit op 8192bit en 192GB, wat onder de streep een geheugenbandbreedte van 8TB/s betekent. Dankzij NV-HBI functioneren de twee chiplets als één gpu, en kan software ze ook als zodanig benaderen. Het is momenteel nog onduidelijk welke technologie Nvidia heeft gekozen voor het packagingproces, net als het aantal rekenkernen dat op de chip beschikbaar is.
Nvidia Blackwell
De Blackwell-architectuur voegt hardwarematige ondersteuning voor een lagere precisie van zwevendekommagetallen toe, namelijk FP4 en FP6. De FP4-ondersteuning kan voor kunstmatige intelligentie nuttig zijn wanneer een hogere snelheid sterk verkozen wordt boven precisie. Met FP6 wordt ook nog een middenweg mogelijk wanneer FP4 niet nauwkeurig genoeg is, maar wanneer FP8 dan weer niet nodig is. Omdat de Ampere- en Hopper-chips voor deze lagere precisie geen hardwarematige ondersteuning bieden, valt er geen directe vergelijking wat rekenkracht betreft te maken. Op FP8 levert B200 tweeënhalf keer de snelheid van de H100-chip. Om automatisch de juiste precisie voor rekenmodellen toe te passen en zo prestaties te optimaliseren, heeft Nvidia een nieuwe generatie Transformer Engine ontworpen voor de Blackwell-architectuur.
Op de Grace Blackwell 200 (GB200) combineert Nvidia twee B200’s met een Grace-cpu tot wat de fabrikant zelf een ‘superchip’ noemt. De op Arm gebaseerde Grace-cpu op de GB200 telt 72 cores en het geheel krijgt een maximum tdp van 2700W. De GB200 Superchips kunnen in grotere aantallen gecombineerd worden om de rekenkracht voor AI-gerelateerde toepassingen te vergroten en te versnellen.
Bedrijven zoals Amazon, Dell, Google, Meta, Microsoft, OpenAI, Oracle, Tesla en xAI hebben interesse getoond in de Blackwell-gpu. Nvidia's jaaromzet verdubbelde in 2023 door de sterk toegenomen vraag naar AI-toepassingen. Voor de consumentenmarkt betekent de aankondiging vooralsnog weinig, maar volgens geruchten brengt Nvidia zijn GeForce RTX 50-serie videokaarten voor gamers later in 2024 ook uit.