NVIDIAs RTX 3000-Serie: Ein Blick auf die Ampere-Architektur
Am 1. September 2020 präsentierte NVIDIA seine neue Generation von Gaming-Grafikkarten: die RTX 3000-Serie, die auf der Ampere-Architektur basiert. Wir werfen einen detaillierten Blick auf die Neuerungen, die KI-gestützte Software und alle Merkmale, die diese Generation so besonders machen.
Die RTX 3000-Serie im Detail
NVIDIAs wichtigste Ankündigung betraf die neuen GPUs, die auf einem spezialgefertigten 8-nm-Fertigungsprozess basieren. Diese bieten deutliche Verbesserungen sowohl bei der Rasterisierungs- als auch bei der Raytracing-Leistung.
Am unteren Ende der Produktpalette befindet sich die RTX 3070, die zu einem Preis von 499 US-Dollar auf den Markt kam. Dies mag für die günstigste Karte, die NVIDIA bei der ersten Ankündigung präsentierte, etwas kostspielig erscheinen. Allerdings ist sie ein echtes Schnäppchen, wenn man bedenkt, dass sie die damalige RTX 2080 Ti übertrifft – eine High-End-Karte, die regelmäßig für über 1400 US-Dollar verkauft wurde. Die Ankündigung von NVIDIA führte jedoch zu einem Preisverfall bei Drittanbietern, und viele dieser Karten wurden panikartig bei eBay für unter 600 US-Dollar verkauft.
Zum Zeitpunkt der Ankündigung gab es noch keine aussagekräftigen Benchmarks, daher ist unklar, ob die Karte wirklich „besser“ als eine 2080 Ti ist oder ob NVIDIA das Marketing etwas zu optimistisch darstellte. Die durchgeführten Benchmarks wurden in 4K und wahrscheinlich mit aktiviertem RTX durchgeführt, was den Unterschied größer erscheinen lässt als bei Spielen mit reiner Rasterisierung. Die Ampere-basierte 3000-Serie bietet beim Raytracing mehr als die doppelte Leistung im Vergleich zu Turing. Da Raytracing nun jedoch keine so große Belastung für die Leistung mehr darstellt und auch in der neuesten Konsolengeneration unterstützt wird, ist die Tatsache, dass sie für fast ein Drittel des Preises so schnell arbeitet wie das Flaggschiff der vorherigen Generation, ein wichtiges Verkaufsargument.
Es bleibt abzuwarten, ob der Preis so niedrig bleibt. Designs von Drittherstellern erhöhen den Preis regelmäßig um mindestens 50 US-Dollar, und es wäre angesichts der voraussichtlich hohen Nachfrage keine Überraschung, wenn die Karten im Oktober 2020 für 600 US-Dollar oder mehr verkauft würden.
Direkt darüber positioniert sich die RTX 3080 zum Preis von 699 US-Dollar, die etwa doppelt so schnell sein soll wie die RTX 2080 und etwa 25-30% schneller als die RTX 3070.
Am oberen Ende der Skala steht das neue Flaggschiff, die RTX 3090, die kurioserweise riesig ausfällt. NVIDIA ist sich dessen bewusst und bezeichnet sie als „BFGPU“, was laut Unternehmen für „Big Ferocious GPU“ steht.
NVIDIA hat keine direkten Leistungskennzahlen veröffentlicht, zeigte aber, dass die Karte 8K-Spiele mit 60 FPS ausführen kann, was beeindruckend ist. NVIDIA nutzt dabei mit großer Wahrscheinlichkeit DLSS, um diese Leistung zu erreichen, aber 8K-Gaming ist 8K-Gaming.
Es wird natürlich irgendwann auch eine 3060 und andere, eher budgetorientierte Kartenvarianten geben, aber diese werden in der Regel zu einem späteren Zeitpunkt veröffentlicht.
Um die Kühlung der Komponenten zu gewährleisten, benötigte NVIDIA ein überarbeitetes Kühlerdesign. Die 3080 ist für 320 Watt ausgelegt, was ein ziemlich hoher Wert ist. NVIDIA entschied sich daher für ein Dual-Lüfter-Design. Anstatt die Lüfter wie gewohnt an der Unterseite zu positionieren, platzierte NVIDIA einen Lüfter am oberen Ende, wo sich normalerweise die Rückplatte befindet. Der Lüfter leitet die Luft nach oben zum CPU-Kühler und zur Oberseite des Gehäuses.
In Anbetracht der Tatsache, wie stark die Leistung durch einen schlechten Luftstrom in einem Gehäuse beeinträchtigt werden kann, ist dies durchaus sinnvoll. Die Platine ist dadurch jedoch sehr beengt, was sich wahrscheinlich auf die Verkaufspreise von Drittherstellern auswirken wird.
DLSS: Ein Softwarevorteil
Raytracing ist nicht der einzige Vorteil der neuen Karten. Die RTX 2000- und 3000-Serien sind im Vergleich zu älteren Kartengenerationen nicht viel besser darin, echtes Raytracing durchzuführen. Das Raytracing einer vollständigen Szene in 3D-Software wie Blender dauert in der Regel einige Sekunden oder sogar Minuten pro Frame, daher kommt eine „Brute-Force“-Berechnung in weniger als 10 Millisekunden nicht in Frage.
Es gibt zwar dedizierte Hardware für die Ausführung von Strahlberechnungen, die so genannten RT-Kerne, aber NVIDIA hat sich größtenteils für einen anderen Ansatz entschieden. NVIDIA hat die Entrauschungsalgorithmen verbessert, die es den GPUs ermöglichen, ein sehr kostengünstiges Single-Pass-Rendering zu verwenden, das zunächst schlecht aussieht, aber durch KI-Magie in etwas verwandelt wird, das für den Spieler akzeptabel ist. In Kombination mit traditionellen Rasterisierungstechniken wird so ein angenehmes Spielerlebnis erreicht, das durch Raytracing-Effekte verstärkt wird.
Um dies jedoch schnell zu tun, hat NVIDIA KI-spezifische Verarbeitungskerne, so genannte Tensor-Kerne, hinzugefügt. Diese verarbeiten die gesamte Mathematik, die für die Ausführung von Modellen des maschinellen Lernens erforderlich ist, und zwar sehr schnell. Sie sind ein Game-Changer für KI im Bereich von Cloud-Servern, da KI von vielen Unternehmen intensiv genutzt wird.
Neben dem Entrauschen wird die Hauptanwendung der Tensor-Kerne für Gamer als DLSS, oder Deep Learning Super Sampling, bezeichnet. Es nimmt ein Frame in geringer Qualität und skaliert ihn auf vollständig native Qualität hoch. Dies bedeutet, dass man im Grunde mit Bildraten auf 1080p-Niveau spielen kann, während man ein 4K-Bild sieht.
Dies hilft auch erheblich bei der Raytracing-Leistung – Benchmarks von PCMag zeigen, dass eine RTX 2080 Super Control in Ultra-Qualität mit maximalen Raytracing-Einstellungen bei 4K mit nur 19 FPS zu kämpfen hat, aber mit aktiviertem DLSS viel bessere 54 FPS erreicht. DLSS ist eine kostenlose Leistungssteigerung für NVIDIA, die durch die Tensor-Kerne von Turing und Ampere ermöglicht wird. Jedes Spiel, das dies unterstützt und GPU-limitiert ist, kann allein durch Software erhebliche Leistungssteigerungen erfahren.
DLSS ist nicht neu und wurde als Feature angekündigt, als die RTX 2000-Serie vor zwei Jahren auf den Markt kam. Damals wurde es nur von sehr wenigen Spielen unterstützt, da NVIDIA für jedes einzelne Spiel ein maschinelles Lernmodell trainieren und optimieren musste.
In der Zwischenzeit hat NVIDIA es jedoch komplett neu geschrieben und die neue Version DLSS 2.0 genannt. Es handelt sich um eine universelle API, die von jedem Entwickler implementiert werden kann und die bereits von den meisten großen Titeln genutzt wird. Anstatt an einem Frame zu arbeiten, werden Bewegungsvektordaten aus dem vorherigen Frame übernommen, ähnlich wie bei TAA. Das Ergebnis ist viel schärfer als bei DLSS 1.0 und sieht in einigen Fällen sogar besser und schärfer aus als die native Auflösung, so dass es wenige Gründe gibt, es nicht zu aktivieren.
Es gibt jedoch einen Haken: Wenn Szenen vollständig gewechselt werden, wie in Zwischensequenzen, muss DLSS 2.0 das erste Bild mit 50 % Qualität rendern, während es auf die Bewegungsvektordaten wartet. Dies kann für einige Millisekunden zu einem leichten Qualitätsverlust führen. Aber 99 % von dem, was man sieht, wird korrekt gerendert, und die meisten Leute bemerken es in der Praxis nicht.
Die Ampere-Architektur: Entwickelt für KI
Ampere ist schnell, wirklich schnell, besonders bei KI-Berechnungen. Der RT-Kern ist 1,7-mal schneller als bei Turing und der neue Tensor-Kern ist 2,7-mal schneller als bei Turing. Die Kombination der beiden ergibt einen großen Sprung in der Raytracing-Leistung.
Anfang Mai dieses Jahres veröffentlichte NVIDIA die Ampere A100 GPU, eine Rechenzentrums-GPU, die für die Ausführung von KI entwickelt wurde. Dabei haben sie viele Details darüber bekannt gegeben, was Ampere so viel schneller macht. Bei Rechenzentrums- und High-Performance-Computing-Workloads ist Ampere im Allgemeinen etwa 1,7-mal schneller als Turing. Beim KI-Training ist es sogar bis zu 6-mal schneller.
Mit Ampere verwendet NVIDIA ein neues Zahlenformat, das den Industriestandard „Floating-Point 32“ oder FP32 in bestimmten Arbeitslasten ersetzen soll. Im Grunde genommen belegt jede Zahl, die Ihr Computer verarbeitet, eine vordefinierte Anzahl von Bits im Speicher, egal ob es 8 Bit, 16 Bit, 32, 64 oder mehr sind. Größere Zahlen sind schwieriger zu verarbeiten. Wenn man also eine kleinere Größe verwenden kann, muss man weniger verarbeiten.
FP32 speichert eine 32-Bit-Dezimalzahl und verwendet 8 Bit für den Bereich der Zahl (wie groß oder klein sie sein kann) und 23 Bit für die Genauigkeit. NVIDIA behauptet, dass diese 23 Präzisionsbits für viele KI-Workloads nicht unbedingt erforderlich sind und dass man mit nur 10 davon ähnliche Ergebnisse und eine viel bessere Leistung erzielen kann. Die Verkleinerung der Größe auf nur 19 Bit anstelle von 32 Bit macht bei vielen Berechnungen einen großen Unterschied.
Dieses neue Format wird Tensor Float 32 genannt, und die Tensor Cores im A100 sind darauf optimiert, dieses Format zu verarbeiten. Dadurch erreichen sie zusätzlich zu den Chip-Verkleinerungen und der Erhöhung der Kernanzahl die massive 6-fache Beschleunigung beim KI-Training.
Neben dem neuen Zahlenformat bietet Ampere auch deutliche Leistungssteigerungen bei bestimmten Berechnungen wie FP32 und FP64. Diese führen zwar nicht direkt zu mehr FPS für den Endverbraucher, sind aber ein Teil dessen, was sie bei Tensor-Operationen insgesamt fast dreimal schneller macht.
Um die Berechnungen noch weiter zu beschleunigen, haben sie das Konzept von feinkörniger Sparsity eingeführt, ein sehr ausgefallenes Wort für ein ziemlich einfaches Konzept. Neuronale Netze arbeiten mit großen Listen von Zahlen, den sogenannten Gewichtungen, die die endgültige Ausgabe beeinflussen. Je mehr Zahlen zu verarbeiten sind, desto langsamer wird es.
Allerdings sind nicht alle diese Zahlen wirklich nützlich. Einige von ihnen sind im Grunde genommen nur Null und können im Grunde weggeworfen werden, was zu massiven Beschleunigungen führt, wenn mehr Zahlen gleichzeitig verarbeitet werden können. Sparsity komprimiert im Wesentlichen die Zahlen, was den Aufwand für die Berechnungen reduziert. Der neue „Sparse Tensor Core“ ist so konzipiert, dass er mit komprimierten Daten arbeiten kann.
Trotz dieser Änderungen versichert NVIDIA, dass dies die Genauigkeit trainierter Modelle nicht merklich beeinträchtigen sollte.
Bei Sparse-INT8-Berechnungen, einem der kleinsten Zahlenformate, liegt die Spitzenleistung einer einzelnen A100-GPU bei über 1,25 PetaFLOPs, eine erstaunlich hohe Zahl. Dies gilt natürlich nur, wenn eine bestimmte Art von Zahl verarbeitet wird, aber es ist trotzdem beeindruckend.