High Performance Computing mit GPU

Dank immer schnellerer Computertechnik und leistungsstarken Prozessoren, wie die neue CPU-Generation von AMD mit bis zu 64 Kernen, wird die Berechnung von äußerst großen Datenmengen im immer kürzerer Zeit möglich.
So werden umfangreiche wissenschaftliche Aufgabenstellungen durch Simulationen, Modelle und Analysen lösbar, die vorher nicht möglich waren.
Dies betrifft medizinische Forschung, Materialforschung, Meteorologie und die Auswertung von Big Data (-> Smart Data), Maschinelles Lernen und Deep Learning.
All dies wird unter dem Begriff „High Performance Computing (HPC)“ zusammengefasst. Hierfür werden zuverlässige und sichere Server mit guter Leistung eingesetzt, wie zum Beispiel die ProLiant-Server von HP mit hohen Speichergeschwindigkeiten von bis zu DDR4 3200 MT/s und bis zu 4 TB pro CPU.

Dafür bedarf es Supercomputer. Supercomputing-Cluster können Zehntausende Prozessoren beinhalten. Doch reicht deren Leistung bei hochkomplexen Berechnungen allein nicht aus,
daher verdichten die meisten HPC-Systeme zur parallelen Verarbeitung mehrere Prozessoren und Speichermodule durch ultrahohe Bandbreitenverbindungen.
Bei einigen HPC-Systemen werden CPUs und GPUs zusammen eingesetzt [heterogenes Rechnen: HPC-Architektur, die serielle (CPU) und parallele (GPU) Verarbeitungskapazität optimiert].
Dabei werden die rechenintensivsten Bereiche der Anwendung auf dem Grafikprozessor ausgeführt, die restlichen, weniger anspruchsvollen Aufgaben erledigt die CPU.
Anders als CPUs können GPUs über tausende Cores für die parallele Datenverarbeitung haben. Zusammen mit der seriellen Verarbeitung der CPU-Aufgaben können Anwendungen viel schneller umgesetzt werden.

So funktioniert HPC

Die beiden hauptsächlichen Methoden zur Informationsverarbeitung des HPC sind serielle und parallele Verarbeitung.

Serielle Verarbeitung
Jeder CPU-Kern führt in der Regel nur jeweils eine Aufgabe aus.
CPUs sind für Verarbeitungsfunktionen wie Betriebssysteme und wichtigste Anwendungen (z. B. Textverarbeitung, Bürosysteme) unverzichtbar.

Serielle Verarbeitung
Serielle Datenverarbeitung (Quelle: AMD)

Parallele Verarbeitung
Dies wird durch Verwendung mehrerer CPUs oder Grafikprozessoren (GPUs) möglich.
Die ursprünglich für Grafikkarten konzipierten GPUs können mehrere arithmetische Operationen über eine Datenmatrix (z. B. Bildschirmpixel) gleichzeitig durchführen. Die Möglichkeit, auf zahlreichen Datenebenen gleichzeitig zu arbeiten, prädestiniert GPUs zur parallelen Verarbeitung bei Aufgaben für maschinelles Lernen (ML), wie zum Beispiel das Erkennen von Objekten in Videos.

Parallele Verarbeitung
Parallele Datenverarbeitung (Quelle: AMD)

Die Rechenleistung von Computern wird u. a. in sogenannten FLOPS (Floating Point Operation per Second, dt. Gleitkommaoperationen pro Sekunde) gemessen. Anfang 2019 lag die Leistung eines Hochleistungs-Supercomputer bei 143,5 PetaFLOPS. Diese Klasse der Supercomputer wird als Petascale bezeichnet und führt mehr als eine Billiarde FLOPS durch. Im Vergleich dazu ist ein Hochleistungs-Gaming-PC mit ca. 200 GigaFLOPS um dem Faktor 1.000.000 langsamer.
Fortschritte beim Supercomputing mit Bezug auf Verarbeitung und Durchsatz werden schon bald zur nächsten wichtigen Leistungsstufe der Supercomputer, der Exascale-Marke vorstoßen. Sie wird etwa 1.000-mal schneller sein als Petascale. Das heißt, dass ein Exascale-Supercomputer in der Lage sein wird, 1018 Bytes (oder 1 Mrd. x 1 Mrd.) Berechnungen pro Sekunde durchzuführen.
(https://www.amd.com/de/technologies/hpc-explained)

Rechenleistungen
Rechenleistungen (Quelle: AMD)

Anwendungen für HPC

Durch die kontinuierliche Weiterentwicklung der Computertechnologien können heute wesentlich mehr und komplexere Fragestellungen bearbeitet werden. Dazu gehören unter anderem:

Maschinelles Lernen:
Maschinelles Lernen (ML) ist ein Bereich der der künstlichen Intelligenz (KI) und bezeichnet ein System, das selbstständig lernen kann und nicht nur passiv eingegebene Befehle ausführt. HPC-Systeme können mittels hochentwickeltem ML große Datenmengen analysieren, um z. B. in der Krebsforschung Melanome auf Fotos zu erfassen (Bildanalyse und -überwachung), erste echte Anzeichen von Problemen in Teilen oder in Maschinen zu erkennen (prognostizierte Instandhaltung), und Texte richtig zu übersetzen (Textanalyse und -klassifizierung), etc.

Big-Data-Analyse:
Riesige Datenmengen müssen in Wissenschaft, Finanzwesen, Wirtschaft und im Gesundheitssektor, aber auch bei Fragen der Netz- und Computersicherheit sowie in Behörden auf nationaler und internationaler Ebene schnell berechnet, verglichen und zusammengeführt werden. Dies erfordert entsprechend viele Durchsatz- und Rechenkapazitäten.

Beispiel:
Die NASA hat ein jährliches Volumen von schätzungsweise 50 Petabytes Missionsdaten und kann diese Datenmengen nur mit Supercomputing analysieren und Simulationen berechnen.

Erweiterte Modellerstellung und Simulation:
Unternehmen können auf kostenintensive Prototypenkonstruktionen verzichten, da die Anforderungen in realitätsgetreuen Modellen durchsimuliert werden können. So können Zeit, Material und Kosten gespart sowie neue Produkte schneller auf den Markt eingeführt werden.
Weitere Einsatzgebiete für HPC sind Energiesektor, Arzneimittelforschung, Automobilbranche, Luft- und Raumfahrt sowie die Berechnung von Klima- und Wettersystemen.

AMD-Technologie in Supercomputern

Einen Meilenstein in der Entwicklung besserer Technologien für High Performance Computing brachte der Hersteller AMD, dessen CPUs (EPYC) und GPUs (AMD Radeon Instinct und AMD Instinct MI100-Beschleuniger) für Furore sorgten, da die Produkte in der Leistung weit vor allen anderen vergleichbaren CPUs und GPUs liegen.

Aufgrund dieser technologischen Überlegenheit wird auch klar, warum Wissenschaftler bei der Entwicklung von Supercomputern auf AMD setzen, wie die folgenden Beispiele zeigen:

1. Frontier

AMD hat in Zusammenarbeit mit dem US-Energieministerium, dem Oak Ridge National Laboratory und Cray Inc. den Supercomputer Frontier entwickelt, der eine Spitzenrechenleistung von mehr als 1,5 ExaFLOPS liefern soll. Er soll 2021 in Betrieb gehen.

Supercomputer Frontier
Supercomputer Frontier (Quelle: AMD)

Frontier ist konzipiert mit:
- für HPC und KI optimierte CPUs (AMD EPYC)
- speziell entwickelte High Bandwidth Memory-(HBM)-fähige GPUs (ADM Radeon Instinct)

Frontier wird die Grenzen wissenschaftlicher Entdeckungen verschieben und die Reichweite der Forschung erweitern, indem der Supercomputer die Leistung von künstlicher Intelligenz (KI), Analysen und Simulationen im großen Maßstab steigert und Wissenschaftlern dabei hilft, mehr Berechnungen durchzuführen, neue Muster in Daten zu erkennen und innovative Datenanalysemethoden zu entwickeln, um wissenschaftliche Entdeckungen zu beschleunigen.

2. El Capitan

Das US-Energieministerium, das Lawrence Livermore National Laboratory und HPE haben sich mit AMD zusammengetan, um El Capitan zu entwickeln, den schnellsten Supercomputer der Welt, der Anfang 2023 ausgeliefert werden soll, um mit mehr als 2 ExaFLOPS mit doppelter Genauigkeit zu erreichen.

Supercomputer El Capitan
Supercomputer El Capitan (Quelle: AMD)

Beim El Capitan werden hochmoderne Produkte verbaut, in die Verbesserungen aus dem kundenspezifischen Prozessordesign von Frontier eingeflossen sind:

- AMD EPYC Prozessoren der nächsten Generation werden mit einer neuen Prozessorkernarchitektur gefertigt, um Speicher- und I/O-Subsysteme der nächsten Generation für KI- und HPC-Workloads zu unterstützen.
- Die Radeon Instinct GPUs der nächsten Generation basieren auf einer neuen rechenoptimierten Architektur für HPC- und KI-Workloads und nutzen Speicher der nächsten Generation mit hoher Bandbreite für optimale Deep-Learning-Leistung.

Dieses neue Design ist für die Analyse von KI- und ML-Daten wichtig, um Modelle zu erstellen, die schneller und genauer sind und die Unsicherheit ihrer Vorhersagen quantifizieren können.

„Wenn alle 7,7 Milliarden Menschen auf der Erde jeweils eine Berechnung pro Sekunde ausführten, würde es mehr als 8 Jahre dauern, um das zu erreichen, was El Capitan in einer Sekunde schafft.“
(Hewlett Packard Enterprise zum Supercomputer El Capitan)

Innovatives Design senkt Kosten für HPC

Wie ist es AMD nach Jahren der Vorherrschaft von Intel gelungen, sich an die Spitze der Branche im Bereich CPU und GPU zu setzen, sodass der Hersteller interessant für HPC-Anwendungen wurde?

CPU

AMD hat sich vom ausschließlich monolithischen One-Die-Design der Prozessoren abgewandt und setzt auf Chiplets. Dies sind modulare Mini-Dies, die zusammen in einer CPU untergebracht werden. Die CPU wird dadurch zwar größer, dies ist jedoch angesichts der erheblichen Leistungssteigerungen vernachlässigbar.

Die Vorteil von kleineren Chiplets liege in der Herstellung selbst: Die für Prozessoren benötigten Halbleitermaterialien werden in Form von sog. Silizium-Wafers gefertigt. Dabei kommt es zu Defekten und/oder suboptimal ausgeführten Bereichen auf den Wafern, sodass nicht das gesamte Material verwendbar ist.

Durch die geringere Dimensionierung der Chiplets kann aus den Wafern mehr Material „herausgeholt“ und die Produktion beschleunigt werden.
Dies verdeutlicht diese Abbildung:

Yield_Chiplets
Mehr Ausbeute mit kleinerem Chiplet-Design (Quelle: TechQuickie; https://www.youtube.com/watch?v=NkknclAeUZ8; 22.01.2021)

Allein dadurch ergeben sich für AMD erhebliche Einsparungen in der Produktion ihrer CPUs.

Weitere Vorteile liegen in der Chiplet-Technologie selbst:
Durch mehrere kleine Dies (die wiederum mehrere Kerne haben) statt eines großen Mono-Dies können bestimmte Bereiche bzw. Aufgaben,
die nicht reine Zahlenberechnungen sind, aus der CPU ausgelagert werden, wie z.B. I/O und machen sie verfügbar für andere Aufgaben.
Der Signalaustausch erfolgt über die AMD Infinity Fabric.

Chiplet-Technologie
Chiplet-Technologie (Quelle: AMD)

Zwar müssen die Signale der einzelnen Dies räumliche Abstände überwinden, was zu Verzögerungen führen kann, jedoch hat AMD mit seiner Infinity Fabric auch hier eine schnellere Lösung zur Hand als PCIe 4.0. Diese hybride Multi-Die-Architektur entkoppelt zwei Streams: acht Dies für die Prozessorkerne und ein I/O-Die, der für die prozessorexterne Sicherheit und Kommunikation zuständig ist. Das macht eine agile Bereitstellung einer neuartigen Prozesstechnologie für CPU-Kerne möglich.

Unabhängig davon können sich die I/O-Schaltkreise in ihrem eigenem Tempo entwickeln.

AMD Infinity Fabric
AMD Infinity Fabric (Quelle: AMD)


Neben einer leistungsstärkeren CPU wurde hier also auch die Geschwindigkeit der Signalübertragung gegenüber dem Standard PCIe 4.0 verbessert.

Benchmarks zu Signalübertragungsgeschwindigkeit: PCIe 4.0 vs. AMD Infinity Fabric
Benchmarks zu Signalübertragungsgeschwindigkeit: PCIe 4.0 vs. AMD Infinity Fabric (Quelle: AMD)

So ergeben sich mit der neuen Architektur Untergruppierungen, wie CCD (Core-Chiplet-Dies), CCX (CPU-Core-Complex), IOD (Input-Output-Dies) bzw. cIOD (Client IO-Dies), hier gezeigt am Beispiel einer CPU der Reihe AMD Ryzen 3 3100 und AMD Ryzen 33000X:

Chiplet-Architektur AMD Ryzen 5000
Chiplet-Architektur AMD Ryzen 3 3100 und AMD Ryzen 33000X (Quelle: AMD)

GPU

AMD hat eigens für HPC-Anwendungen einen speziellen Grafikprozessor bzw. -beschleuniger entwickelt:
Die GPU Instinct MI100.
Dafür wurde sie mit der CDNA-Architektur konfiguriert, d. h. diese GPU ist nicht für den Alltag oder für Gaming gedacht, sondern tatsächlich für rechenintensive Anwendungen (KI und Exascale allgemein). Laut AMD ist es „die weltweit schnellste HPC-GPU“.
(https://www.amd.com/de/products/server-accelerators/instinct-mi100; 22.01.2021)

MI100 Instinct GPUs mit Infinity Fabric (Quelle: AMD) 
MI100 Instinct GPUs mit Infinity Fabric (Quelle: AMD)

Die MI100 Instinct bietet als erster x86-Server-Grafikprozessor bis zu 11,5 TeraFLOPS (FP64)-Spitzenleistung für HPC und bis zu 46,1 TeraFLOPS (FP32)-Matrix-Spitzenleistung für KI- und ML-Workloads. Im Vergleich zu vorherigen AMD-Beschleunigern ermöglicht die MI100 Instinct zudem eine fast 7-fache Steigerung der theoretischen FP16-Spitzenleistung.
In Kombination mit der Infinity Fabric und der ROCm-Open-Platform-Software, die offene Computersprachen, Compiler, Bibliotheken und Tools für die HPC-Community bietet, setzt die GPU neue Maßstäbe für HPC-Anwendungen wie KI, ML, Deep Learning, etc.:

  • Weltweit schnellste HPC-GPU mit bis zu 11,5 TeraFLOPS FP64-Spitzenleistung
  • Entwickelt auf der CDNA-Architektur mit 120 Compute Units (7.680 Kerne)
  • Offene und portable ROCm-Software-Umgebung
  • Infinity Architektur der 2. Generation mit bis zu 340 GB/s an aggregierter P2P-GPU-E/A-Bandbreite
  • PCIe Gen 4 x16-kompatibel
  • Bis zu 46,1 TFLOPS FP32-Matrix-Spitzenleistung mit brandneuen Matrixkernen für HPC- und KI-Workloads
  • Bis zu 184,6 TFLOPS FP16 und 92,3 TFLOPS bFloat16 Spitze für ultraschnelles KI-Training
  • 32 GB ultraschneller HBM2-ECC-Speicher mit bis zu 1,2 TB/s Speicherbandbreite

M100 Instinct GPU
M100 Instinct GPU (Quelle: AMD)

Die CDNA-Architektur von AMD

Grundsätzlich verfolgt AMD zwei Wege bei seiner GPU-Architektur:
Gaming-optimierte GPUs (RDNA) und Rechenlast-optimierte GPUs (CDNA), die beide auf der allgemeinen General-Purpose-GPU-Architektur (GPGPU) aufbauen.

CPU-Arten bei AMD: RDNA, CDNA, GP
CPU-Arten bei AMD: RDNA, CDNA, GP (Quelle: AMD)

Die CDNA-Architektur wurde mit Rechnerkernen für das Zeitalter der Hochgeschwindigkeitsrechner von Grund auf neu entwickelt. Sie liefert knapp 1,7-fach höhere FP64-Performance innerhalb desselben Energiebudgets wie die frühere Generation von AMD Beschleunigern. Die Infinity Fabric ist bereits in die CDNA-Architektur integriert.

Dank der Matrix-Kern-Technologie der CDNA-Architektur bietet diese GPU eine knapp 3,5-fache Performance-Steigerung beim HPC (FP32-Matrix) und eine beinahe 7-fache für KI-Workloads (FP16) gegenüber der früheren Generation der Rechenzentrums-GPUs von AMD.

Hochleistungsrechnen mit CPU und GPU im Exascale-Zeitalter

Der gestiegene Bedarf an Rechenleistung in Wissenschaft, Finanzen und Industrie du die damit anfallenden riesigen Datenmengen verlangt nach entsprechenden Hardware-Lösungen, um den Herausforderungen der Zukunft, wie High Performance Computing (HPC), darunter ML, DL, KI, etc., begegnen zu können.

Entwicklung der Rechenleistung von Supercomputern
Entwicklung der Rechenleistung von Supercomputern (Quelle: AMD)

Eine heutige moderne GPU kann also einen Supercomputer aus dem Jahr 2000 hinsichtlich der Rechenleistung nahezu vollständig ersetzen, wie die folgende Abbildung verdeutlicht:

Leistungsvergleich Supercomputer vs. moderne GPU
Leistungsvergleich Supercomputer (2000) vs. moderne GPU (2020) (Quelle: AMD)

Die Branche ist also auf einem guten Weg, um die künftigen Rechenleistungsbedarfe auf dem Weg in das Exascale-Zeitalter zu erfüllen. Aktuell ist der Hersteller AMD mit seinen aufeinander abgestimmten Produkten (CPUs und GPUs) und der erforderlichen, leistungsstarken Umgebung (einzige wirklich offene Software-Plattform ROCm, CDNA-Architektur mit Infinity Fabric) in diesem Bereich für Nutzer, wie Hochschulen, Wissenschaftseinrichtungen, Finanzwelt und Industrie mit Abstand am attraktivsten, da AMD seine qualitativ hochwertigen Produkte auch zu einem aktuell unschlagbaren Pries anbietet. Dies erleichtert Forschungsprogramme, wie zum Beispiel am Oak Ridge National Laboratory (ORNL) in Oak Ridge, Tennessee (USA):

  • Simulationen in der Plasmaphysik für die nächste Generation von (vor allem für Anwendungen in der Strahlentherapie von Krebs sowie für die Erforschung der Molekularstruktur mittels Röntgenstrahlen in den Material- und Lebenswissenschaften relevant.
  • CHOLLA-Projekt: Weiterentwicklung von Galaxis-Simulationen in der Astrophysik und der Erforschung des Ursprungs und des Entstehens von Galaxien

Darüber hinaus wird es in diesem Bereich interessante (Weiter-)Entwicklungen geben, die sich auch auf diese Gebiete auswirken werden:

  • Cloud / Hyperscale
  • Finanzen
  • Energie
  • Verstärkungslernen (Reinforcement Learning)
  • Gesundheitswesen (Life Sciences)
  • Automotive, Luft- und Raumfahrt
  • HPC
  • Bild- und Videoerkennung und -klassifizierung

Die (nahe) Zukunft bleibt also spannend!


Wenn Sie Fragen zu CPU, GPU und Co. haben, können Sie sich jederzeit an unsere erfahrenen Mitarbeiter*innen wenden! 
Wir haben in unserer Rubrik „Wissen2Go“ auch andere interessante Artikel für Sie, wie zum Beispiel „Die schnellste GPU der Welt“, „NVIDIA-GPUs und zugehörige Lizenzen“, „Was sind die drei Speicherkonzepte?“ und viele weitere Themen.

AMD hat im April 2021 seine dritte Generation der AMD EPYC™ CPUs vorgestellt, dazu finden Sie unseren Artikel „AMD-Prozessoren (Gen 3)“ und „Neue HPE-Server mit AMD-Technologie (Gen 3)“ sowie zur Vorgängergeneration unseren Artikel „AMD-Prozessoren (Gen 2)“ und „HPE-Server mit AMD-Technologie (Gen 2)“. Ebenfalls interessant: „Kosten sparen mit AMD-Technologie“.

Des Weiteren haben wir auch Steuer-Spartipps für Ihre IT-Anschaffungen und Informationen zur staatlichen Förderung von IT-Investitionen für Sie erstellt. Auch bei diesen Themen beraten wir jederzeit! Und falls Sie in einer Schule tätig sind, nutzen Sie unsere Beratung zu den Vorteilen des Digitalpakts der Bundesregierung!


Selbstverständlich unterstützen wir Sie auch gerne jederzeit per E-Mail, Telefon oder Chat (direkt hier auf der Seite) bei allen anderen Angelegenheiten, seien es Fragen zum Kauf von Server-, Storage- oder Netzwerklösungen. Sie können sich auch online auf unserer Website Ihren persönlichen Wunsch-Server mit unserem Server Konfigurator zusammenstellen. Profitieren Sie auch von einzigartigen Rabatten bei Serverhero: als einer der wenigen deutschen Anbieter sind wir von den großen Herstellern, wie Hewlett Packard Enterprise, Lancom, Dell, Aruba, Supermicro, Lenovo, Fujitsu, etc. mt Partner-Status zertifiziert und somit in der Lage, Ihnen bis zu 40 % Rabatt anzubieten.
Serverhero. Wir sind die Experten für Server und Storage.

Niklas Harenberg

Haben Sie Fragen zu einem Produkt,
oder Sie benötigen Hilfe?

Sie erreichen uns unter: +49 2234 2196 500 Kostenloser Rückruf Service Rückruf anfordern

Fragen?

Wir rufen gern zurück! Einfach Telefonnummer und Name eintragen und gewünschte Zeit auswählen.

Haben Sie Fragen zu einem Produkt,
oder Sie benötigen Hilfe?

Wir freuen uns auf Ihre E-Mail: info@serverhero.de Wir freuen uns auf Ihre Nachricht: Kontaktformular

Wir freuen uns auf Ihre Nachricht. Bitte füllen Sie das nachfolgende Formular aus.

Absenden

Weitere Kontaktmöglichkeiten: