Zum Inhalt springen

OpenCL in Aktion: Nachbearbeitung von Apps, beschleunigt

    1652144343

    Was verspricht heterogenes Computing wirklich?

    Niemand ist bereit, das CPU-Zeitalter für beendet zu erklären. Schließlich verkaufen Unternehmen wie Xilinx immer noch anwendungsspezifische programmierbare Logikbausteine, die weit weniger funktional integriert und vielseitig einsetzbar sind als moderne Zentraleinheiten. Manchmal ist einfacher effektiver. Es ist wahrscheinlich, dass spezialisierte Prozessoren in bestimmten Marktsegmenten weiterhin erfolgreich sein werden, insbesondere dort, wo viel Leistung das Hauptanliegen ist. In einer immer vielfältigeren Palette von Mainstream-Umgebungen erwarten wir jedoch, dass heterogenes Computing – bei dem viele Arten von Rechenressourcen auf einem einzigen, integrierten Gerät gepackt sind – weiter an Popularität gewinnen wird. Und als Fertigungsgeräte werden diese Geräte auch komplexer.

    Das logische Endspiel der heterogenen Datenverarbeitung ist ein System-on-a-Chip (SoC), bei dem alle (oder zumindest viele) wichtigen Schaltungssysteme in einem Paket integriert sind. Beispielsweise haben sich die Geode-Chips von AMD (die derzeit das One Laptop Per Child-Projekt antreiben) aus SoC-Designs der 1990er-Ära entwickelt. Während vielen SoC-Produkten immer noch die Leistung fehlt, um einen modernen Mainstream-Desktop-PC zu betreiben, verkaufen sowohl AMD als auch Intel Architekturen, die CPU-Kerne, Grafikressourcen und Speichersteuerung kombinieren. Diese Accelerated Processing Units (APUs), wie AMD sie nennt, erfüllen und übertreffen sogar die Leistungsniveaus, die von typischen produktivitätsorientierten Workstations erwartet werden. Vor allem ergänzen sie bekannte Prozessordesigns mit vielen, vielen ALUs, die typischerweise zur Beschleunigung von 3D-Grafiken verwendet werden. Diese programmierbaren Ressourcen müssen jedoch nicht zum Spielen verwendet werden.

    In der Vergangenheit wurden integrierte Grafiklösungen durch Logik in der Northbridge des Chipsatzes ermöglicht. Durch schwerwiegende Engpässe und Latenzen gelähmt, wurde es ab einem bestimmten Punkt einfach schwieriger, die Leistung mit so weit voneinander entfernten Plattformkomponenten zu skalieren. Infolgedessen haben wir gesehen, dass die Funktionalität nach Norden in die CPU wandert und eine neue Art von Produkten schafft, die nicht nur eine deutlich bessere Spieleleistung bieten, sondern auch allgemeinere Aufgaben bewältigen können, die die hybride Natur von SoCs mit CPU nutzen und GPU-Funktionalität. 

    Für AMD markiert dies den lang ersehnten Höhepunkt der Fusion-Initiative des Unternehmens, die vermutlich der Motor für AMDs Übernahme von ATI Technologies im Jahr 2006 war. AMD sah das Potenzial für seine CPUs und die Grafiktechnologie von ATI, reine CPUs in einem ständig wachsenden Marktanteil zu verdrängen, und das Unternehmen war entschlossen, an der Spitze dieses Übergangs zu stehen. Intel verwendet natürlich seine eigene hauseigene Grafiktechnologie, aber zu einem anderen Zweck. Der Schwerpunkt lag eindeutig mehr auf den Verarbeitungskernen und weniger auf der Grafiktechnologie.

    Anfang 2011 kam die erste Familie von AMD APUs der C- und E-Serie auf den Markt, die in einem 40-nm-Prozess hergestellt wurden. Die Verwendung von Integration ermöglichte stromsparende 9- und 18-W-Modelle, die in ultraportable Notebooks eingebaut wurden. Heute haben wir die auf Llano basierende APU-Familie der A-Serie. Die Verwendung von 32-nm-Fertigung ermöglicht es, genügend Ressourcen für eine echte Architektur der Desktop-Klasse zu einem wertorientierten Preispunkt zu stopfen.

    Während hier eine Vielzahl von Spezifikationen im Spiel sind, ist das vielleicht größte Unterscheidungsmerkmal zwischen den unten aufgeführten Modellen ihre jeweiligen Grafik-Engines. Der A8 verwendet eine Konfiguration, die AMD als Radeon HD 6550D bezeichnet. Es besteht aus 400 Stream-Prozessoren, Radeon-Kernen oder Shadern, welchen Namen Sie auch immer verwenden möchten. Der A6 steigt auf die Radeon HD 6530 mit 320 Stream-Prozessoren ab. Und der A4 skaliert zurück auf eine Radeon HD 6410D mit 160 Stream-Prozessoren.

    Wir haben bereits CPUs und APUs im Wert von unter 200 US-Dollar durch eine Reihe unserer bevorzugten Spiele-Benchmarks laufen lassen, sodass wir wissen, wie die neuesten Chips in modernen Titeln steigen oder sinken. Jetzt wollen wir uns jedoch einige der anderen Möglichkeiten ansehen, wie Enthusiasten Rechenressourcen nutzen können, indem sie Arbeitslasten verwenden, die herkömmliche CPU-Kerne und die programmierbaren Prozessoren in grafikorientierten Produkten belasten.

    In diesem ersten Teil einer neunteiligen Serie nehmen wir die Videonachbearbeitung unter die Lupe. Früher wäre dies selbst mit einer Mehrkern-CPU unter der Haube ein zeitaufwändiges Nutzungsmodell gewesen. Da es sich jedoch um eine weitgehend parallele Arbeitslast handelt, ist die Beschleunigung mit den vielen Kernen eines Grafikprozessors zu einer großartigen Möglichkeit geworden, die Produktivität zu steigern und die Leistung zu verbessern.

    Wir haben die Hilfe von AMD bei der Zusammenstellung dieser Serie in Anspruch genommen, also werden wir uns auf die Hardware des Unternehmens konzentrieren, um einige ziemlich grundlegende Vergleiche zu erstellen. Wie funktioniert eine CPU allein in OpenCL-fähiger Software? Wie wäre es mit einer der Llano-basierten APUs allein? Dann gleichen wir die billigeren APUs und teureren CPUs mit ein paar verschiedenen diskreten Karten ab, um aufzuzeichnen, wie die Leistung in jeder Konfiguration nach oben und unten skaliert.

    0 0 votes
    Rating post
    Abonnieren
    Benachrichtige mich bei
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x