- Terascale-Prozessor
-
Der Terascale-Prozessor von Intel ist ein Forschungsprojekt, um einen Mikroprozessor mit hunderten Kernen zu entwickeln. Eine derartige Architektur wird – analog zu den Multicore-Architekturen – als „Manycore“ bezeichnet.
Der Terascale-Prozessor wird in Kacheln – den sogenannten Tiles – organisiert, wobei die meisten Kacheln allgemeine Rechenaufgaben wahrnehmen. Der Terascale-Prozessor besitzt etwa 100 Millionen Transistoren, wobei jede Kachel etwa 1,2 Millionen Transistoren beherbergt.
Inhaltsverzeichnis
Aufbau der Kacheln
Die Kacheln besitzen je eine Processing Engine (PE) und einen Crossbar Switch. Die Processing Engine übernimmt die Rechenaufgaben mit Hilfe zweier FMAC-Einheiten und einer Gleitkommaeinheit. Zudem besitzt die Processing Engine 5 kB an lokalem Speicher. Der Crossbar Switch dient zur Kommunikation mit den Nachbar-Tiles.
Einige zusätzliche Kacheln sind auf spezielle Aufgaben wie die Verarbeitung von High Definition Video, Verschlüsselung, Digitale Signalverarbeitung, Physikbeschleunigung oder 3D-Computergrafik optimiert. Diese spezialisierten Kacheln arbeiten im jeweiligen Aufgabenbereich effizienter – also schneller und energiesparender – als nichtspezialisierte Kacheln.[1]
Speicheraufbau
Ein Problem, das sich beim Terascale stellt, ist, dass durch die hohe Anzahl von Kernen die Anbindung an den Speicher sehr schwer wird, da einerseits die Datenanbindung geteilt und andererseits der Zugriff auf den Speicher koordiniert werden muss. Intel verwendet zu diesem Zweck einen hierarchischen Cachespeicher. Dabei bekommt jeder Kern einen eigenen 16 kB bis 64 kB große L1-Cache. Der 256 kB bis 1 MB große L2-Cache wird von einer kleinen Gruppe von Kernen geteilt. Der L3-Cache steht allen Kern-Gruppen innerhalb des Prozessors zur Verfügung.
Zusätzlich kommt im Terascale ein L4-Cache aus DRAM-Speicher zum Einsatz, welcher sich jedoch nicht auf demselben Prozessor-Die befindet, sondern auf einem eigenen Die gefertigt wird. Der L4-Cache wird anschließend in MCP-Bauweise neben oder in Stacked-Bauweise auf dem Prozessor angebracht. Zusätzlich werden die Programme mit einer QoS-Priorisierung versehen, damit der Speicher für wichtige Anwendungen reserviert werden kann. Wie viel Speicher eine Anwendung beanspruchen kann wird dynamisch von einem Resource-Monitor bestimmt, wodurch das Betriebssystem die Anwendungen in die optimalen Cache-Einheiten verschieben kann.
Geschwindigkeit
Der Terascale-Prozessor erreicht mit mehr als einem Teraflop je Sekunde eine Geschwindigkeit, welche mit dem ASCI-Red-Supercomputer von 1996 vergleichbar ist, welcher aus 10.000 Pentium-Pro-Prozessoren mit 200 MHz Taktfrequenz und insgesamt 500 Kilowatt elektrischer Leistungsaufnahme aufgebaut ist.
Taktfrequenz
in GigahertzKernspannung
in VoltLeistungsaufnahme
in WattDatendurchsatz
in Terabit/sRechenleistung
in Teraflops3,16 0,95 62 1,62 1,01 5,1 1,2 175 2,61 1,63 5,7 1,35 265 2,92 1,81 Siehe auch
- Cell (Prozessor)
- TRIPS-Prozessor
- Smart Memory
- WaveScalar
- Parallelisierung
- Nebenläufigkeit
- Simultaneous Multithreading
Referenzen
- ↑ J. Held, J. Bautista, S. Koehl: From a Few Cores to Many: A Tera-scale Computing Research Overview, Intel 2006
Wikimedia Foundation.