Google TPU 8t: Mit 9.600 Chips und 121 ExaFlops die KI-Trainings-Revolution

Google TPU 8t: Mit 9.600 Chips und 121 ExaFlops die KI-Trainings-Revolution

Die Künstliche Intelligenz entwickelt sich rasant weiter, und die Hardware, die dahinter steckt, muss Schritt halten. Google hat auf der Cloud Next 2026 eine bahnbrechende Ankündigung gemacht: die achte Generation der Tensor Processing Units (TPUs). Doch diesmal mit einem entscheidenden Unterschied – zum ersten Mal in der zehnjährigen Geschichte des TPU-Programms hat Google nicht eine, sondern zwei spezialisierte Chips vorgestellt. Während Nvidia und AMD weiterhin mit universellen Lösungen dominieren, setzt Google auf spezialisierte Hardware für unterschiedliche KI-Workloads. Wie wirkt sich diese Strategie auf den Markt aus, und welche Aktien werden Gewinner oder Verlierer sein?

Die neue TPU 8t für das Training und die TPU 8i für die Inferenz markieren einen strategischen Wendepunkt in Googles KI-Infrastruktur. Besonders die TPU 8t verspricht mit ihren atemberaubenden Spezifikationen eine fundamentale Beschleunigung von KI-Modelltrainings. Für Investoren könnte dies bedeuten, dass Cloud-Computing-Aktien wie Alphabet und verwandte Infrastrukturunternehmen profitieren, während Generalisten im GPU-Markt unter Druck geraten könnten.

Die TPU 8t: Massive Skalierung für Trainingsprozesse

Die TPU 8t ist optimiert für massive Pre-Training- und Embedding-lastigen Workloads und stellt eine technische Meisterleistung dar. Ein einzelner TPU 8t Superpod kann auf 9.600 Chips skaliert werden und liefert dabei beeindruckende 121 ExaFlops FP4-Rechenleistung. Das sind keine gewöhnlichen Zahlen – zum Kontext: Ein ExaFlop entspricht einer Billiarde Gleitkommaoperationen pro Sekunde.

Was diese Architektur besonders macht, ist die Kombination aus Skalierbarkeit und Speicherbandbreite. Der Superpod verfügt über 2 Petabytes geteilter High-Bandwidth-Memory (HBM), verbunden durch hochmoderne Interconnects, die die doppelte Bandbreite der vorherigen Generation bieten. Dies löst eines der größten Probleme beim Training großer Modelle: den Memory-Bandwidth-Engpass. Google verspricht damit, Trainingszyklen nicht von Monaten auf Wochen, sondern mit noch drastischeren Einsparungen durchzuführen.

  • 3D-Torus-Netzwerktopologie: Die TPU 8t behält die bewährte 3D-Torus-Architektur bei, skaliert diese aber erheblich. Diese Topologie ermöglicht eine optimale Kommunikation zwischen den 9.600 Chips ohne Bottlenecks.
  • SparseCore-Beschleunigung: Eine spezialisierte Einheit für unregelmäßige Speicherzugriffsmuster, typisch für Embedding-Lookups während des Trainings. Dies ist entscheidend für große Language Models mit massiven Embedding-Tabellen.
  • Native FP4-Berechnung: Die TPU 8t verdoppelt den Matrix-Multiply-Unit (MXU)-Durchsatz durch reduzierte Präzision und ermöglicht damit deutlich schnellere Trainings bei nur minimalem Präzisionsverlust.
  • TPUDirect RDMA: Ein neuer Datenpfad, der die Host-CPU umgeht und Daten direkt aus hochgeschwindigem verwalteten Speicher abruft – etwa zehnmal schneller als die vorherige Generation.

Die Performance-Steigerung ist beachtlich: Google gibt an, dass die TPU 8t 2,7x bessere Trainings-Preis-Leistung als die Vorgänger-Generation Ironwood bietet. Für Unternehmen, die große Sprachmodelle trainieren, bedeutet das erhebliche Kosteneinsparungen und schnellere Time-to-Market.

Virgo Network Fabric: Die unsichtbare Kraft dahinter

Hinter den beeindruckenden Zahlen steckt eine weitere Innovation, die oft übersehen wird: das Virgo Network Fabric. Dieses neue Netzwerk-Interface ist das Nervensystem der TPU 8t Superpods und ermöglicht eine praktisch skalierbare Vernetzung bis zu 134.000 TPU 8t Chips in einer einzelnen, nicht-blockierenden Rechenzentrum-Fabric.

Dies ist fundamental anders als frühere Generationen. Mit einer Bisektions-Bandbreite von 47 PB/s können Google-Rechenzentren theoretisch über 1 Million Chips an mehreren Standorten miteinander verbinden. Was bedeutet das praktisch? Trainingsjobs können global verteilt werden, ohne dass Kommunikationsverzögerungen zu signifikanten Leistungseinbußen führen. Dies eröffnet völlig neue Möglichkeiten für verteiltes Training und Redundanz.

Besonders bemerkenswert ist die Herangehensweise: Statt proprietärer Standards arbeitet Google mit etablierten Partnern zusammen. Broadcom hat die TPU 8t entworfen (Codename „Sunfish

Kommentar abschicken

Das hast du vielleicht verpasst