Google週三(4/22)在Cloud Next大會上發表第8代張量處理器(Tensor Processing Unit,TPU),首度將TPU產品線拆分為訓練與推論兩種專用晶片,分別為TPU 8t與TPU 8i,主打支援AI代理人(Agentic AI)所需的高效能運算與低延遲回應能力。
Google指出,AI代理人興起使模型從單純生成轉向推理與任務執行,對運算架構的需求明顯提升,原本兼顧訓練與推論的單一設計已逐漸出現瓶頸,因此在第8代TPU採用專用化設計,推出TPU 8t與TPU 8i以因應不同運算需求。
其中,TPU 8t主要鎖定大型模型訓練場景,強調高運算吞吐量與大規模擴展能力。其架構可在單一超級運算叢集(Superpod)(由數千顆TPU組成)中運行,並透過高頻寬記憶體與強化的晶片間互連設計,支援大規模分散式訓練。Google指出,相較前一代產品,TPU 8t在訓練效能上可提升近3倍,有助於縮短大型模型的開發周期。
至於TPU 8i則鎖定AI推論與即時推理場景,特別是多個AI代理人同時運作的應用。其設計重點在於降低延遲與提升同時處理能力,讓AI在回答問題或執行任務時能更快回應。為此,TPU 8i強化記憶體與晶片內資料處理能力,減少資料來回傳輸時間,並優化多晶片間的通訊效率。Google表示,相較前一代產品,TPU 8i在推論的成本效能可提升約80%,可在相同成本下支援更多使用需求。
美國金融科技業者Citadel Securities技術長Josh Woods表示,使用Google Cloud第7代Ironwood TPU,已可將最具挑戰的工作負載執行速度提升2至4倍,同時降低30%成本,並期待進一步導入搭載TPU 8t與TPU 8i的Google Cloud AI Hypercomputer,以持續改善訓練成本結構並提升系統擴展能力。
兩款晶片預計將於今年稍晚正式開放使用,並將整合至Google AI Hypercomputer。該平臺為一體化AI運算架構,結合運算、儲存與網路等客製化硬體,以及框架與推論引擎等軟體資源,TPU 8t與TPU 8i則為其中的核心運算引擎。