当前位置:萬花小說>书库>都市青春>數學大帝> 第572章 TP原班團隊全新架構,晶體管性能提升6倍

第572章 TP原班團隊全新架構,晶體管性能提升6倍

  2016 年底,穀歌 TPU 團隊的十位核心開發者中的八位悄悄離職,創辦了一家名為 Groq 的機器學習係統公司。在此後的三年裏,這家公司一直很低調。但最近,他們帶著一款名為 TSP 的芯片架構出現在公眾視野裏。


  TSP 的全稱是 Tensor Streaming Processor,專為機器學習等 AI 相關需求打造。該架構在單塊芯片上可以實現每秒 1000 萬億(10 的 15 次方)次運算,是全球首個實現該級別性能的架構,其浮點運算性能可達每秒 250 萬億次(TFLOPS)。在摩爾定律走向消亡的背景下,這一架構的問世標誌著芯片之爭從晶體管轉向架構。


  250 TFLOPS 浮點運算性能是什麽概念?目前的世界第一超級計算機 Summit,其峰值算力為 200,794.9 TFLOPS,它的背後是 28,000 塊英偉達 Volta GPU。如果 TSP 達到了類似的效率,僅需 803 塊就可以實現同樣的性能。


  Groq 在一份白皮書中介紹了這項全新的架構設計。此外,他們還將在於美國丹佛舉辦的第 23 屆國際超算高峰論壇上展示這一成果。


  「我們為這一行業和我們的客戶感到興奮,」Groq 的聯合創始人和 CEO Jonathan Ross 表示。「頂級 GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運算性能的產品,但 Groq 現在就做到了,而且建立了一個新的性能標準。就低延遲和推理速度而言,Groq 的架構比其他任何用於推理的架構都要快許多倍。我們與用戶的互動證明了這一點。」


  Groq 的 TSP 架構是專為計算機視覺、機器學習和其他 AI 相關工作負載的性能要求設計的。「對於一大批需要深度學習推理運算的應用來說,Groq 的解決方案是非常理想的選擇,」Groq 的首席架構師 Dennis Abts 表示,「但除此之外,Groq 的架構還能用於廣泛的工作負載。它的性能和簡潔性使其成為所有高性能即數據和計算密集型工作複雜的理想平台。」


  一款「簡單」的 AI 芯片架構

  Groq 的這款架構受到「軟件優先」(soare first)理念的啟發。它在 Groq 開發的 TSP 中實現,為實現計算靈活性和大規模並行計算提供了一種新的範式,但沒有傳統 GPU 和 CPU 架構的限製和溝通開銷。


  「軟件優先」的硬件設計理念

  在 Groq 的架構中,Groq 編譯器負責編碼所有內容:數據流入芯片,並在正確的時間和正確的地點插入,以確保計算實時進行,沒有停頓。執行規劃由軟件負責,這樣就可以釋放出原本要用於動態指令執行的寶貴硬件資源。


  這使得 Groq 的芯片性能具有確定性。編譯器動態地重新配置硬件來執行每個計算,因此編譯器和芯片之間沒有抽象(abstra)。由於編譯器了解硬件和每條指令的速度,所以它可以準確地告訴硬件做什麽,什麽時候做。


  在傳統的體係架構中,將數據從 DRAM 移動到處理器需要大量的算力和時間,而且相同工作負載上的處理性能也是可變的。在典型的工作流中,開發人員通過反複運行工作負載或程序來對其進行配置和測試,以驗證和度量其平均處理性能。由於處理器接收和發送數據的方式不同,這種處理可能會得到略有差別的結果,而開發人員的工作就是手動調整程序以達到預定的可靠性級別。


  但有了 Groq 的硬件和軟件,編譯器就可以準確地知道芯片的工作方式以及執行每個計算所需的時間。編譯器在正確的時間將數據和指令移動到正確的位置,這樣就不會有延遲。到達硬件的指令流是完全編排好的,使得處理速度更快,而且可預測。


  開發人員可以在 Groq 芯片上運行相同的模型 100 次,每次得到的結果都完全相同。對於安全和準確性要求都非常高的應用來說(如自動駕駛汽車),這種計算上的準確性至關重要。


  另外,使用 Groq 硬件設計的係統不會受到長尾延遲的影響,AI 係統可以在特定的功率或延遲預算內進行調整。


  這種軟件優先的設計(即編譯器決定硬件架構)理念幫助 Groq 設計出了一款簡單、高性能的架構,可以加速推理流程。


  該架構既支持傳統的機器學習模型,也支持新的計算學習模型,目前在 x86 和非 x86 係統的客戶站點上運行。


  更簡單的架構設計

  為了滿足深度學習等計算密集型任務的需求,芯片的設計似乎正在變得越來越複雜。但 Groq 認為,這種趨勢從根本上就是錯誤的。他們在白皮書中指出,當前處理器架構的複雜性已經成為阻礙開發者生產和 AI 應用部署的主要障礙。當前處理器的複雜性降低了開發者工作效率,再加上摩爾定律逐漸變慢,實現更高的計算性能變得越來越困難。


  Groq 的芯片設計降低了傳統硬件開發的複雜度,因此開發者可以更加專注於算法(或解決其他問題),而不是為了硬件調整自己的解決方案。有了這種更加簡單的硬件設計,開發者無需進行剖析研究(profiling),因此可以節省資源,更容易大規模部署 AI 應用。


  與基於 CPU、GPU 和 FPGA 的傳統複雜架構相比,Groq 的芯片還簡化了認證和部署,使客戶能夠簡單而快速地實現可擴展、單瓦高性能的係統。


  讓每個晶體管實現更高的性能

  Groq 的張量流架構可以在任何需要的地方提供算力。與當前領先的 GPU、CPU 相比,Groq 處理器的每個晶體管可以實現 3-6 倍的性能提升。這一改進意味著交付性能的提升、延遲的下降以及成本的降低。結果是,Groq 的架構使用起來更加簡單,而且性能高於傳統計算平台。


  備受矚目的 Groq

  Groq 總部位於加州山景城,針對計算密集型應用程序提供高效的軟件驅動解決方案,在性能、準確性和延遲度(亞毫秒級)等方麵處於行業領先水準。


  創立之初,Groq 頗受關注的原因是它的團隊組成:創始團隊的 8 位研發成員均來自穀歌 TPU 核心團隊——在此之前,穀歌 TPU 核心團隊總共不過才 10 個人。穀歌在短短 14 個月內發布 TPU,1 年後又完成第 2 代 TPU,所以外界對 Groq 抱有非常高的期待值。


  盡管 Groq 隻是一家成立三年的創業公司,但一舉一動都會受到外界的高度關注。今年 9 月,Groq 在 AI Hard 2019 無故缺席,業內紛紛猜測 Groq 公司內部是否遇到了危機。


  Groq 現任 CEO Jonathan Ross 的身份是「前穀歌芯片高層人員」,他畢業於紐約大學,曾在穀歌度過了 5 年多的職業生涯,是 TPU 的主要設計者之一。與他相關的還有非常神秘的穀歌 X 實驗室,這個部門所從事的工作都是最前沿的領域,比如太空電梯、無人駕駛汽車、穀歌眼鏡等。一定意義上說,穀歌是在「利用這個實驗室來追蹤 100 個震撼世界的創意」。創立之初,Jonathan Ross 擔任 Groq 的 CTO,後來從 2018 年底開始接任 Doug Wightman 擔任 CEO 一職


  Douglas Wightman 也是穀歌 X 實驗室的前成員。Groq 成立幾個月後,賽靈思全球銷售執行副總裁 Krishna Rangasayee 也加盟出任 COO。


  就在前幾天,Groq 官網宣布 Stuart Pann 也將加入其董事會。Stuart Pann 目前是惠普的首席供應鏈官(Chief SupplyOfficer),之前在英特爾工作了 33 年之久,負責英特爾微處理器和芯片組業務的定價,收入和預測等相關工作,在控製成本支出、提高營收方麵有著非常深厚的經驗。


  Groq 目前大約有 70 名員工,從工程師數量上看還不及英特爾這種大型芯片製造商的四分之一。不過,Groq 卻在用於人工智能行業的關鍵領域——新型芯片研發方麵占有相當的優勢。這個領域未來可能價值數百億美元,而 CEO Jonathan Ross 此前不久表示「Groq 不希望被收購」。


  原本 Groq 對外公布要在 2018 年發布第一代芯片,實際發布時間卻是今年的 9 月。雖然來得晚了一些,但還是足夠驚豔。

上一章目录+书签下一章