子豪 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號 QbitAI 還記得那個(gè)全球面積最大、整塊芯片比鍵盤還大的AI超算處理器Cerebras WSE嗎? 剛剛,這款芯片發(fā)布了2代。
作為第二代晶圓級引擎, WSE-2以2.6萬億個(gè)晶體管和85萬個(gè)AI優(yōu)化內(nèi)核,再次刷新記錄。 與一代WSE相比,WSE-2雖然在面積上沒有變化(依然很大),二者看起來沒什么差別。 但是,芯片的所有性能特征,包括:晶體管數(shù)、內(nèi)核數(shù)、內(nèi)存、內(nèi)存帶寬和結(jié)構(gòu)帶寬,均比一代增加了一倍以上。 有哪些升級? 2019年8月,Cerebras推出了尺寸破紀(jì)錄的AI芯片——“晶圓級引擎”(Cerebras Wafer Scale Engine,簡稱WSE),其中包含1.2萬億個(gè)晶體管。 并且在2020年,展示了基于WSE的AI計(jì)算機(jī)CS-1,計(jì)算速度超Joule 200倍以上。 我們將WSE-2與一代,以及A100進(jìn)行了比較:
可以看到,WSE-2有很大幅度的升級,采用了7nm制造工藝,多項(xiàng)數(shù)據(jù)都是一代的兩倍之多。 比起英偉達(dá)的A100,WSE-2多了2.55萬億個(gè)晶體管;內(nèi)核數(shù)是A100的123倍;緩存是其1000倍;可提供的內(nèi)存帶寬,則達(dá)到了A100的13萬倍。
為什么采用大芯片? 據(jù)Cerebras官方網(wǎng)站介紹, 當(dāng)今最先進(jìn)的模型,需要幾天或幾周的時(shí)間進(jìn)行訓(xùn)練,并且通常在數(shù)十、數(shù)百甚至數(shù)千個(gè)GPU上進(jìn)行分布式訓(xùn)練,以使訓(xùn)練時(shí)間更可控。 這些龐大的處理器集群很難編程,并且面臨通信和同步費(fèi)用高的瓶頸。 而WSE-2將用于業(yè)界最快的AI計(jì)算機(jī)CS-2。 △Cerebras系統(tǒng)(圖源:spectrum) CS-2專門為加速AI應(yīng)用而設(shè)計(jì),旨在實(shí)現(xiàn)快速、靈活的訓(xùn)練和低延遲的數(shù)據(jù)處理,可以在更小的空間和更低的功耗下,提供更高的計(jì)算性能。 這使得CS-2擁有更高的計(jì)算密度、更快的內(nèi)存和更高的帶寬互連,從而將訓(xùn)練速度提升數(shù)個(gè)數(shù)量級、使推理的延遲更低,并且易于部署。 Cerebras芯片,將集群的AI計(jì)算和內(nèi)存資源帶到單個(gè)設(shè)備上,一個(gè)CS-2的性能相當(dāng)于整個(gè)GPU集群的性能,同時(shí)具有單個(gè)設(shè)備的簡單性。 CS-2在一個(gè)芯片上有85萬個(gè)內(nèi)核,提供了集群規(guī)模的速度,同時(shí)避免了通信緩慢的問題。 同時(shí)這也意味著,即使是最大、最復(fù)雜的ML模型,也不需要分布式訓(xùn)練或并行編程,因此能節(jié)省數(shù)周的模型調(diào)整和配置時(shí)間。 由于形成了最高帶寬、最低延遲的通信結(jié)構(gòu),因此大型模型的實(shí)時(shí)推理延遲得以降低,無需量化、縮小規(guī)模和犧牲精度。 △Cerebras系統(tǒng) 晶圓級引擎的應(yīng)用 此前,不少實(shí)驗(yàn)室與計(jì)算機(jī)中心已經(jīng)部署了Cerebras WSE和CS-1。包括: 愛丁堡大學(xué)的超級計(jì)算中心,利用WSE進(jìn)行自然語言處理、基因組學(xué)和COVID-19的相關(guān)研究。 在美國阿貢國家實(shí)驗(yàn)室(ANL),WSE被用于COVID-19研究、重力波檢測和材料發(fā)現(xiàn)等;并且在癌癥療法研究中,使癌癥模型的實(shí)驗(yàn)周轉(zhuǎn)時(shí)間,減少了300倍以上。 制藥企業(yè)葛蘭素史克的高級副總裁金·布蘭森,則表示: 其增加了生成的編碼器模型的復(fù)雜性,同時(shí)將訓(xùn)練時(shí)間減少了80倍。 ……
對于WSE-2的應(yīng)用, 國際調(diào)研公司Tirias Research首席分析師Jim McGregor認(rèn)為: “顯然,對用于大型數(shù)據(jù)集的Cerebras晶圓級解決方案,有些公司和實(shí)體很感興趣。 但是在企業(yè)層面,還有數(shù)百萬的其他AI應(yīng)用,以及一些Cerebras不能處理的情況,這就是英偉達(dá)擁有SuprPod和Selene超級計(jì)算機(jī)的原因。 “與英偉達(dá)相比,Cerebras更像是一個(gè)小眾平臺,二者的廣度無法相提并論?!?/p> Moor Insights&Strategy的分析師Patrick Moorhead也表示: “ Cerebras確實(shí)提供了承諾的核心…… 不過Nvidia解決方案更加靈活,幾乎可以安裝在任何服務(wù)器機(jī)箱中?!?/p> 參考鏈接: [1]https:/// [2]https:///2021/04/20/cerebras-systems-launches-new-ai-supercomputing-processor-with-2-6-trillion-transistors/ [3]https://spectrum./tech-talk/semiconductors/processors/cerebras-giant-ai-chip-now-has-a-trillions-more-transistors [4]https://spectrum./semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier [5]https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247528016&idx=3&sn=dad6e7289a017a9c67398a7a646393b6&chksm=e8d0d922dfa75034ae26f22d4033bbf22620b966a3d40a07f8486337963c1a6e497eddbe520a&token=2091891750&lang=zh_CN#rd |
|