來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)原創(chuàng),作者:暢秋,謝謝。 北京時間2020年5月14日,NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在加利福尼亞的家中,為NVIDIA GTC 2020揭開了該公司的首個“廚房主題演講”。這次大會NVDIA首款A(yù)mpere架構(gòu)的GPU終于面世,黃仁勛更是為史上最大的DGX A100在線帶貨,讓我們一起看看黃教主的帶貨技巧。 圖源:英偉達(dá) Nvidia首款A(yù)mpere GPU,史上最大的7nm芯片 Nvidia昨晚發(fā)布了其下一代Ampere GPU架構(gòu)-NVDIA A100。正值大流行和對云計算需求的巨大增長之際,英偉達(dá)推出的A100正是主要用于數(shù)據(jù)中心。A100每個芯片都裝有540億個晶體管,使其成為臺積電制造的世界上最大的7納米芯片。它使用臺積電CoWoS的3D封裝技術(shù),專為科學(xué)計算,云圖形和數(shù)據(jù)分析而構(gòu)建。 圖源:英偉達(dá) Ampere GPU采用了新的Tensor Core AI核心,支持TF32運算,無需任何代碼改變就可以讓AI性能提升20倍,還支持FP64雙精度運算,與HPC應(yīng)用相比帶來了2.5倍的性能。在訓(xùn)練AI模型時使用32位FP傳輸高達(dá)312 TFLOPS,在INT8上可運行1,248 TOPS以進行推理。 圖源:英偉達(dá) 黃仁勛說:“ NVIDIA A100 GPU是AI性能的20倍飛躍,是從數(shù)據(jù)分析到訓(xùn)練再到推理的端到端機器學(xué)習(xí)加速器?!?“這是第一次,可以在一個平臺上加速橫向擴展和橫向擴展工作負(fù)載。NVIDIA A100將同時提高吞吐量并降低數(shù)據(jù)中心的成本?!?/p> 這還不夠,Ampere擁有一個稱為MIG的新架構(gòu),它可以將一個GPU劃分為七個獨立的GPU,每個GPU都可以執(zhí)行各種大小的不同計算任務(wù),以優(yōu)化使用率。 那么當(dāng)八臺A100放在一起時會發(fā)生什么?你將獲得一個DGX A100系統(tǒng),以在特別大的數(shù)據(jù)集或超級計算集群上訓(xùn)練模型。 圖源:英偉達(dá) DGX A100重50鎊,通過NVLink連接8個600G的GPU,它經(jīng)過一百萬次鉆孔,一公里的走線連接,總共有30000個組件組成。在DGX中,它每分鐘移動700立方英尺。 圖源:英偉達(dá) DGX A100是一個出色的機器,A100保證了5 petaflops的性能,并且將它們與Nvidia的第三代NVLink版本結(jié)合使用。將這八個GPU結(jié)合在一起,就意味著擁有320GB的GPU內(nèi)存和12.4TB / s的內(nèi)存帶寬。它還采用了Nvidia Mellanox ConnectX-6 HDR,因此該系統(tǒng)可以以每秒3.6 TB的速度連接到其他網(wǎng)絡(luò)接口。隨著現(xiàn)代數(shù)據(jù)中心適應(yīng)日益多樣化的工作負(fù)載,Mellanox的技術(shù)將對Nvidia變得越來越重要。 黃仁勛狠狠的夸贊了Ampere架構(gòu)的優(yōu)勢,稱它不僅訓(xùn)練的快,還有著令人難以置信的推理能力,也有能力將自身分解為更多的GPU來進行擴展,無論是推理還是云計算,都有著靈活、加速和高利用率的數(shù)據(jù)中心架構(gòu)。 而且其與當(dāng)今最流行的BERT 訓(xùn)練模型相比,在經(jīng)過3年的優(yōu)化訓(xùn)練之后,基于Ampere的A100的性能是BERT模型的6倍!但晶體管預(yù)算僅增加了約70%。現(xiàn)在,Ampere是世界上最大最復(fù)雜的處理器。在數(shù)千名工程師的努力下,將Ampere集中在這一個不可思議的芯片中。DGX是NVDIA的第三代系統(tǒng),它是世界上第一個完全集成的AI系統(tǒng)。A100可以開箱即用,且訓(xùn)練性能比Volta V100提高6倍。推理性能是Volta V100的7倍,T4的12倍! 與BERT模型訓(xùn)練能力的對比(圖源:英偉達(dá)) 所以,你既可以用DGX A100來訓(xùn)練,也可以進行推理,你甚至可以將其與56個不同的用戶共享,他們每個人都有等效的性能。 只要199000美元,OMG,買它! 好了,重點來了,那么它到底值多少錢呢?如果將其與價值10000美元最高端的服務(wù)器相比較,DGX A100是其價格的150倍。所有以上這些好的性能加一起,只要199,000美元!黃教主在線帶貨!連用兩個Incredible,Incredible的性能,Incredible的價值,買它! 圖源:英偉達(dá) 為什么一定要買它呢?假如你不買A100,而是選用NVIDIA的HGX A100主板來建立超大規(guī)模數(shù)據(jù)中心的話,它將會是下面這個樣子: 圖源:英偉達(dá) 上圖是今天典型的AI數(shù)據(jù)中心,它里面有很多DGX,與Voltas并行運行來進行訓(xùn)練等等,這個數(shù)據(jù)中心中有50個DGX和600個CPU系統(tǒng)用于AI推理和數(shù)據(jù)處理。它要花費價值1100萬美元,消耗630KW,這是什么概念呢?黃仁勛輕描淡寫到,大約是一個州的價格! 但是有了A100,就是下面這個難以置信的樣子。這就是新架構(gòu)的好處,高吞吐量與MIG實例以及數(shù)據(jù)處理能力的高度結(jié)合,將深度學(xué)習(xí)和推理等全部集中在一個計算平臺上。這樣一來,只需花費100萬美元,而且功耗28KW,僅是成本和功耗的十分之一。 圖源:英偉達(dá) Nvidia的DGX A100系統(tǒng)已經(jīng)開始發(fā)售,其中一些最初的應(yīng)用包括在美國阿貢國家實驗室進行的對COVID-19的研究。 英偉達(dá)表示,微軟,亞馬遜,谷歌,戴爾,阿里巴巴和許多其他大型云服務(wù)提供商也計劃將單個A100 GPU整合到自己的產(chǎn)品中。黃仁勛說:“全世界所有超大規(guī)模生產(chǎn)者和計算機制造商對Ampere的采用和熱情都是前所未有的?!?“這是我們有史以來最快的新數(shù)據(jù)中心架構(gòu)發(fā)布,這是可以理解的?!?/p> 小體積的兩款邊緣AI芯片 Nvidia從非常大的DGX SuperPOD躍升到了小型EGX A100,用于處理從物聯(lián)網(wǎng)設(shè)備(無論是照相機還是智能冰箱)中的傳感器輸入的數(shù)據(jù)。 EGX A100每秒最多可以接收200GB的數(shù)據(jù)。新架構(gòu)還允許在將芯片處理的來自IoT傳感器的數(shù)據(jù)直接發(fā)送到GPU之前進行加密,從而使其更安全地應(yīng)用于醫(yī)療保健或零售業(yè)。 黃仁勛表示:“物聯(lián)網(wǎng)和AI的融合引發(fā)了“智慧一切”的革命。大型行業(yè)現(xiàn)在可以提供智能連接產(chǎn)品和服務(wù),就像電話行業(yè)使用智能手機一樣。NVIDIA的EGX Edge AI平臺將標(biāo)準(zhǔn)服務(wù)器轉(zhuǎn)變?yōu)槲⑿停圃?,安全的AI數(shù)據(jù)中心。借助我們的AI應(yīng)用程序框架,公司可以構(gòu)建從智能零售到機器人工廠再到自動呼叫中心的AI服務(wù)?!?/p> 此外,還發(fā)布了EGX Jetson Xavier NX,EGX Jetson Xavier NX是全球體積最小、性能最強大的AI超級計算機,適用于微型服務(wù)器和邊緣智能物聯(lián)網(wǎng)盒。Jetson Xavier NX模塊是加速AI應(yīng)用的理想平臺,與被業(yè)界廣泛采用的前代產(chǎn)品Jetson TX2相比,其性能提高了10倍以上。通過運用云原生技術(shù),開發(fā)人員即可利用這塊僅有信用卡尺寸大小的高AI功能與高計算性能的模塊。運行EGX云原生軟件堆棧的EGX Jetson Xavier NX可以快速處理來自多個高分辨率傳感器的流式數(shù)據(jù)。 具備云原生功能的Jetson Xavier NX已獲得嵌入式生態(tài)系統(tǒng)的大力支持。Jetson Xavier NX開發(fā)者套件和Jetson Xavier NX模塊現(xiàn)正通過NVIDIA分銷渠道進行發(fā)售,售價399美元。 NVIDIA開發(fā)者大會,每次都有新產(chǎn)品推出,所以還是那句話:“The More U Buy, The More U Save。” 免責(zé)聲明 以上內(nèi)容為用戶在觀察者網(wǎng)風(fēng)聞社區(qū)上傳并發(fā)布,僅代表發(fā)帖用戶觀點。
|
|