美國(guó)當(dāng)?shù)貢r(shí)間12月2日晚,作為擁有超過(guò)6萬(wàn)名現(xiàn)場(chǎng)參會(huì)者和40萬(wàn)名線(xiàn)上參會(huì)者的全球云計(jì)算頂級(jí)盛宴,亞馬遜云科技2024 re:Invent全球大會(huì)在拉斯維加斯盛大揭幕。 作為本屆re:Invent全球大會(huì)的首場(chǎng)重頭戲,亞馬遜云科技高級(jí)副總裁Peter DeSantis的主題演講,也由此被賦予了特殊的意義。 持續(xù)不斷創(chuàng)新的源動(dòng)力 眾所周知,作為全球云計(jì)算技術(shù)的開(kāi)創(chuàng)者,亞馬遜云科技不僅在2006年3月正式推出了Amazon EC2彈性計(jì)算云服務(wù),并且在之后超過(guò)18年的時(shí)間里,一直持續(xù)引領(lǐng)著全球云計(jì)算領(lǐng)域的技術(shù)革新。 那么問(wèn)題就來(lái)了:作為一家將創(chuàng)新寫(xiě)入DNA的科技企業(yè),亞馬遜云科技持續(xù)不斷創(chuàng)新的源動(dòng)力究竟從何而來(lái)? 為了形象地闡述這個(gè)問(wèn)題,Peter DeSantis用亞馬遜雨林的“樹(shù)根”來(lái)對(duì)亞馬遜云科技的企業(yè)文化進(jìn)行了比喻。不是所有的樹(shù)都有樹(shù)根,然而一棵枝繁葉茂的參天大樹(shù),必然有著扎進(jìn)土壤深處的根系,才能保證樹(shù)木即使在惡劣的環(huán)境下也能茁壯成長(zhǎng)。 “亞馬遜雨林的扶壁根系,支撐著世界上最大的樹(shù)木生長(zhǎng)在并不穩(wěn)定的土壤系統(tǒng)中。扶根可以從一棵樹(shù)的底部延伸數(shù)百英尺,并與附近的樹(shù)木互鎖構(gòu)成一個(gè)堅(jiān)實(shí)的基礎(chǔ),來(lái)支撐這些巨大的雨林?!盤(pán)eter DeSantis說(shuō)道,“而亞馬遜云科技最獨(dú)特的事情之一,是我們的領(lǐng)導(dǎo)者能夠在細(xì)節(jié)上花費(fèi)大量時(shí)間精力,去了解客戶(hù)和服務(wù)真正發(fā)生了什么事情,從而能夠快速做出決定,甚至有可能在問(wèn)題發(fā)生之前就解決或預(yù)防它們?!?/p> Peter DeSantis指出,亞馬遜云科技的文化是獨(dú)一無(wú)二的,它幫助企業(yè)在擴(kuò)大規(guī)模的同時(shí),還能夠保持對(duì)安全性能、運(yùn)營(yíng)效率、成本和創(chuàng)新的堅(jiān)定關(guān)注,為客戶(hù)帶來(lái)不斷提升的云計(jì)算服務(wù)與用戶(hù)體驗(yàn)。 不斷升級(jí)的云計(jì)算基礎(chǔ)設(shè)施 通過(guò)在自研芯片和系統(tǒng)等領(lǐng)域持續(xù)不斷的創(chuàng)新,亞馬遜云科技在云計(jì)算運(yùn)營(yíng)性能、安全、成本等方面也積累了獨(dú)特能力和核心優(yōu)勢(shì)。 亞馬遜云科技計(jì)算與網(wǎng)絡(luò)副總裁David Brown指出,作為亞馬遜云科技旗下的自研芯片系列之一,2018年推出的第一代Amazon Graviton系列芯片就提供了足以媲美x86的優(yōu)異性能;隨后的Amazon Graviton2更是在廣泛的工作負(fù)載類(lèi)型中實(shí)現(xiàn)了對(duì)x86的反超;Amazon Graviton3可以為Nginx等工作負(fù)載提供高達(dá)60%的性能提升;作為迄今為止性能最強(qiáng)大的Graviton芯片,Graviton4的vCPU數(shù)量是Graviton3的3倍,計(jì)算性能也較上一代芯片提升了30%。 “在過(guò)去的兩年中,亞馬遜云科技數(shù)據(jù)中心有超過(guò)50%的新增CPU算力都運(yùn)行在Graviton之上,比其他所有類(lèi)型的CPU加起來(lái)還要多?!盌avid Brown表示。 談到Amazon Nitro系統(tǒng)時(shí),David Brown表示,Nitro系統(tǒng)通過(guò)將大部分虛擬化功能卸載到專(zhuān)用硬件芯片上,極大簡(jiǎn)化了虛擬機(jī)監(jiān)控程序,消除了傳統(tǒng)虛擬化的性能開(kāi)銷(xiāo)。為了確保整個(gè)硬件供應(yīng)鏈的安全性,Nitro引入了硬件完整性的驗(yàn)證管控機(jī)制,從芯片制造階段開(kāi)始就對(duì)每個(gè)硬件組件進(jìn)行加密認(rèn)證,從根本上防止了硬件層面的攻擊和篡改。 David Brown指出,如果將Nitro系統(tǒng)與Graviton4芯片配合,即可創(chuàng)建一個(gè)相互鎖定的信任網(wǎng)絡(luò),使CPU到CPU、CPU到Nitro芯片的所有連接,都可以由硬件提供安全保護(hù)。此外在存儲(chǔ)驅(qū)動(dòng)器中嵌入Nitro卡,還可以實(shí)現(xiàn)存儲(chǔ)和計(jì)算分離的架構(gòu),使得計(jì)算和存儲(chǔ)資源能夠獨(dú)立擴(kuò)展,從而在滿(mǎn)足擴(kuò)容需求的同時(shí),還可以減少故障范圍,加快恢復(fù)速度,提高存儲(chǔ)服務(wù)的敏捷性、可靠性和效率。 AI基礎(chǔ)設(shè)施的創(chuàng)新 在生成式AI大潮席卷全球的今天,亞馬遜云科技在AI基礎(chǔ)設(shè)施領(lǐng)域的創(chuàng)新,也理所當(dāng)然地成為了業(yè)界人士關(guān)注的焦點(diǎn)。 Peter DeSantis在主題演講中指出,伴隨著工作負(fù)荷的不斷增加,人工智能中巨量的計(jì)算負(fù)載并不能完全通過(guò)橫向擴(kuò)展(Scale out)資源來(lái)解決,而是也需要縱向擴(kuò)展單個(gè)計(jì)算單元的能力(Scale up)。如果只是單純添加服務(wù)器的話(huà),用戶(hù)不會(huì)發(fā)現(xiàn)計(jì)算變得更快,而只是增加了成本。 強(qiáng)調(diào)了數(shù)據(jù)并行性的限制之后,Peter DeSantis提出了構(gòu)建AI基礎(chǔ)設(shè)施的兩個(gè)基本支柱:“第一,因?yàn)槲覀冇袕娜蚺恳?guī)模擴(kuò)展的限制,我們可以通過(guò)購(gòu)買(mǎi)更強(qiáng)大的服務(wù)器,來(lái)構(gòu)建更大的AI模型,這是AI基礎(chǔ)設(shè)施挑戰(zhàn)的擴(kuò)展部分;第二,盡管在構(gòu)建AI模型時(shí)存在擴(kuò)展的限制,但是我們?nèi)匀粡臉?gòu)建這些非常大的集群中獲得了很多價(jià)值,為了做好這一點(diǎn),我們需要利用多年來(lái)一直在構(gòu)建的擴(kuò)展工具,譬如高效的數(shù)據(jù)中心、快速的擴(kuò)展、強(qiáng)大的網(wǎng)絡(luò)等等?!?/p> Amazon Trainium2實(shí)例正式可用 作為亞馬遜云科技旗下的自研芯片系列之一,專(zhuān)門(mén)為AI工作負(fù)載而設(shè)計(jì)的Amazon Trainium系列芯片,也因?yàn)榻陙?lái)生成式AI的炙手可熱而備受關(guān)注。在本屆re:Invent大會(huì)上,Peter DeSantis也宣布基于Amazon Trainium2的Amazon Elastic Compute Cloud(Amazon EC2)Trn2實(shí)例正式可用,同時(shí)還推出了全新的Amazon EC2 Trn2 UltraServers,讓用戶(hù)能夠以?xún)?yōu)越的性?xún)r(jià)比訓(xùn)練和部署最新的AI模型,以及未來(lái)的大語(yǔ)言模型(LLM)和基礎(chǔ)模型(FM)。 Trainium2采用了先進(jìn)的封裝技術(shù),將計(jì)算芯片和高帶寬內(nèi)存(HBM)模塊集成在一個(gè)緊湊的封裝內(nèi),實(shí)現(xiàn)了CPU和內(nèi)存的無(wú)縫集成,不僅提高了性能,降低了延遲,而且數(shù)據(jù)交換也更加高效,同時(shí)還減少了電壓,提高了能效。 與當(dāng)前基于GPU的EC2 P5e和P5en實(shí)例相比,Amazon EC2 Trn2實(shí)例的性?xún)r(jià)比提升30-40%,配備了16個(gè)Trainium2芯片,可提供高達(dá)20.8萬(wàn)億次每秒浮點(diǎn)算力的性能,非常適合訓(xùn)練和部署具有數(shù)十億參數(shù)的大型語(yǔ)言模型(LLMs)。而Amazon EC2 Trn2 UltraServers更是配備了64個(gè)Trainium2芯片,采用亞馬遜云科技專(zhuān)有的NeuronLink超速互連技術(shù),可提供高達(dá)83.2萬(wàn)億次每秒浮點(diǎn)算力,其計(jì)算、內(nèi)存和網(wǎng)絡(luò)能力是單一實(shí)例的四倍,能夠支持訓(xùn)練和部署超大規(guī)模的模型。 “過(guò)去我一直想把硬件帶到舞臺(tái)上,但是每年都被說(shuō)服放棄這一想法。但是今年為了向你們展示什么是超級(jí)服務(wù)器,我把它帶到了舞臺(tái)上。它能夠提供比任何當(dāng)前的EC2 AI服務(wù)器還要多5倍的計(jì)算容量和10倍的內(nèi)存。這就是你要建立一個(gè)萬(wàn)億參數(shù)AI模型所需要的服務(wù)器?!盤(pán)eter DeSantis說(shuō)道。 Amazon Bedrock低延遲優(yōu)化推理 對(duì)于許多企業(yè)和開(kāi)發(fā)者來(lái)說(shuō),Amazon Bedrock無(wú)疑是他們擁抱生成式AI時(shí)的最佳助手。通過(guò)這項(xiàng)完全托管的服務(wù),用戶(hù)可以非常方便地調(diào)用來(lái)自AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Mistral AI以及亞馬遜云科技的高性能基礎(chǔ)模型(FM),以及通過(guò)安全性、隱私性和負(fù)責(zé)任的AI構(gòu)建生成式AI應(yīng)用程序所需的一系列功能,使用自己的數(shù)據(jù)來(lái)構(gòu)建私人訂制的生成式AI應(yīng)用。 在本屆re:Invent大會(huì)上,Peter DeSantis宣布Amazon Bedrock推出了一項(xiàng)新的低延遲優(yōu)化推理功能。它讓用戶(hù)能夠訪(fǎng)問(wèn)亞馬遜云科技最新的AI基礎(chǔ)設(shè)施和軟件優(yōu)化技術(shù),從而在各種領(lǐng)先的模型上獲得最佳的推理性能。 與此同時(shí),亞馬遜云科技還與Anthropic合作推出了AI模型Claude 3.5的低延遲優(yōu)化版本,通過(guò)低延遲模式運(yùn)行Claude Haiku可提速60%。Anthropic聯(lián)合創(chuàng)始人兼首席計(jì)算官Tom Brown還宣布,下一代Claude模型將在Project Rainier上訓(xùn)練。這個(gè)集成了數(shù)十萬(wàn)個(gè)Trn2芯片的集群運(yùn)算能力是以往集群的5倍多,客戶(hù)可以用更低價(jià)格、更快速度使用更高智能的模型。 構(gòu)建更大更強(qiáng)的AI集群網(wǎng)絡(luò) 談到如何構(gòu)建大規(guī)模AI集群,Peter DeSantis認(rèn)為網(wǎng)絡(luò)是一大關(guān)鍵因素。飛速發(fā)展的生成式AI和大模型,需要更大的網(wǎng)絡(luò)帶寬,更快的獲取網(wǎng)絡(luò)資源,以及更高的可靠性。這也對(duì)網(wǎng)絡(luò)提出了更高的要求。 為了解決這一問(wèn)題,亞馬遜云科技開(kāi)發(fā)出了面向大規(guī)模AI集群的網(wǎng)絡(luò)架構(gòu)“10p10u網(wǎng)絡(luò)”。該網(wǎng)絡(luò)架構(gòu)支持對(duì)超級(jí)服務(wù)器進(jìn)行集群,因而被用于驅(qū)動(dòng)基于UltraSever或NVIDIA節(jié)點(diǎn)構(gòu)建的大規(guī)模計(jì)算集群,為數(shù)以千計(jì)的計(jì)算節(jié)點(diǎn)之間提供數(shù)十PB/s的網(wǎng)絡(luò)帶寬,延遲低于10微秒。大規(guī)模并行和高密度互連的特點(diǎn),使得“10p10u網(wǎng)絡(luò)”可以非常方便地從少量機(jī)架快速擴(kuò)展到跨越多個(gè)數(shù)據(jù)中心的大規(guī)模集群,具備極佳的彈性。 “'10p10u網(wǎng)絡(luò)’是有史以來(lái)規(guī)模最快的網(wǎng)絡(luò),其斜坡對(duì)我們來(lái)說(shuō)也是前所未有。在過(guò)去的12個(gè)月里我們安裝了超過(guò)300萬(wàn)個(gè)鏈接,這甚至是在許多人開(kāi)始關(guān)注我們的培訓(xùn)之前?!盤(pán)eter DeSantis說(shuō)道。同時(shí)他還表示,通過(guò)在Graviton、Nitro、存儲(chǔ)、網(wǎng)絡(luò)等核心領(lǐng)域的持續(xù)投資和創(chuàng)新,亞馬遜云科技正在構(gòu)建更大、更強(qiáng)的AI服務(wù)器集群,以更好地滿(mǎn)足客戶(hù)的需求。 |
|
來(lái)自: 趣味科技 > 《待分類(lèi)》