《科創(chuàng)板日?qǐng)?bào)》2月20日訊芯片推理速度較英偉達(dá)GPU提高10倍、成本只有其1/10;運(yùn)行的大模型生成速度接近每秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的速度——短短幾天,一家名為Groq的初創(chuàng)公司在AI圈爆火。 Groq讀音與馬斯克的聊天機(jī)器人Grok極為接近,成立時(shí)間卻遠(yuǎn)遠(yuǎn)早于后者。其成立于2016年,定位為一家人工智能解決方案公司。 在Groq的創(chuàng)始團(tuán)隊(duì)中,有8人來自僅有10人的谷歌早期TPU核心設(shè)計(jì)團(tuán)隊(duì)。例如,Groq創(chuàng)始人兼CEO Jonathan Ross設(shè)計(jì)并實(shí)現(xiàn)了TPU原始芯片的核心元件,TPU的研發(fā)工作中有20%都由他完成,之后他又加入Google X快速評(píng)估團(tuán)隊(duì),為谷歌母公司Alphabet設(shè)計(jì)并孵化了新Bets。 打開鳳凰新聞,查看更多高清圖片 雖然團(tuán)隊(duì)脫胎于谷歌TPU,但Groq既沒有選擇TPU這條路,也沒有看中GPU、CPU等路線。Groq選擇了一個(gè)全新的系統(tǒng)路線——LPU(Language Processing Unit,語言處理單元)。 “我們(做的)不是大模型,”Groq表示,“我們的LPU推理引擎是一種新型端到端處理單元系統(tǒng),可為AI大模型等計(jì)算密集型應(yīng)用提供最快的推理速度?!?/p> 從這里不難看出,“速度”是Groq的產(chǎn)品強(qiáng)調(diào)的特點(diǎn),而“推理”是其主打的細(xì)分領(lǐng)域。 Groq也的確做到了“快”,根據(jù)Anyscale的LLMPerf排行顯示,在Groq LPU推理引擎上運(yùn)行的Llama 2 70B,輸出tokens吞吐量快了18倍,由于其他所有云推理供應(yīng)商。 第三方機(jī)構(gòu)artificialanalysis.ai給出的測評(píng)結(jié)果也顯示,Groq的吞吐量速度稱得上是“遙遙領(lǐng)先”。 為了證明自家芯片的能力,Groq還在官網(wǎng)發(fā)布了免費(fèi)的大模型服務(wù),包括三個(gè)開源大模型,Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K,目前前兩個(gè)已開放使用。 圖|Groq(Llama 2)對(duì)比ChatGPT(來源:X用戶JayScambler) LPU旨在克服兩個(gè)大模型瓶頸:計(jì)算密度和內(nèi)存帶寬。據(jù)Groq介紹,在 LLM 方面,LPU較GPU/CPU擁有更強(qiáng)大的算力,從而減少了每個(gè)單詞的計(jì)算時(shí)間,可以更快地生成文本序列。此外,由于消除了外部內(nèi)存瓶頸,LPU推理引擎在大模型上的性能比GPU高出幾個(gè)數(shù)量級(jí)。 據(jù)悉,Groq芯片完全拋開了英偉達(dá)GPU頗為倚仗的HBM與CoWoS封裝,其采用14nm制程,搭載230MB SRAM,內(nèi)存帶寬達(dá)到80TB/s。算力方面,其整型(8位)運(yùn)算速度為750TOPs,浮點(diǎn)(16位)運(yùn)算速度為188TFLOPs。 值得注意的是,“快”是Groq芯片主打的優(yōu)點(diǎn),也是其使用的SRAM最突出的強(qiáng)項(xiàng)之一。 SRAM是目前讀寫最快的存儲(chǔ)設(shè)備之一,但其價(jià)格昂貴,因此僅在要求苛刻的地方使用,譬如CPU一級(jí)緩沖、二級(jí)緩沖。 華西證券指出,可用于存算一體的成熟存儲(chǔ)器有Nor Flash、SRAM、DRAM、RRAM、MRAM等。其中,SRAM在速度方面和能效比方面具有優(yōu)勢,特別是在存內(nèi)邏輯技術(shù)發(fā)展起來之后,具有明顯的高能效和高精度特點(diǎn)。SRAM、RRAM有望成為云端存算一體主流介質(zhì)。 |
|