在生成式 AI 越來越被看好和競(jìng)相追逐的當(dāng)下,它的更廣泛落地,需要在終端側(cè)做大做優(yōu)做強(qiáng)。 如今,距離 OpenAI 發(fā)布 ChatGPT 已近 10 個(gè)月的時(shí)間了,由它引發(fā)的生成式 AI 浪潮讓普通人「更近地」感知到了人工智能的魅力。無論是大模型賦能的聊天式即時(shí)搜索引擎、還是輸入文本就能生成圖片的繪畫工具,生成式 AI 已經(jīng)慢慢走進(jìn)并潛移默化地改變?nèi)藗兊娜粘9ぷ?、娛樂、?chuàng)作習(xí)慣。伴隨大模型和生成式 AI 而來,手機(jī)和芯片廠商們正大張旗鼓地進(jìn)行著一場(chǎng)「終端側(cè)革命」。今年 5 月,谷歌發(fā)布大語言模型 PaLM 2,其中包括可以在移動(dòng)設(shè)備端運(yùn)行的輕量級(jí)版本 Gecko。同樣是 5 月,高通發(fā)布《混合 AI 是 AI 的未來》白皮書。8 月,小米雷軍宣布全面擁抱大模型,成功在手機(jī)端初步跑通 13 億參數(shù)大模型,小愛同學(xué)也迎來大模型能力升級(jí)。我們不禁要問,大廠們?yōu)楹螤?zhēng)相將通用及生成式 AI 大模型放進(jìn)終端尤其是手機(jī)上呢?我們知道,智能手機(jī)、PC、XR、汽車等智能終端產(chǎn)品離普通人最近,尤其是手機(jī),我們花在它身上的時(shí)間越來越多。2023 年 4 月,市場(chǎng)調(diào)研機(jī)構(gòu) Electronics Hub 發(fā)布了一份報(bào)告,顯示有些國(guó)家的用戶一天中盯著手機(jī)屏幕的時(shí)長(zhǎng)超過 7 小時(shí)。手機(jī)正逐漸演變?yōu)橹悄苌畹暮诵?,為發(fā)展終端側(cè)生成式 AI 準(zhǔn)備好了「溫床」。不過,生成式 AI 大模型如今向終端側(cè)的傾斜并非一蹴而就,在部署方式上正經(jīng)歷著從云到端云協(xié)同的轉(zhuǎn)變。終端與云端生成式 AI 并駕齊驅(qū)之勢(shì)日益凸顯我們知道,生成式 AI 大模型的參數(shù)動(dòng)輒數(shù)十億、數(shù)百乃至上千億,在模型訓(xùn)練優(yōu)化和執(zhí)行推理方面對(duì)基礎(chǔ)設(shè)施有極高的要求。最開始只有云端可以提供這樣龐大的 AI 算力,因而廠商們往往選擇在云端部署運(yùn)行自家大模型。以 ChatGPT 為例,它的訓(xùn)練和運(yùn)行需要大量的數(shù)據(jù)存儲(chǔ)和計(jì)算資源,海量用戶請(qǐng)求產(chǎn)生高昂的算力成本,這就需要強(qiáng)大的云服務(wù)平臺(tái)。用戶可以通過微軟 Azure OpenAI 云服務(wù)訪問 ChatGPT 及其他生成式 AI 產(chǎn)品(如 CodeX)。另一大云服務(wù)商亞馬遜也推出類似的生成式 AI 云托管服務(wù),用戶可以通過 API 訪問 AI21Labs、Anthropic 和 Stability AI 等初創(chuàng)公司的預(yù)訓(xùn)練基礎(chǔ)模型。顯然,云服務(wù)平臺(tái)加速了這股生成式 AI 技術(shù)浪潮席卷全球,為大模型廠商提供了滿足模型訓(xùn)練、推理所需的算力支撐。不過,大模型云端推理需要付出高昂的成本,并隨著用戶量及使用請(qǐng)求的日益增加,成本越來越高。這樣一來,面對(duì)持續(xù)增加的運(yùn)營(yíng)成本,廠商們需要在云端之外找出另一條路出來。隨著時(shí)間推移,一方面大模型壓縮技術(shù)(如量化、網(wǎng)絡(luò)剪枝和知識(shí)蒸餾)越來越豐富且效果越來越好,另一方面手機(jī)、PC、XR、汽車等智能終端設(shè)備擁有的 AI 算力不斷增強(qiáng),將生成式 AI 的部署到終端的技術(shù)條件迅速成熟。終端與云端并駕齊驅(qū)之勢(shì)日益凸顯。 科技大廠們敏銳地捕捉到了這些變化,才有了一系列在智能手機(jī)等終端上嘗試部署生成式 AI 大模型的舉動(dòng)。比如,ChatGPT iOS 和安卓版的推出讓普通用戶拿起手機(jī)便能體驗(yàn)生成式聊天對(duì)話,未來這樣的重要時(shí)刻會(huì)更多。此外相較于云端,在終端側(cè)部署運(yùn)行生成式 AI 還有成本、安全隱私、運(yùn)行可靠等幾方面的優(yōu)勢(shì)。首先是成本優(yōu)勢(shì)。此前曾有媒體報(bào)道,OpenAI 僅維持 ChatGPT 的運(yùn)行一天大約要燒掉 70 萬美元,這意味著在 ChatGPT 身上可能已花費(fèi)近 2 億美元。如此高昂的成本即使是 OpenAI 也吃不消,難以實(shí)現(xiàn)收支平衡,更不用說盈利了。終端側(cè)則不一樣,成本大大降低,壓縮后的輕量化模型部署只需支付硬件成本,不用考慮帶寬、能耗、網(wǎng)絡(luò)傳輸?shù)绕渌麊栴}。其次,終端側(cè)運(yùn)行生成式 AI 可以更放心地保護(hù)隱私數(shù)據(jù),不像云端那樣有信息泄露的潛在風(fēng)險(xiǎn)。這并不是杞人憂天,今年 4 月三星被曝出半導(dǎo)體部門員工在使用 ChatGPT 時(shí)將數(shù)據(jù)上傳到云端,導(dǎo)致機(jī)密數(shù)據(jù)泄露,隨后宣布禁用。終端運(yùn)行無需將文本、圖像、視頻等信息上傳至云端,很好地規(guī)避了這一風(fēng)險(xiǎn),盡量保證隱私不外泄,安全性得到增強(qiáng)。低延遲也是終端側(cè)一大優(yōu)勢(shì)。云端需要數(shù)據(jù)傳輸?shù)皆贫颂幚砗蟛拍芑貍鹘Y(jié)果,過程中網(wǎng)絡(luò)傳輸必然導(dǎo)致延遲。終端側(cè)不需要將信息上傳到云服務(wù)器或數(shù)據(jù)中心,響應(yīng)速度提升,延遲也減少。同時(shí)本地運(yùn)行更可靠,有時(shí)離線狀態(tài)下也能運(yùn)行,一定程度減少了對(duì)云服務(wù)和網(wǎng)絡(luò)連接的依賴。終端側(cè)還有相較于云端更豐富的應(yīng)用場(chǎng)景和情境信息,帶來更個(gè)性化的互動(dòng)和體驗(yàn)。用戶可以針對(duì)不同的應(yīng)用場(chǎng)景或者同一場(chǎng)景的不同需求微調(diào)和定制模型參數(shù)和功能,靈活性拉滿。憑借這些優(yōu)勢(shì),終端側(cè)部署生成式 AI 這條路越來越明晰,也更多地被擺在與云端同等重要的位置。正如先前高通公司全球副總裁侯明娟在《混合 AI 是 AI 的未來》白皮書線下發(fā)布會(huì)上所言,「終端側(cè) AI 是實(shí)現(xiàn)混合式 AI 架構(gòu)、擴(kuò)展生成式 AI 至全球更廣泛范圍的關(guān)鍵?!?/span>侯明娟 高通這樣說了,也是這樣做的。在這場(chǎng)關(guān)乎生成式 AI 的終端側(cè)革命中,高通率先吹起了號(hào)角,成為終端側(cè) AI 變革的核心推動(dòng)者之一,并在布局中形成了云端與終端協(xié)同工作的混合 AI 發(fā)展路線。這一路線選擇的背后更體現(xiàn)了高通在終端側(cè) AI 及生成式 AI 技術(shù)能力上的前瞻性和領(lǐng)導(dǎo)力。所謂混合 AI,它主要有兩種運(yùn)作方式:一是在一些場(chǎng)景下,計(jì)算主要以終端為中心,在必要時(shí)向云端分流任務(wù)。二是在以云為中心的場(chǎng)景下,終端基于自身能力在可能的情況下分擔(dān)云端的一些工作負(fù)載。云端與終端各司其能、相互輔助。相較僅在云端,混合 AI 的最大效益在于更高效地在不同場(chǎng)景和時(shí)間下分配協(xié)調(diào) AI 工作負(fù)載,提高資源利用效率,降低運(yùn)行成本。在高通的混合 AI 布局中,無論是以終端為中心、基于終端感知、還是終端與云端協(xié)同處理,都強(qiáng)調(diào)終端側(cè) AI 能力是賦能混合 AI、并讓生成式 AI 實(shí)現(xiàn)全球規(guī)模化擴(kuò)展的關(guān)鍵。尤其對(duì)于生成式 AI 而言,混合 AI 意味著要充分利用終端側(cè)算力支撐起生成式 AI 應(yīng)用,就像手機(jī)上的 ChatGPT 一樣。不過,在終端順利部署運(yùn)行生成式 AI 大模型說來容易、做來難,實(shí)現(xiàn)的前提要有強(qiáng)大的終端側(cè) AI 能力。作為上游芯片廠商,高通一直是終端側(cè) AI 的領(lǐng)導(dǎo)者,形成了從芯片到軟件到算法再到生態(tài)的全棧 AI 優(yōu)化,做到軟硬件都不拖后腿,實(shí)現(xiàn)終端側(cè) AI 推理加速。高通全棧 AI 優(yōu)化 首先在硬件芯片層面,從更早的旗艦平臺(tái)驍龍 888、第一代驍龍 8,到近一年來推出的高端第二代驍龍 7 和旗艦第二代驍龍 8,AI 能力持續(xù)演進(jìn)、增強(qiáng),端側(cè) AI 能力隨之提升。其中不斷升級(jí)的高通 AI 引擎(目前第八代)發(fā)揮重要作用,其 Hexagon 處理器、高通 Adreno GPU 和高通 Kryo CPU 面向終端側(cè)高效運(yùn)行 AI 應(yīng)用而打造,并通過異構(gòu)計(jì)算方式優(yōu)化終端側(cè) AI 用戶體驗(yàn)。今年 10 月即將推出的第三代驍龍 8 的 AI 算力預(yù)計(jì)將進(jìn)一步提升,到時(shí)能支持什么樣的終端側(cè) AI 功能讓我們更加地期待。在持續(xù)硬件加速之外,終端側(cè) AI 最大的挑戰(zhàn)在于軟件,要保證可以運(yùn)行各種神經(jīng)處理模型,運(yùn)算還要足夠快、足夠高效。高通 AI 軟件棧幫助開發(fā)者更高效地在硬件上創(chuàng)建、優(yōu)化和部署 AI 應(yīng)用,實(shí)現(xiàn)一次開發(fā)、多端部署應(yīng)用的效果。從下圖可以看到,該軟件棧從支持的 AI 框架、推理軟件開發(fā)包、開發(fā)者庫與服務(wù)、系統(tǒng)軟件以及操作系統(tǒng)等多個(gè)層面提升開發(fā)效率。高通 AI 軟件棧 此外,在算法和模型開發(fā)方面,其致力于在不犧牲準(zhǔn)確度的前提下提高效率,這方面有基于 Q-SRNet 模型的算法、INT4 量化解決方案等。比如,驍龍 8 Gen2 首次支持了 INT4 AI 精度格式,相較于 INT8 帶來 60% 的能效提升和 90% 的 AI 推理性能提升。高通在生態(tài)層面也持續(xù)發(fā)力,其在手機(jī)上的技術(shù)優(yōu)勢(shì)可以擴(kuò)展到汽車、PC、XR 和物聯(lián)網(wǎng)等其他終端。同時(shí)基于分布在各個(gè)領(lǐng)域的 IP 和技術(shù),高通能夠跨多個(gè)生態(tài)系統(tǒng)進(jìn)行深入合作,比如 PC 領(lǐng)域與微軟、XR 領(lǐng)域與 Meta,通過良好生態(tài)合作快速實(shí)現(xiàn)規(guī)?;瘮U(kuò)展。可以說,高通強(qiáng)大、全面的終端側(cè) AI 能力,尤其是能應(yīng)對(duì)生成式 AI 模型架構(gòu)潛在變化的 AI 硬件加速架構(gòu)和軟件棧,引領(lǐng)了終端側(cè) AI 推理,為生成式 AI 向終端擴(kuò)展打下了堅(jiān)實(shí)的技術(shù)基礎(chǔ),讓生成式 AI 應(yīng)用跑在手機(jī)等終端設(shè)備上成為可能。同時(shí)單就探索生成式 AI 而言,高通同樣具有前瞻性。從早期研究生成式 AI 模型的壓縮方式、利用 VAE 創(chuàng)建視頻和語音編解碼器將模型規(guī)??刂圃?1 億參數(shù)以下、到無線領(lǐng)域用生成式 AI 替代信道模型以提升手機(jī)通信效率,高通一直在有的放矢地推進(jìn)生成式 AI。當(dāng)然,成效也很顯著,近半年來高通在手機(jī)端運(yùn)行生成式 AI 大模型的新聞接連引發(fā)了熱議,包括運(yùn)行 10 億參數(shù)的 文生圖模型 Stable Diffusion、15 億參數(shù)的 圖像生成圖像模型 ControlNet 等。除了展示移動(dòng)端的 AI 繪畫能力,高通還在數(shù)字人等其他技術(shù)方向進(jìn)一步探索生成式 AI 能力的延展。手機(jī)端 ControlNet 在 12 秒內(nèi)完成渲染。 未來,高通基于積累的手機(jī)端運(yùn)行經(jīng)驗(yàn)加之 SoC 芯片算力的進(jìn)一步提升,更多參數(shù)模型的終端運(yùn)行指日可待。高通產(chǎn)品管理高級(jí)副總裁兼 AI 負(fù)責(zé)人 Ziad Asghar 接受采訪時(shí)就表示,本年度將能夠支持 100 億參數(shù)的生成式 AI 模型在手機(jī)上運(yùn)行。此外還將與 Meta 合作明年推出手機(jī)版 Llama 2。這些都讓生成式 AI 的未來更可期。在我們看來,終端側(cè) AI 最大的意義在于將生成式 AI 大模型在每個(gè)人的手中展示,對(duì)生成式 AI 的規(guī)?;瘮U(kuò)展和普及更加有利,也能創(chuàng)造商業(yè)效益。僅以生成式 AI 繪畫為例,如果能像前段時(shí)間火爆朋友圈的妙鴨相機(jī)一樣,手機(jī)端運(yùn)行生成式 AI 將產(chǎn)生無可估量的流量效應(yīng)。不過,高通布局生成式 AI,必然不是為了一時(shí)的流量效應(yīng),而是借助手機(jī)、移動(dòng) PC、XR 可穿戴設(shè)備、智能家居、汽車等所有可能成為生成式 AI 應(yīng)用的載體,通過更貼近用戶的方式,讓更多的人快捷、便利地享受 AI 新體驗(yàn)。正如其白皮書封面所言,「讓 AI 觸手可及」。高通,讓這一切不再遙遠(yuǎn)。自 ChatGPT 以來,生成式 AI 已成為不可阻擋的發(fā)展趨勢(shì)。鑒于其將為我們的生活帶來極大的便利,加速普及生成式 AI 勢(shì)在必行,好在高通已經(jīng)打好了基礎(chǔ)。我們了解到,高通深耕 AI 領(lǐng)域的時(shí)間已經(jīng)超過了 15 年,尤其在移動(dòng)計(jì)算領(lǐng)域形成了深厚的技術(shù)領(lǐng)導(dǎo)力。目前全世界有數(shù)十億臺(tái)搭載驍龍和高通平臺(tái)的智能終端設(shè)備,使得終端側(cè) AI 試錯(cuò)能力、生成式 AI 應(yīng)用潛力都達(dá)到了無與倫比的高度。與此同時(shí),通過讓終端側(cè) AI 賦能走得更廣更深,將生成式 AI 擴(kuò)展到更多領(lǐng)域與場(chǎng)景,既能帶給普通用戶更多樣化、更好玩、更便捷的 AI 體驗(yàn),又可能為其智能終端生態(tài)伙伴創(chuàng)造更多市場(chǎng)商機(jī),真正釋放其價(jià)值。對(duì)高通而言,終端側(cè)生成式 AI 還有更為深遠(yuǎn)的意義。在此次服貿(mào)會(huì)數(shù)字貿(mào)易發(fā)展趨勢(shì)和前沿高峰論壇上,高通公司中國(guó)區(qū)董事長(zhǎng)孟樸發(fā)表了主題演講,其中強(qiáng)調(diào)與全球生態(tài)系統(tǒng)密切合作,共同探索由 5G、AI、物聯(lián)網(wǎng)等技術(shù)帶來的全新移動(dòng)應(yīng)用和體驗(yàn)。作為當(dāng)前站在風(fēng)口的生成式 AI 技術(shù),它的強(qiáng)弱、多寡、難易將很大程度決定這些能否順利實(shí)現(xiàn)。生成式 AI 在終端側(cè)的運(yùn)行勢(shì)在必行,如高通這樣的生態(tài)和用戶賦能型企業(yè)也必將憑實(shí)力脫穎而出。
|