笑容 2023-03-23 19:05:53 本篇文章轉(zhuǎn)自楊長雍大佬的分析。 理解chatgpt人工智能大浪潮帶來的真正產(chǎn)業(yè)機(jī)會(huì),首先要深刻理解李彥宏前段那段話: 李彥宏表示大模型時(shí)代將產(chǎn)生三大產(chǎn)業(yè)機(jī)會(huì):通用大模型、行業(yè)大模型、應(yīng)用。一是MAAS通用大模型。OPENAI公司做出的Chatgpt、百度公司做出的文心一言都屬于這種。通用大模型在Chatgpt出現(xiàn)之前,很多研究者都認(rèn)為這個(gè)方向走不通,OPENAI解決了從0到1的問題,現(xiàn)在越來越多的大公司都加入進(jìn)來開始攻關(guān)了,通用大模型的研發(fā)已經(jīng)成為各國新一輪技術(shù)競爭的核心領(lǐng)域。 通用大模型需要龐大的算力、數(shù)據(jù)、算法訓(xùn)練做支撐,是燒錢的活,只有超級(jí)大公司能做。OPENAI背后微軟投資了上百億美金,在中國也只有百度、騰訊、阿里、360這些既有數(shù)據(jù)又有錢又有人的公司才能做。 通用大模型類似于互聯(lián)網(wǎng)時(shí)代的操作系統(tǒng),比如WINDOWS、安卓、IOS操作系統(tǒng),是人工智能的底座,實(shí)際上是不會(huì)同時(shí)存在太多的。因?yàn)楸旧肀趬緲O高,先發(fā)者又保有優(yōu)勢,相互競爭會(huì)非常激烈,最終只會(huì)剩下幾家大的,就看誰做的最好。目前中國最早推出的通用大模型是百度的文心一言,阿里、百度等大公司也不得不跟進(jìn)人工智能這次科技革命,相信未來中國也會(huì)有幾家通用大模型。 通用大模型的運(yùn)行和服務(wù)都在云上,通用大模型公司就是服務(wù)本身,文心一言通過百度智能云對外提供服務(wù),chatGPT通過微軟云對外提供服務(wù),這對云計(jì)算的要求很高,模型、框架、芯片、應(yīng)用必須高度融合。 這個(gè)方向存在很多的投資機(jī)會(huì),比如AI芯片、算力、云計(jì)算、光通信、大模型本身,但不是今天討論的重點(diǎn)。 二是行業(yè)大模型,即細(xì)分垂直行業(yè)大模型。這是通用大模型和企業(yè)之間的中間層。他們可以基于對行業(yè)的洞察,調(diào)用通用大模型能力,為行業(yè)客戶提供解決方案。拓爾思就是媒體資訊、網(wǎng)絡(luò)輿情、產(chǎn)業(yè)大腦等多個(gè)細(xì)分領(lǐng)域的行業(yè)大模型,這個(gè)是今天討論的重點(diǎn),后面再說。 三是應(yīng)用開發(fā)。基于現(xiàn)有的文字、圖片、語音視頻生成的能力可以開發(fā)出今天還無法想象的應(yīng)用。在 AI時(shí)代、在大模型時(shí)代,也會(huì)出現(xiàn)這種現(xiàn)象級(jí)的應(yīng)用,只不過它是基于大模型來開發(fā)的。很久前分析的萬興科技就是這一類應(yīng)用的代表。 高質(zhì)量行業(yè)大模型不可或缺,意義十分重大,是人工智能商業(yè)化落地的基礎(chǔ)。 通用大模型作為操作系統(tǒng),雖然有良好的泛化能力,能嫁接到所有的行業(yè)和公司上面,但是也有2個(gè)非常明顯的缺點(diǎn):一是知識(shí)覆蓋面廣但是深度不夠。二是在匹配下游企業(yè)具體需求上不精準(zhǔn)。 造成這2個(gè)缺點(diǎn)的原因大家可能都清楚。一是行業(yè)數(shù)據(jù)壁壘。比如在金融、政府、媒體、醫(yī)療等特定領(lǐng)域的知識(shí)并不公開,開放度很低,有些還涉及保密,通用大模型沒有辦法獲取這些數(shù)據(jù)并進(jìn)行訓(xùn)練,就不具備對專業(yè)業(yè)務(wù)場景的理解能力。二是不同行業(yè)不同企業(yè)的需求各不相同,通用大模型只能提供通用的場景應(yīng)用,沒有辦法對接所有企業(yè)來進(jìn)行深度適配,商業(yè)化就無法精準(zhǔn)落地。 所以,李彥宏說,當(dāng)通用大模型面向某一個(gè)行業(yè)進(jìn)行精調(diào),就會(huì)更好地解決某個(gè)行業(yè)的問題,吃的比較透,它就可以服務(wù)相應(yīng)行業(yè)很多的企業(yè)或者組織。大模型商業(yè)化落地的基本條件是具備能精準(zhǔn)適配下游場景任務(wù),且保證結(jié)果高效、可控、合規(guī)的“高質(zhì)量”行業(yè)大模型。 怎么樣生成一個(gè)高質(zhì)量的行業(yè)大模型呢?——那就是在通用大模型的基礎(chǔ)上,利用行業(yè)數(shù)據(jù)進(jìn)一步訓(xùn)練生產(chǎn)行業(yè)大模型,并對行業(yè)大模型調(diào)優(yōu)實(shí)現(xiàn)。這其中,對通用大模型“再訓(xùn)練”、“調(diào)優(yōu)”形成高質(zhì)量行業(yè)大模型的兩個(gè)基本動(dòng)作,也決定了廠商必備的三大能力:豐富的行業(yè)數(shù)據(jù)積累、大模型調(diào)優(yōu)能力、AI工程化。 首先,行業(yè)數(shù)據(jù)是基礎(chǔ)。數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時(shí)代最寶貴的資產(chǎn),是糧食。行業(yè)數(shù)據(jù)搜索引擎上搜不到,買不到,必須靠長時(shí)間的積累。這是有極高的壁壘的,只有長期為細(xì)分領(lǐng)域提供數(shù)據(jù)服務(wù)的公司才能獲得全面真實(shí)深度有效的數(shù)據(jù),而這種數(shù)據(jù)能快速提升行業(yè)大模型學(xué)習(xí)能力,并不斷拉開與后來者之間的差距,為廠商帶來先發(fā)優(yōu)勢。 然后,必須具備大模型調(diào)優(yōu)能力。大模型調(diào)優(yōu)能力需要具備領(lǐng)先的深度學(xué)習(xí)/NLP技術(shù)積累/知識(shí)圖譜/搜索引擎等多方面的人工智能能力,這一點(diǎn)只有極少數(shù)的公司才具備。 最后,AI工程化能力。AI工程化是指提供AI應(yīng)用開發(fā)的系列方法、工具和實(shí)踐集合,形成快速測試、構(gòu)建和部署AI應(yīng)用開發(fā)流水線,加速AI應(yīng)用落地過程,實(shí)現(xiàn)模型自動(dòng)重新訓(xùn)練和部署。行業(yè)大模型只解決了大模型“可用”的問題,若想AI成為企業(yè)的生產(chǎn)力,還需要解決大模型“落地”的工程化問題,否則落地效率、周期會(huì)遠(yuǎn)超預(yù)期。 AI工程化能力涉及兩個(gè)方面:1)通過分布式訓(xùn)練提升計(jì)算效率,解決大模型大體量參數(shù)、復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)帶來的內(nèi)存、通訊以及計(jì)算瓶頸;2)實(shí)現(xiàn)模型開發(fā)過程的持續(xù)生產(chǎn)、持續(xù)交付和持續(xù)部署。一方面,需要將定制化解決方案經(jīng)驗(yàn)沉淀形成標(biāo)準(zhǔn)化產(chǎn)品,實(shí)現(xiàn)產(chǎn)品與服務(wù)的規(guī)?;铀偕虡I(yè)化落地效率;另一方面,也需要完善AI開發(fā)生命周期的工具、固化開發(fā)流程,提高模型開發(fā)全流程的緊耦合度,提升大模型訓(xùn)練效率。 拓爾思正在打造高質(zhì)量的行業(yè)大模型,提供行業(yè)大模型到智能應(yīng)用的一體化服務(wù),為什么相信他能夠成功并實(shí)現(xiàn)價(jià)值呢? 首先,要確定拓爾思正在干這個(gè)事,并且即將推出系列產(chǎn)品。拓爾思機(jī)構(gòu)調(diào)研時(shí)表示,將積極擁抱大模型發(fā)展,基于通用AIGC大模型,專注優(yōu)勢行業(yè)進(jìn)行專業(yè)大模型的研發(fā),融合學(xué)習(xí)行業(yè)特有的大數(shù)據(jù)和知識(shí),提升大模型對行業(yè)應(yīng)用的適配性。公司也將以預(yù)訓(xùn)練大模型、In-Context Learning、instruction tuning等技術(shù)為基礎(chǔ),將公司自主研發(fā)的文本生成、交互式生成、跨模態(tài)生成、小樣本學(xué)習(xí)、大模型與外部知識(shí)庫的融合等功能作為研發(fā)重點(diǎn),突破基于大模型的AIGC關(guān)鍵技術(shù),在問答式AI、智能創(chuàng)作、搜索引擎等領(lǐng)域?qū)崿F(xiàn)成功應(yīng)用。 對于底層的通用大模型,拓爾思表示將通過生態(tài)合作的方式獲取,拓爾思本身是阿里云、騰訊云的深度合作伙伴,除了百度的大模型之外,未來阿里、騰訊大模型出來后也是很容易合作的。對于行業(yè)大模型和應(yīng)用則會(huì)自主研發(fā)。 然后,拓爾思有這個(gè)能力和基礎(chǔ)。一是有海量專業(yè)高壁壘的數(shù)據(jù)資產(chǎn)。拓爾思過去30年,主營業(yè)務(wù)就是大數(shù)據(jù)軟件產(chǎn)品及服務(wù)、人工智能產(chǎn)品及服務(wù),2022年前三季度營收占比達(dá)到了72%,凈利潤超過1個(gè)億。公司于2010年自建大數(shù)據(jù)中心,至今已經(jīng)積累了1300億以上的數(shù)據(jù)總量,并以日均億級(jí)數(shù)據(jù)的速度持續(xù)增加。 拓爾思的主要客戶是ZF機(jī)構(gòu)和8000多家企業(yè),覆蓋ZF、金融、能源、傳媒等多個(gè)領(lǐng)域,均為行業(yè)頭部機(jī)構(gòu),如GJ知識(shí)產(chǎn)權(quán)局、南方電網(wǎng)、中國銀行、平安集團(tuán)、科技日報(bào)等。 公司在數(shù)字ZF和公共服務(wù)領(lǐng)域的“產(chǎn)品+云服務(wù)+解決方案”已經(jīng)覆蓋80%的ZY和GWY機(jī)構(gòu)、60%的省級(jí)政府和50%的地市政府。公司以內(nèi)容智能為核心的融媒體行業(yè)服務(wù)已經(jīng)覆蓋72%的ZY媒體、61%的省級(jí)媒體和40%的行業(yè)媒體機(jī)構(gòu)用戶。 比如,媒體資訊領(lǐng)域的“數(shù)家資訊大數(shù)據(jù)服務(wù)平臺(tái)”通過聚焦傳媒領(lǐng)域的數(shù)據(jù)場景云服務(wù),覆蓋了數(shù)百家媒體機(jī)構(gòu)用戶,成為媒體大數(shù)據(jù)的國內(nèi)市場占有率第一。 通過多年的積累,拓爾思形成了超過30個(gè)專業(yè)領(lǐng)域的數(shù)據(jù)庫資產(chǎn),如語義分析知識(shí)庫、專利知識(shí)庫、媒體知識(shí)庫、金融知識(shí)庫等,覆蓋媒體服務(wù)、輿情服務(wù)、金融風(fēng)控、產(chǎn)業(yè)投研、金融監(jiān)管、智能消保、開源情報(bào)、政務(wù)應(yīng)用等8大業(yè)務(wù)場景。 公司的重要產(chǎn)品,搜索性數(shù)據(jù)庫“海貝”是一款從內(nèi)核到系統(tǒng)完全國產(chǎn)自研的搜索型數(shù)據(jù)庫,已經(jīng)服務(wù)于安全大數(shù)據(jù)、媒體大數(shù)據(jù)、ZF大數(shù)據(jù)以及J隊(duì)大數(shù)據(jù)等眾多細(xì)分行業(yè),擁有GJ市場監(jiān)督管理總局、HG總署、ZL局、商標(biāo)局等一系列客戶。在GJ層面,幾個(gè)重大的基礎(chǔ)數(shù)據(jù)庫,例如云搜系統(tǒng)、企業(yè)信用信息公示系統(tǒng)、專利檢索系統(tǒng)等都構(gòu)建在海貝之上。目前海貝已完成與龍芯、海光、飛騰、鯤鵬等國產(chǎn)芯片以及中標(biāo)麒麟、統(tǒng)信UOS等國產(chǎn)操作系統(tǒng)的適配工作,完全滿足信創(chuàng)要求和國產(chǎn)化替換需求。以信用中國項(xiàng)目為例,該項(xiàng)目由FGW、人民YH指導(dǎo),GJ信息中心主辦。原來在某云平臺(tái)上由ElasticSearch對外提供檢索服務(wù),2018年遷移至公司“TRS海貝大數(shù)據(jù)管理系統(tǒng)”上,目前海貝在該項(xiàng)目中每秒需要支持大約1.2萬的并發(fā)檢索,日訪問量接近10億,獲得了用戶的高度認(rèn)可。海貝搜索引擎就類似互聯(lián)網(wǎng)上的百度、360搜索引擎,源源不斷的將這些保密行業(yè)的數(shù)據(jù)積累起來。 這些數(shù)據(jù)資源基于拓爾思自研的數(shù)據(jù)底座經(jīng)過采集、清洗、轉(zhuǎn)換、分類、打標(biāo)等流程完成基礎(chǔ)數(shù)據(jù)治理后,與不同行業(yè)知識(shí)模型融合處理,被加工成數(shù)據(jù)資產(chǎn)進(jìn)入到數(shù)據(jù)流通與交易環(huán)節(jié)。這些數(shù)據(jù)資產(chǎn)可用作大模型的訓(xùn)練語料,具備高質(zhì)量、高價(jià)值的特點(diǎn),有利于提升大模型的專業(yè)性與精準(zhǔn)度。 這些數(shù)據(jù)都是極其珍貴、很難獲取的,將形成非常高的壁壘,其他企業(yè)很難有這個(gè)基礎(chǔ)。 二是有很強(qiáng)的大模型調(diào)優(yōu)能力。拓爾思充分利用過往在NLP領(lǐng)域的工程技術(shù)積累,能基于行業(yè)場景任務(wù)對大模型進(jìn)行校對和優(yōu)化,使大模型高效適配行業(yè)場景,模型推理效果滿足客戶需求。 拓爾思長期聚焦知識(shí)圖譜、自然語言處理(NLP)等語義智能核心技術(shù),將通用預(yù)訓(xùn)練大模型與傳統(tǒng)NLP技術(shù)相結(jié)合,利用行業(yè)Know-How,根據(jù)不同場景,通過對通用大模型進(jìn)行調(diào)整和優(yōu)化(Fine-tuning)來適配不同指標(biāo),獲得不同行業(yè)客戶側(cè)重的準(zhǔn)確率、召回率、綜合F1值等指標(biāo),形成行業(yè)化的“專業(yè)大模型”,進(jìn)一步優(yōu)化結(jié)果可控性,更好地服務(wù)于用戶的具體場景和需求。 拓爾思已經(jīng)具備350余個(gè)專業(yè)領(lǐng)域深度學(xué)習(xí)算法模型,包括NLP通用模型和專業(yè)領(lǐng)域模型,如風(fēng)控征信模型、公共安全模型、指數(shù)模型等,在AIGC商業(yè)落地上已經(jīng)具備豐富的經(jīng)驗(yàn)。 比如,海貝引擎就融入了拓爾思自研的NLP技術(shù),如文本分詞、自動(dòng)分類、相似文本檢索、拼音檢索提示等,也集成了深度學(xué)習(xí)引擎,支持以文搜圖、以圖搜圖、圖文融合搜索,可以對圖像中的文字進(jìn)行OCR識(shí)別,也可以提取圖像或者文本的特征數(shù)據(jù),通過基因編碼存儲(chǔ)到海貝數(shù)據(jù)庫里,成功實(shí)現(xiàn)圖像相似性檢索功能。 三是具備一站式A工程化能力。自成立以來的30年間,拓爾思豐富的行業(yè)大模型、機(jī)器模型的應(yīng)用實(shí)踐,已經(jīng)覆蓋政務(wù)、媒體、公共安全、知識(shí)產(chǎn)權(quán)等領(lǐng)域的多種場景,并積累了豐富的AI工程經(jīng)驗(yàn),不僅能搭建分布式訓(xùn)練架構(gòu),提高大模型訓(xùn)練速度,還具備涵蓋數(shù)據(jù)標(biāo)注、模型設(shè)計(jì)、模型訓(xùn)練、模型優(yōu)化、模型評估、模型部署等一站式AI工程化落地工具和服務(wù)能力,有助于實(shí)現(xiàn)專業(yè)大模型貼合用戶場景快速落地。 比如開發(fā)的智創(chuàng)就是一款專注文字生成類的內(nèi)容自動(dòng)生產(chǎn)平臺(tái),專注于輔助型、應(yīng)用型、創(chuàng)作型等文本內(nèi)容的自動(dòng)生成,已在政務(wù)、媒體、金融、元宇宙等多個(gè)領(lǐng)域的多樣化場景中實(shí)現(xiàn)落地。例如,在文本生成領(lǐng)域,為經(jīng)濟(jì)日報(bào)、浙江日報(bào)、重慶日報(bào)等近20家新聞媒體單位提供機(jī)器寫稿服務(wù),為冶金工業(yè)信息標(biāo)準(zhǔn)研究院、南方電網(wǎng)、教育出版社等提供研報(bào)自動(dòng)生成服務(wù)。 那么未來,拓爾思不僅會(huì)利用通用大模型和行業(yè)大數(shù)據(jù),逐步打造媒體資訊、輿情監(jiān)控等優(yōu)勢行業(yè)的高質(zhì)量模型,可以為客戶提供底層能力和行業(yè)解決方案,自己打造或者幫助其他企業(yè)打造能滿足行業(yè)需求的人工智能應(yīng)用。只要打造成功一個(gè)就前途無量,何況這樣的細(xì)分行業(yè)有很多個(gè)可以復(fù)制。 自2022年開始,拓爾思已經(jīng)全面轉(zhuǎn)向SaaS、DaaS、KaaS模式,實(shí)現(xiàn)云和智能數(shù)據(jù)服務(wù),契合了人工智能大模型的發(fā)展趨勢。這是一家站在人工智能風(fēng)口,具備高壁壘數(shù)據(jù)資產(chǎn)和AI技術(shù),極度稀缺,有成功經(jīng)驗(yàn),并正在努力進(jìn)取的,行業(yè)大模型和應(yīng)用公司,有可能創(chuàng)造很大的價(jià)值。極可能是最早通過AI 實(shí)現(xiàn)利潤的公司。 公司最近的變化是愿意出來交流了,接受了很多機(jī)構(gòu)的調(diào)研,這也是積極的一面。 |
|