拓爾思會(huì)成為大牛股

黑白馬2010 2023-03-23 發(fā)布于廣東

展開全文

笑容

2023-03-23 19:05:53

本篇文章轉(zhuǎn)自楊長雍大佬的分析。

理解chatgpt人工智能大浪潮帶來的真正產(chǎn)業(yè)機(jī)會(huì)，首先要深刻理解李彥宏前段那段話：

李彥宏表示大模型時(shí)代將產(chǎn)生三大產(chǎn)業(yè)機(jī)會(huì)：通用大模型、行業(yè)大模型、應(yīng)用。

一是MAAS通用大模型。OPENAI公司做出的Chatgpt、百度公司做出的文心一言都屬于這種。通用大模型在Chatgpt出現(xiàn)之前，很多研究者都認(rèn)為這個(gè)方向走不通，OPENAI解決了從0到1的問題，現(xiàn)在越來越多的大公司都加入進(jìn)來開始攻關(guān)了，通用大模型的研發(fā)已經(jīng)成為各國新一輪技術(shù)競爭的核心領(lǐng)域。

通用大模型需要龐大的算力、數(shù)據(jù)、算法訓(xùn)練做支撐，是燒錢的活，只有超級(jí)大公司能做。OPENAI背后微軟投資了上百億美金，在中國也只有百度、騰訊、阿里、360這些既有數(shù)據(jù)又有錢又有人的公司才能做。

通用大模型類似于互聯(lián)網(wǎng)時(shí)代的操作系統(tǒng)，比如WINDOWS、安卓、IOS操作系統(tǒng)，是人工智能的底座，實(shí)際上是不會(huì)同時(shí)存在太多的。因?yàn)楸旧肀趬緲O高，先發(fā)者又保有優(yōu)勢，相互競爭會(huì)非常激烈，最終只會(huì)剩下幾家大的，就看誰做的最好。目前中國最早推出的通用大模型是百度的文心一言，阿里、百度等大公司也不得不跟進(jìn)人工智能這次科技革命，相信未來中國也會(huì)有幾家通用大模型。

通用大模型的運(yùn)行和服務(wù)都在云上，通用大模型公司就是服務(wù)本身，文心一言通過百度智能云對外提供服務(wù)，chatGPT通過微軟云對外提供服務(wù)，這對云計(jì)算的要求很高，模型、框架、芯片、應(yīng)用必須高度融合。

這個(gè)方向存在很多的投資機(jī)會(huì)，比如AI芯片、算力、云計(jì)算、光通信、大模型本身，但不是今天討論的重點(diǎn)。

二是行業(yè)大模型，即細(xì)分垂直行業(yè)大模型。這是通用大模型和企業(yè)之間的中間層。他們可以基于對行業(yè)的洞察，調(diào)用通用大模型能力，為行業(yè)客戶提供解決方案。拓爾思就是媒體資訊、網(wǎng)絡(luò)輿情、產(chǎn)業(yè)大腦等多個(gè)細(xì)分領(lǐng)域的行業(yè)大模型，這個(gè)是今天討論的重點(diǎn)，后面再說。

三是應(yīng)用開發(fā)。基于現(xiàn)有的文字、圖片、語音視頻生成的能力可以開發(fā)出今天還無法想象的應(yīng)用。在 AI時(shí)代、在大模型時(shí)代，也會(huì)出現(xiàn)這種現(xiàn)象級(jí)的應(yīng)用，只不過它是基于大模型來開發(fā)的。很久前分析的萬興科技就是這一類應(yīng)用的代表。

高質(zhì)量行業(yè)大模型不可或缺，意義十分重大，是人工智能商業(yè)化落地的基礎(chǔ)。

通用大模型作為操作系統(tǒng)，雖然有良好的泛化能力，能嫁接到所有的行業(yè)和公司上面，但是也有2個(gè)非常明顯的缺點(diǎn)：一是知識(shí)覆蓋面廣但是深度不夠。二是在匹配下游企業(yè)具體需求上不精準(zhǔn)。

造成這2個(gè)缺點(diǎn)的原因大家可能都清楚。一是行業(yè)數(shù)據(jù)壁壘。比如在金融、政府、媒體、醫(yī)療等特定領(lǐng)域的知識(shí)并不公開，開放度很低，有些還涉及保密，通用大模型沒有辦法獲取這些數(shù)據(jù)并進(jìn)行訓(xùn)練，就不具備對專業(yè)業(yè)務(wù)場景的理解能力。二是不同行業(yè)不同企業(yè)的需求各不相同，通用大模型只能提供通用的場景應(yīng)用，沒有辦法對接所有企業(yè)來進(jìn)行深度適配，商業(yè)化就無法精準(zhǔn)落地。

所以，李彥宏說，當(dāng)通用大模型面向某一個(gè)行業(yè)進(jìn)行精調(diào)，就會(huì)更好地解決某個(gè)行業(yè)的問題，吃的比較透，它就可以服務(wù)相應(yīng)行業(yè)很多的企業(yè)或者組織。大模型商業(yè)化落地的基本條件是具備能精準(zhǔn)適配下游場景任務(wù)，且保證結(jié)果高效、可控、合規(guī)的“高質(zhì)量”行業(yè)大模型。

怎么樣生成一個(gè)高質(zhì)量的行業(yè)大模型呢?——那就是在通用大模型的基礎(chǔ)上，利用行業(yè)數(shù)據(jù)進(jìn)一步訓(xùn)練生產(chǎn)行業(yè)大模型，并對行業(yè)大模型調(diào)優(yōu)實(shí)現(xiàn)。這其中，對通用大模型“再訓(xùn)練”、“調(diào)優(yōu)”形成高質(zhì)量行業(yè)大模型的兩個(gè)基本動(dòng)作，也決定了廠商必備的三大能力：豐富的行業(yè)數(shù)據(jù)積累、大模型調(diào)優(yōu)能力、AI工程化。

首先，行業(yè)數(shù)據(jù)是基礎(chǔ)。數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時(shí)代最寶貴的資產(chǎn)，是糧食。行業(yè)數(shù)據(jù)搜索引擎上搜不到，買不到，必須靠長時(shí)間的積累。這是有極高的壁壘的，只有長期為細(xì)分領(lǐng)域提供數(shù)據(jù)服務(wù)的公司才能獲得全面真實(shí)深度有效的數(shù)據(jù)，而這種數(shù)據(jù)能快速提升行業(yè)大模型學(xué)習(xí)能力，并不斷拉開與后來者之間的差距，為廠商帶來先發(fā)優(yōu)勢。

然后，必須具備大模型調(diào)優(yōu)能力。大模型調(diào)優(yōu)能力需要具備領(lǐng)先的深度學(xué)習(xí)/NLP技術(shù)積累/知識(shí)圖譜/搜索引擎等多方面的人工智能能力，這一點(diǎn)只有極少數(shù)的公司才具備。

最后，AI工程化能力。AI工程化是指提供AI應(yīng)用開發(fā)的系列方法、工具和實(shí)踐集合，形成快速測試、構(gòu)建和部署AI應(yīng)用開發(fā)流水線，加速AI應(yīng)用落地過程，實(shí)現(xiàn)模型自動(dòng)重新訓(xùn)練和部署。行業(yè)大模型只解決了大模型“可用”的問題，若想AI成為企業(yè)的生產(chǎn)力，還需要解決大模型“落地”的工程化問題，否則落地效率、周期會(huì)遠(yuǎn)超預(yù)期。

AI工程化能力涉及兩個(gè)方面：1）通過分布式訓(xùn)練提升計(jì)算效率，解決大模型大體量參數(shù)、復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)帶來的內(nèi)存、通訊以及計(jì)算瓶頸；2）實(shí)現(xiàn)模型開發(fā)過程的持續(xù)生產(chǎn)、持續(xù)交付和持續(xù)部署。一方面，需要將定制化解決方案經(jīng)驗(yàn)沉淀形成標(biāo)準(zhǔn)化產(chǎn)品，實(shí)現(xiàn)產(chǎn)品與服務(wù)的規(guī)?；铀偕虡I(yè)化落地效率；另一方面，也需要完善AI開發(fā)生命周期的工具、固化開發(fā)流程，提高模型開發(fā)全流程的緊耦合度，提升大模型訓(xùn)練效率。

拓爾思正在打造高質(zhì)量的行業(yè)大模型，提供行業(yè)大模型到智能應(yīng)用的一體化服務(wù)，為什么相信他能夠成功并實(shí)現(xiàn)價(jià)值呢？

首先，要確定拓爾思正在干這個(gè)事，并且即將推出系列產(chǎn)品。拓爾思機(jī)構(gòu)調(diào)研時(shí)表示，將積極擁抱大模型發(fā)展，基于通用AIGC大模型，專注優(yōu)勢行業(yè)進(jìn)行專業(yè)大模型的研發(fā)，融合學(xué)習(xí)行業(yè)特有的大數(shù)據(jù)和知識(shí)，提升大模型對行業(yè)應(yīng)用的適配性。公司也將以預(yù)訓(xùn)練大模型、In-Context Learning、instruction tuning等技術(shù)為基礎(chǔ)，將公司自主研發(fā)的文本生成、交互式生成、跨模態(tài)生成、小樣本學(xué)習(xí)、大模型與外部知識(shí)庫的融合等功能作為研發(fā)重點(diǎn)，突破基于大模型的AIGC關(guān)鍵技術(shù)，在問答式AI、智能創(chuàng)作、搜索引擎等領(lǐng)域?qū)崿F(xiàn)成功應(yīng)用。

對于底層的通用大模型，拓爾思表示將通過生態(tài)合作的方式獲取，拓爾思本身是阿里云、騰訊云的深度合作伙伴，除了百度的大模型之外，未來阿里、騰訊大模型出來后也是很容易合作的。對于行業(yè)大模型和應(yīng)用則會(huì)自主研發(fā)。

然后，拓爾思有這個(gè)能力和基礎(chǔ)。

一是有海量專業(yè)高壁壘的數(shù)據(jù)資產(chǎn)。拓爾思過去30年，主營業(yè)務(wù)就是大數(shù)據(jù)軟件產(chǎn)品及服務(wù)、人工智能產(chǎn)品及服務(wù)，2022年前三季度營收占比達(dá)到了72%，凈利潤超過1個(gè)億。公司于2010年自建大數(shù)據(jù)中心，至今已經(jīng)積累了1300億以上的數(shù)據(jù)總量，并以日均億級(jí)數(shù)據(jù)的速度持續(xù)增加。

拓爾思的主要客戶是ZF機(jī)構(gòu)和8000多家企業(yè)，覆蓋ZF、金融、能源、傳媒等多個(gè)領(lǐng)域，均為行業(yè)頭部機(jī)構(gòu)，如GJ知識(shí)產(chǎn)權(quán)局、南方電網(wǎng)、中國銀行、平安集團(tuán)、科技日報(bào)等。

公司在數(shù)字ZF和公共服務(wù)領(lǐng)域的“產(chǎn)品+云服務(wù)+解決方案”已經(jīng)覆蓋80%的ZY和GWY機(jī)構(gòu)、60%的省級(jí)政府和50%的地市政府。公司以內(nèi)容智能為核心的融媒體行業(yè)服務(wù)已經(jīng)覆蓋72%的ZY媒體、61%的省級(jí)媒體和40%的行業(yè)媒體機(jī)構(gòu)用戶。

比如，媒體資訊領(lǐng)域的“數(shù)家資訊大數(shù)據(jù)服務(wù)平臺(tái)”通過聚焦傳媒領(lǐng)域的數(shù)據(jù)場景云服務(wù)，覆蓋了數(shù)百家媒體機(jī)構(gòu)用戶，成為媒體大數(shù)據(jù)的國內(nèi)市場占有率第一。

通過多年的積累，拓爾思形成了超過30個(gè)專業(yè)領(lǐng)域的數(shù)據(jù)庫資產(chǎn)，如語義分析知識(shí)庫、專利知識(shí)庫、媒體知識(shí)庫、金融知識(shí)庫等，覆蓋媒體服務(wù)、輿情服務(wù)、金融風(fēng)控、產(chǎn)業(yè)投研、金融監(jiān)管、智能消保、開源情報(bào)、政務(wù)應(yīng)用等8大業(yè)務(wù)場景。

公司的重要產(chǎn)品，搜索性數(shù)據(jù)庫“海貝”是一款從內(nèi)核到系統(tǒng)完全國產(chǎn)自研的搜索型數(shù)據(jù)庫，已經(jīng)服務(wù)于安全大數(shù)據(jù)、媒體大數(shù)據(jù)、ZF大數(shù)據(jù)以及J隊(duì)大數(shù)據(jù)等眾多細(xì)分行業(yè)，擁有GJ市場監(jiān)督管理總局、HG總署、ZL局、商標(biāo)局等一系列客戶。在GJ層面，幾個(gè)重大的基礎(chǔ)數(shù)據(jù)庫，例如云搜系統(tǒng)、企業(yè)信用信息公示系統(tǒng)、專利檢索系統(tǒng)等都構(gòu)建在海貝之上。目前海貝已完成與龍芯、海光、飛騰、鯤鵬等國產(chǎn)芯片以及中標(biāo)麒麟、統(tǒng)信UOS等國產(chǎn)操作系統(tǒng)的適配工作，完全滿足信創(chuàng)要求和國產(chǎn)化替換需求。以信用中國項(xiàng)目為例，該項(xiàng)目由FGW、人民YH指導(dǎo)，GJ信息中心主辦。原來在某云平臺(tái)上由ElasticSearch對外提供檢索服務(wù)，2018年遷移至公司“TRS海貝大數(shù)據(jù)管理系統(tǒng)”上，目前海貝在該項(xiàng)目中每秒需要支持大約1.2萬的并發(fā)檢索，日訪問量接近10億，獲得了用戶的高度認(rèn)可。海貝搜索引擎就類似互聯(lián)網(wǎng)上的百度、360搜索引擎，源源不斷的將這些保密行業(yè)的數(shù)據(jù)積累起來。

這些數(shù)據(jù)資源基于拓爾思自研的數(shù)據(jù)底座經(jīng)過采集、清洗、轉(zhuǎn)換、分類、打標(biāo)等流程完成基礎(chǔ)數(shù)據(jù)治理后，與不同行業(yè)知識(shí)模型融合處理，被加工成數(shù)據(jù)資產(chǎn)進(jìn)入到數(shù)據(jù)流通與交易環(huán)節(jié)。這些數(shù)據(jù)資產(chǎn)可用作大模型的訓(xùn)練語料，具備高質(zhì)量、高價(jià)值的特點(diǎn)，有利于提升大模型的專業(yè)性與精準(zhǔn)度。

這些數(shù)據(jù)都是極其珍貴、很難獲取的，將形成非常高的壁壘，其他企業(yè)很難有這個(gè)基礎(chǔ)。

二是有很強(qiáng)的大模型調(diào)優(yōu)能力。拓爾思充分利用過往在NLP領(lǐng)域的工程技術(shù)積累，能基于行業(yè)場景任務(wù)對大模型進(jìn)行校對和優(yōu)化，使大模型高效適配行業(yè)場景，模型推理效果滿足客戶需求。

拓爾思長期聚焦知識(shí)圖譜、自然語言處理（NLP）等語義智能核心技術(shù)，將通用預(yù)訓(xùn)練大模型與傳統(tǒng)NLP技術(shù)相結(jié)合，利用行業(yè)Know-How，根據(jù)不同場景，通過對通用大模型進(jìn)行調(diào)整和優(yōu)化（Fine-tuning）來適配不同指標(biāo)，獲得不同行業(yè)客戶側(cè)重的準(zhǔn)確率、召回率、綜合F1值等指標(biāo)，形成行業(yè)化的“專業(yè)大模型”，進(jìn)一步優(yōu)化結(jié)果可控性，更好地服務(wù)于用戶的具體場景和需求。

拓爾思已經(jīng)具備350余個(gè)專業(yè)領(lǐng)域深度學(xué)習(xí)算法模型，包括NLP通用模型和專業(yè)領(lǐng)域模型，如風(fēng)控征信模型、公共安全模型、指數(shù)模型等，在AIGC商業(yè)落地上已經(jīng)具備豐富的經(jīng)驗(yàn)。

比如，海貝引擎就融入了拓爾思自研的NLP技術(shù)，如文本分詞、自動(dòng)分類、相似文本檢索、拼音檢索提示等，也集成了深度學(xué)習(xí)引擎，支持以文搜圖、以圖搜圖、圖文融合搜索，可以對圖像中的文字進(jìn)行OCR識(shí)別，也可以提取圖像或者文本的特征數(shù)據(jù)，通過基因編碼存儲(chǔ)到海貝數(shù)據(jù)庫里，成功實(shí)現(xiàn)圖像相似性檢索功能。

三是具備一站式A工程化能力。自成立以來的30年間，拓爾思豐富的行業(yè)大模型、機(jī)器模型的應(yīng)用實(shí)踐，已經(jīng)覆蓋政務(wù)、媒體、公共安全、知識(shí)產(chǎn)權(quán)等領(lǐng)域的多種場景，并積累了豐富的AI工程經(jīng)驗(yàn)，不僅能搭建分布式訓(xùn)練架構(gòu)，提高大模型訓(xùn)練速度，還具備涵蓋數(shù)據(jù)標(biāo)注、模型設(shè)計(jì)、模型訓(xùn)練、模型優(yōu)化、模型評估、模型部署等一站式AI工程化落地工具和服務(wù)能力，有助于實(shí)現(xiàn)專業(yè)大模型貼合用戶場景快速落地。

拓爾思表示，公司將優(yōu)先關(guān)注新聞出版、政務(wù)服務(wù)、金融領(lǐng)域、通用行業(yè)、元宇宙和云服務(wù)等AIGC細(xì)分市場，從降本增效走向額外價(jià)值轉(zhuǎn)移。

比如開發(fā)的智創(chuàng)就是一款專注文字生成類的內(nèi)容自動(dòng)生產(chǎn)平臺(tái)，專注于輔助型、應(yīng)用型、創(chuàng)作型等文本內(nèi)容的自動(dòng)生成，已在政務(wù)、媒體、金融、元宇宙等多個(gè)領(lǐng)域的多樣化場景中實(shí)現(xiàn)落地。例如，在文本生成領(lǐng)域，為經(jīng)濟(jì)日報(bào)、浙江日報(bào)、重慶日報(bào)等近20家新聞媒體單位提供機(jī)器寫稿服務(wù)，為冶金工業(yè)信息標(biāo)準(zhǔn)研究院、南方電網(wǎng)、教育出版社等提供研報(bào)自動(dòng)生成服務(wù)。

那么未來，拓爾思不僅會(huì)利用通用大模型和行業(yè)大數(shù)據(jù)，逐步打造媒體資訊、輿情監(jiān)控等優(yōu)勢行業(yè)的高質(zhì)量模型，可以為客戶提供底層能力和行業(yè)解決方案，自己打造或者幫助其他企業(yè)打造能滿足行業(yè)需求的人工智能應(yīng)用。只要打造成功一個(gè)就前途無量，何況這樣的細(xì)分行業(yè)有很多個(gè)可以復(fù)制。

自2022年開始，拓爾思已經(jīng)全面轉(zhuǎn)向SaaS、DaaS、KaaS模式，實(shí)現(xiàn)云和智能數(shù)據(jù)服務(wù)，契合了人工智能大模型的發(fā)展趨勢。

這是一家站在人工智能風(fēng)口，具備高壁壘數(shù)據(jù)資產(chǎn)和AI技術(shù)，極度稀缺，有成功經(jīng)驗(yàn)，并正在努力進(jìn)取的，行業(yè)大模型和應(yīng)用公司，有可能創(chuàng)造很大的價(jià)值。極可能是最早通過AI 實(shí)現(xiàn)利潤的公司。

公司最近的變化是愿意出來交流了，接受了很多機(jī)構(gòu)的調(diào)研，這也是積極的一面。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：黑白馬2010 > 《基金》

舉報(bào)/認(rèn)領(lǐng)