- 歷史總由少數(shù)人書寫: AI大模型的背后是數(shù)學(xué)天才
- 海淀出做題家,法國出數(shù)學(xué)家(并虐我千百遍)
- 歐洲AI大模型誕生于法國并非偶然:美國、倫敦的法國數(shù)學(xué)牛人開始回國創(chuàng)業(yè)了
- Mistral, HuggingFace, h.ai, SnowFlake, PhotoRoom...
France & AI, Lian 2024 with Dall-E
<1>底層大模型創(chuàng)業(yè):數(shù)學(xué)天才的時(shí)代真理總是掌握在少數(shù)人手里。 而且,歷史也是由少數(shù)人書寫的。 AGI大模型創(chuàng)業(yè)也是如此。這輪AI創(chuàng)業(yè)看起來很奇怪: 從另一個(gè)角度,找PMF(Product Market Fit)非常難: 歸根結(jié)底,是因?yàn)?strong>大多數(shù)AI公司都不擁有底層技術(shù):拿到的開源模型也只是黑箱,自己并不知道怎么能真正做得更好,只能在現(xiàn)有模型上隨機(jī)調(diào)優(yōu)原地打轉(zhuǎn)……我們越來越發(fā)現(xiàn):AGI大模型的底層技術(shù),只掌握在少數(shù)天才的手里。而且,天才的重要性要大于人數(shù)和組織能力。大模型公司中研究的領(lǐng)軍人物通常都擁有計(jì)算機(jī)/數(shù)學(xué)/物理博士學(xué)位,且深耕學(xué)術(shù)研究多年。而且我們都知道,計(jì)算機(jī)/物理/經(jīng)濟(jì)學(xué)……一切需要計(jì)算的學(xué)科中,最牛的人往往是數(shù)學(xué)最好的。比如前OpenAI靈魂人物Ilya Sutskever在本科階段主修數(shù)學(xué),Anthropic的CEO Dario Amodei從本科到博士都主修物理(數(shù)學(xué)也很重要)……所以說,盛產(chǎn)數(shù)學(xué)天才的地方,才是AGI創(chuàng)業(yè)的真正沃土。國人對法國的概念主要停留在藝術(shù)文化和奢飾品,但了解過Concours(法國高考)的朋友都知道,法國社會(huì)對于數(shù)學(xué)的重視程度一點(diǎn)不亞于海淀;數(shù)學(xué)和哲學(xué)作為Concours必考題目,才是這個(gè)國家精英眼中真正的明珠。教育基礎(chǔ)也孕育了社會(huì)文化:除了吐槽法國政府之外,哲學(xué)-數(shù)學(xué)-歷史-文學(xué)-藝術(shù)都是巴黎酒吧咖啡館的重要下酒菜;而且,這類問題也是法國各類商業(yè)-政治沙龍的無形門檻。回到法國數(shù)學(xué)教育本身:重理論輕計(jì)算——基本都是證明題。以個(gè)人為參照,本來以為北大物理系的數(shù)學(xué)應(yīng)該不算太差,但到了法國一樣被虐得很慘。才發(fā)覺,原來我本科學(xué)的叫“算術(shù)”,不叫“數(shù)學(xué)”……所以說,海淀可以量產(chǎn)“做題家”,但真正的“數(shù)學(xué)家”卻出在法國。但不得不說,數(shù)學(xué)天才們在法國掙得太少了。所以我們看到無數(shù)法國數(shù)學(xué)牛人去美國做算法/數(shù)據(jù)/IT,也知道很多在倫敦的量化交易公司的官方語言是法語……這些人的回流,正是當(dāng)下法國AI生態(tài)的主力。
“數(shù)學(xué)理論的分支與關(guān)系”,亨利-龐加萊研究院 Institut Henri Poincaré 法國的數(shù)學(xué)研究歷史底蘊(yùn)深厚。中學(xué)數(shù)學(xué)到高等數(shù)學(xué)的課本中反復(fù)出現(xiàn),虐我千百遍的名字原來那么多法國人! 從解析幾何創(chuàng)始人笛卡爾(Descarte),到“數(shù)論先鋒”費(fèi)馬(Fermat),從在微積分、復(fù)變函數(shù)和微分方程中大量冠名的柯西(Cauchy),到隨處可見的傅里葉(Fourier)級(jí)數(shù)和傅里葉變換,乃至21歲決斗而亡的“群論之父”天才伽羅華(Galois),以及“最后一位數(shù)學(xué)全才”龐加萊(Poincaré),力學(xué)、天文學(xué)中有大量存在感的拉普拉斯(Laplace)、拉格朗日(Lagrange)……
17到19世紀(jì)的數(shù)學(xué)可謂群星閃耀,這與這一階段法國統(tǒng)治者們(路易十四1654-1715在位,路易十五1715-1774在位,拿破侖1804-1815在位)熱愛數(shù)學(xué)(都有專職數(shù)學(xué)老師)、大力投資數(shù)學(xué)、并從全歐洲挖角數(shù)學(xué)人才是密不可分的。20世紀(jì)以來,法國數(shù)學(xué)仍是世界一流。素有數(shù)學(xué)界“諾貝爾獎(jiǎng)”之稱的菲爾茨獎(jiǎng),每四年一次,僅頒發(fā)給2至4名未滿40歲作出突出貢獻(xiàn)的數(shù)學(xué)家。而從1936年至今的69名的獲獎(jiǎng)?wù)咧?,法?13人)幾乎和美國(15名)并駕齊驅(qū),并超過俄羅斯+蘇聯(lián)(9名)。要知道法國人口只有6700萬,而美國有3.3億有如此多大師坐鎮(zhèn)的法國,如今仍是數(shù)學(xué)學(xué)習(xí)和研究者的向往之地。巴黎-薩克雷大學(xué)(Université Paris-Saclay, 包含巴黎綜合理工école Polytechnique) 數(shù)次摘得數(shù)學(xué)專業(yè)世界排行榜第一,還有索邦大學(xué)(Sorbonne University, 包含巴黎六大),巴黎文理研究大學(xué)(Paris-PSL,包含巴黎高師ENS)、亨利-龐加萊研究所(Institut Henri Poincaré)等享譽(yù)世界的學(xué)校和研究機(jī)構(gòu)。 <3> AI屆的法國大佬們如今的AI領(lǐng)域,無論是學(xué)術(shù)界還是科技公司,都活躍著這些有扎實(shí)數(shù)學(xué)基礎(chǔ)的法國人才,以下僅列出部分知名大佬: <4> Mistral: 歐洲頂級(jí)大模型 美國以外最引人注目的大模型創(chuàng)業(yè)公司之一,無疑是法國的Mistral AI。當(dāng)前重要AI創(chuàng)業(yè)公司估值如下: Mistral系列是當(dāng)前僅次于Llama3系列的,最重要的開源模型。提供Mistral7B,Mixtral8x7B, Mixtral8x22B三個(gè)選擇。
從Mistral 7B (23年9月27日)發(fā)布,到Llama3(24年4月10日)發(fā)布之間6.5個(gè)月里,Mistral系列一直被認(rèn)為是開源模型的首選。而且,與Llama系列相比,Mistral使用寬松的Apache License 2.0;而且實(shí)測下來MoE架構(gòu)的推理性價(jià)比真的很香。讓我們期待Mistral下一代開源模型的發(fā)布。在支持開源的同時(shí),Mistral也在24年2月發(fā)布了閉源大模型Mistal Large 和對標(biāo)Chatgpt的產(chǎn)品 'Le Chat'(翻譯='貓')。Mistral Large在發(fā)布時(shí)是當(dāng)時(shí)最接近GPT4的產(chǎn)品(24年3月末被Anthropic的Claude3系列超越)
Mistral的開局如其名“冬日北風(fēng)”一樣發(fā)展迅速。23年4月三個(gè)創(chuàng)始人才在巴黎的咖啡館確定“法國人也要有自己的ChatGPT”的愿景,6月就鎖定1.13億美元的種子輪融資。3個(gè)月后,不到20人的小團(tuán)隊(duì),僅使用幾百張A100做訓(xùn)練,快速發(fā)布開源模型Mistral 7B。
快速出成果的背后是人才。CEO Arthur Mensch曾參與Deepmind的Chinchilla等知名項(xiàng)目,包括CTO Guillaume Lample在內(nèi)的很多團(tuán)隊(duì)成員都來自原Meta AI巴黎的Llama團(tuán)隊(duì)。(這里要感謝Meta的Yann Lecun在巴黎的投入:Llama背后有很多法國人) Mistral背后的資本是法國本土+美國的混合。帶著“成為歐洲AI領(lǐng)導(dǎo)者”的愿景,Mistral的1.13億美元的種子輪就吸引了不少法國投資者,包括德高JCDecaux Holding,Xavier Niel(法國電信運(yùn)營商Free創(chuàng)始人),Rodolphe Saadé(航運(yùn)公司CMA CGM的CEO),Motier Ventures(老佛爺百貨所有者M(jìn)oulin-Houzé 家族辦公室)等法國億萬富翁和家族辦公室。在此后的A輪和B輪融資中,CMA CGM, Bpifrance(法國國家隊(duì)),法國巴黎銀行BNP Paribas也加入融資。當(dāng)然,美國的風(fēng)投機(jī)構(gòu)(General Catalyst, a16z, Lightspeed Venture)和大廠們(英偉達(dá), 三星,IBM,Salesforce)也在投資者之列。 Mistral的意義是深遠(yuǎn)的。 首先,歐洲有了頂級(jí)大模型。于是,歐洲手里多了一張牌,可以在站隊(duì)壓力可控時(shí)做出獨(dú)立選擇,保持一定的外交獨(dú)立性。 第二,Mistral的號(hào)召力盤活了法國的AI生態(tài)。圍繞Mistral和HuggingFace,法國當(dāng)前的AI創(chuàng)業(yè)生態(tài)非常繁榮,這樣可以進(jìn)一步聚集AI人才,也給投資人信心,走入良性循環(huán)。 <5> 不止Mistral,法國的AI“隱形冠軍”們 5.1 Hugging Face: 模型平臺(tái)
Github是代碼的平臺(tái),HuggingFace(HF)是模型的平臺(tái),也是AI開源在全球扛大旗的。HF最大的想象空間,是成為“模型調(diào)用模型”的平臺(tái)與規(guī)則制定者。于是,HF在23年5月發(fā)布Transformer Agent 1.0, 并在24年5月升級(jí)到2.0,做的就是這件事。官方宣稱基于Llama3-70B-Instruct在GAIA Leaderboard測試中,比基于GPT4的Agent有更好表現(xiàn)。 Hugging Face其實(shí)是一家“法國-美國”公司HuggingFace在2016年由三位法國人Clément Delangue, Julien Chaumond和 Thomas Wolf在巴黎創(chuàng)立。公司初始想法是“面向青少年的AI驅(qū)動(dòng)的聊天機(jī)器人”,當(dāng)時(shí)在法國難以獲得風(fēng)投,于是搬到紐約以獲得第一輪融資 2019年,在Google發(fā)布BERT模型后,公司逐漸將聊天平臺(tái)轉(zhuǎn)化為開發(fā)者社區(qū),并逐步形成了全網(wǎng)最大的自然語言處理開源模型數(shù)據(jù)庫,獲得Google、Amazon、Nvidia、Salesforce等多個(gè)巨頭的戰(zhàn)略投資 - 目前HuggingFace約180名員工中三分之二在歐洲,其中70人位于巴黎
HuggingFace的重要性在于,它本身就是生態(tài)。它正在成為一個(gè)創(chuàng)業(yè)工廠,從中已經(jīng)產(chǎn)生了Adaptive ML(詳情見下), Contextual和Arcee等AI初創(chuàng)公司。
5.2. H.ai: Mistral之外第二家底層模型公司 如果說,Mistral是Meta系,H.ai就是Deepmind-Google系。 【創(chuàng)始團(tuán)隊(duì)】法國人Charles Kantos聚集了四位來自Deepmind的強(qiáng)化學(xué)習(xí)、博弈論和多智能體領(lǐng)域的專家,其中Laurent Sifre和Julien Perolat是法國人 【產(chǎn)品定位】開發(fā)“能動(dòng)性”或“以行動(dòng)為導(dǎo)向”的AI模型,這些模型能夠推理、規(guī)劃和協(xié)作解決問題,超越當(dāng)前的語言模型;圍繞行業(yè)的企業(yè)提供這些AI Agent,以推動(dòng)生產(chǎn)力和人機(jī)協(xié)作【融資】種子輪融資2.2億美元(2024年5月),分別來自VC:Accel、Bpifrance(法國國家隊(duì))、Creandum、Elaia Partners等 家辦:Eric Schmidt(前Google CEO和主席)、Xavier Niel(法國電信運(yùn)營商Free創(chuàng)始人)、Bernard Arnault(LVMH董事長)等 大廠:亞馬遜、三星和UiPath的戰(zhàn)略投資
5.3 Adaptive ML: LLM企業(yè)個(gè)性化部署 【創(chuàng)始時(shí)間】2023年,總部位于紐約,但在巴黎有一個(gè)強(qiáng)大的技術(shù)團(tuán)隊(duì)【創(chuàng)始團(tuán)隊(duì)】5位法國人Julien Launay, Daniel Hesslow, Baptiste Pannier, Alessandro Cappelli和Axel Marmet共同創(chuàng)立,他們都曾一起在開源的Falcon LLM項(xiàng)目上工作,并且三個(gè)人此后在HuggingFace工作【產(chǎn)品定位】幫助企業(yè)將大型語言模型(LLMs)適應(yīng)于他們的特定用例,并根據(jù)用戶互動(dòng)不斷改進(jìn)模型
【融資】種子輪2000萬美元
【創(chuàng)始團(tuán)隊(duì)】2位法國人,Gabriel Hubert和前OpenAI員工Stanislas Polu【產(chǎn)品定位】用來自Notion、Slack、Google Drive等的內(nèi)部數(shù)據(jù),使用帶有檢索增強(qiáng)生成(RAG)的LLM來為公司客戶構(gòu)建一個(gè)內(nèi)部AI助手平臺(tái);在OpenAI、Cohere和AI21等公司的現(xiàn)有LLM之上構(gòu)建應(yīng)用程序【融資】4500萬美元+
5.5 Giskard:AI系統(tǒng)的安全 【創(chuàng)始時(shí)間】 2021年【創(chuàng)始團(tuán)隊(duì)】2位法國人包括前Dataiku員工Alex Combessie和Jean-Marie John-Mathews,以及Andrey Avtomonov【產(chǎn)品定位】開發(fā)一個(gè)開源AI測試框架,作為“市場上最好的大語言模型殺毒軟件”,來保護(hù)AI系統(tǒng)安全【融資】450萬歐元 5.6 Photoroom: 電商圖片生產(chǎn)
【創(chuàng)始團(tuán)隊(duì)】2位法國工程師背景的創(chuàng)始人,Matthieu Rouif和Eliot Andres【產(chǎn)品定位】基于AI的圖片編輯軟件,讓用戶無需經(jīng)過大量訓(xùn)練就能創(chuàng)造出令人印象深刻的圖像;開發(fā)了自己的自定義基礎(chǔ)模型“Photoroom ID”
【融資】6400萬美元 5.7 Owkin:藥物發(fā)現(xiàn)&臨床優(yōu)化【創(chuàng)始時(shí)間】 2016年 【團(tuán)隊(duì)】法國臨床研究醫(yī)生Thomas Clozel和生物學(xué)領(lǐng)域的人工智能先驅(qū)Gilles Wainri 【產(chǎn)品定位】開發(fā)用于藥物發(fā)現(xiàn)、臨床試驗(yàn)優(yōu)化和人工智能診斷的技術(shù);主要產(chǎn)品MSIntuit CRC - 一款在歐盟獲得批準(zhǔn)的人工智能診斷工具,用于預(yù)先篩選結(jié)直腸癌患者的生物標(biāo)志
【融資】3億美元(其中1.8億美元來自賽諾菲) 除了最新的AI創(chuàng)業(yè)公司之外,更久一些法國人的科技創(chuàng)業(yè)故事是創(chuàng)立數(shù)據(jù)/SaaS/AI公司,獲得美國風(fēng)投,然后在美國上市。
5.8 Snowflake:云原生數(shù)字平臺(tái)
12年在美國加州,由兩個(gè)法國人Benoit Dageville和Thierry Cruanes,與Marcin Zukowski共同創(chuàng)立 20年上市,當(dāng)前估值約550億美元 23財(cái)年總收入為26.2億美元,截至24年1月,Snowflake在全球擁有7,004名員工,并在福布斯全球2000強(qiáng)榜單中擁有691家世界最大上市公司的客戶
5.9 Datadog:用于云應(yīng)用的監(jiān)控和分析平臺(tái) 10年在紐約,由兩位法國人Olivier Pomel和Alexis Lê-Qu?c共同創(chuàng)立 19年在納斯達(dá)克上市,當(dāng)前估值約370億美元 23年收入超過20億美元,擁有超過5,200名員工,為全球27,300名客戶提供服務(wù)
5.10 Dataiku:人工智能和數(shù)據(jù)科學(xué)公司 13年在紐約,四位法國人Florian Douetteau, Clément Stenac, Thomas Cabrol和Marc Batty共同創(chuàng)立 22年8月E輪融資中籌集了4億美元,公司估值達(dá)46億美元 23年?duì)I收約2.3億美元,擁有約1400名員工和600多個(gè)全球客戶
<6> 挑戰(zhàn)與機(jī)遇最后,法國AI究竟有多強(qiáng)?有超過中國嗎? 我覺得答案還是明確的:AI第一強(qiáng)國是美國,第二是中國。因?yàn)闊o論是從總AI論文數(shù)量還是研究者數(shù)量,中國都比法國要高出一個(gè)數(shù)量級(jí)。我們也看到假以時(shí)日,國產(chǎn)模型們也一步步逼近GPT4的水平。但問題是,我們的這些大腦是否用在了真正技術(shù)前進(jìn)的方向,還是用在了完成內(nèi)部KPI的雕花上?以及在這個(gè)天才創(chuàng)業(yè)的時(shí)代,個(gè)別天才是有可能改變歷史命運(yùn)的。 法國AI行業(yè)的瓶頸,一個(gè)是人才數(shù)量,另一個(gè)是半導(dǎo)體工業(yè)。 人才瓶頸目前主要由東歐和北非在補(bǔ),但如何培養(yǎng)出更多的AI人才正在給法國當(dāng)前的教育體系提出巨大挑戰(zhàn)。以及,法國的高級(jí)AI算法人才的工資明顯低于美國和中國:這一方面對于創(chuàng)業(yè)公司是成本優(yōu)勢,但另一方面也造成了國家層面的人才外流。 芯片相關(guān)的半導(dǎo)體工業(yè)的短板更加難補(bǔ)。目前芯片工業(yè)體系主要在美國和東亞,消費(fèi)電子在中國更是有巨大優(yōu)勢。歐洲可能需要再造一個(gè)“空中客車計(jì)劃”,才有可能在AI浪潮中立住根基。 最后,當(dāng)“反華”成為美國的政治正確,歐洲作為AI第三極有著更多與中國合作的空間。法國-歐洲的AI發(fā)展有著眾多痛點(diǎn)缺陷,如果我們有能力提供一部分價(jià)值,那么機(jī)遇也自然會(huì)向我們招手。
|