編者按:很多人都預(yù)測(cè) 2023 年將是 AI 之年。但 AI 顯然不是今年才開(kāi)始爆發(fā)或者炒作起來(lái)的。但是 2022 年圖像生成工具以及聊天工具 ChatGPT 等消費(fèi)者化是人工智能開(kāi)始普及應(yīng)用的標(biāo)志,2023 年這股趨勢(shì)只會(huì)愈演愈烈。本文剖析了 AI 的用例與商業(yè)模式,也許我們將迎來(lái)繼農(nóng)業(yè)革命、工業(yè)革命以來(lái)的第三種通用技術(shù)的普及。文章來(lái)自編譯。
每當(dāng)我思考人工智能領(lǐng)域在發(fā)生著什么時(shí),我往往會(huì)想到兩部電影。一部是 33 年前問(wèn)世的老片,一部是 10 個(gè)月前問(wèn)世的新片。 1990 年上映的《超國(guó)度》(Hyperland)幾乎已被人遺忘。這部科幻電影的導(dǎo)演是道格拉斯·亞當(dāng)斯 (Douglas Adams),他更出名的身份是《銀河系搭車客指南》的作者。電影的假設(shè)是亞當(dāng)斯對(duì)被動(dòng)式的線性電視已經(jīng)厭煩了,電影稱就是“那種發(fā)生在你身上,而你就像一個(gè)沙發(fā)土豆一樣坐在它面前的電視?!?/span> 為了尋找更具互動(dòng)性的媒體形式,亞當(dāng)斯把他的電視帶到了一個(gè)垃圾場(chǎng),在那里他遇到了湯姆(由湯姆·貝克飾演)。湯姆是一位軟件代理——本質(zhì)上屬于一個(gè)數(shù)字管家,能夠根據(jù)你的特定興趣為你提供個(gè)性化的信息和娛樂(lè)飲食。湯姆帶領(lǐng)我們的主人公穿行于一個(gè)超媒體的虛擬世界——一個(gè)由鏈接的文本、聲音、圖像和視頻組成的世界。換句話說(shuō),湯姆帶著亞當(dāng)斯踏上了互聯(lián)網(wǎng)之旅。(或者說(shuō)得更具體一點(diǎn),是穿行于一個(gè)漫長(zhǎng)而曲折的兔子洞,跟維基百科類似——但比維基百科的出現(xiàn)早了 11 年)。 《超國(guó)度》,尤其是湯姆這個(gè)角色,讓我想到了我們目前的現(xiàn)實(shí):人工智能驅(qū)動(dòng)的算法推薦引擎,根據(jù)我們獨(dú)特的興趣圖譜塑造出的一個(gè)超個(gè)性化的互聯(lián)網(wǎng)。這就是我所說(shuō)的“一切都被 TikTok 化”。(David Karpf 提出了一個(gè)很有智慧的看法,即超國(guó)度與現(xiàn)代之間有一個(gè)關(guān)鍵區(qū)別:在電影里面,是你在控制算法;當(dāng)然,現(xiàn)如今的算法已經(jīng)過(guò)優(yōu)化,可以替開(kāi)發(fā)和部署它們的公司賺錢。) 我想到的第二部電影面世的時(shí)間要近得多:2022 年 3 月的《瞬息全宇宙》,在我看來(lái),這有可能是今年奧斯卡最佳影片的潛在競(jìng)爭(zhēng)者。在我最近的記憶中,《瞬息全宇宙》屬于線索比較混亂的電影之一。這部電影講述的是伊芙琳(楊紫瓊飾)的故事,她是一名中國(guó)移民,經(jīng)營(yíng)著一家正在接受美國(guó)國(guó)稅局審計(jì)的自助洗衣店。伊芙琳很快發(fā)現(xiàn),她生活在無(wú)限宇宙里面的一個(gè)宇宙,她必須穿越多重宇宙才能拯救她的家人。 從很多方面來(lái)說(shuō),這部電影都是對(duì)互聯(lián)網(wǎng)之亂的隱喻。在接受 Slashfilm 的采訪時(shí),電影導(dǎo)演之一的丹尼爾·謝納特(Daniel Scheinert)是這么說(shuō)的:“我們希望這部電影的極簡(jiǎn)主義能夠與沒(méi)完沒(méi)了地刷屏的感覺(jué)建立關(guān)聯(lián)”。 YouTuber Thomas Flight(對(duì)這部電影做出了出色的分析)稱《瞬息全宇宙》是第一批“后互聯(lián)網(wǎng)”電影之一,因?yàn)樗蹲降搅嗽诰€生活的怪異之處。生活在 2023 年的迷人的一點(diǎn)在于,我們的大腦與一個(gè)世紀(jì)前相比沒(méi)有什么不同(事實(shí)證明,進(jìn)化需要很長(zhǎng)時(shí)間),但我們的世界在 100 年內(nèi)卻發(fā)生了翻天覆地的變化。正如 Flight 所說(shuō)的那樣:“我們現(xiàn)在生活在這樣一個(gè)時(shí)代,在一次 30 分鐘 TikTok 狂歡里,我們體驗(yàn)到的有趣想法、概念、人物以及地方,就要比我們被困在當(dāng)?shù)啬坎蛔R(shí)丁的祖先一輩子所經(jīng)歷過(guò)的東西都要豐富。”快速演變的數(shù)字混沌會(huì)如何扭曲我們緩慢進(jìn)化的人類思維呢? 《瞬息全宇宙》里面的宇宙是多種多樣的,而且非常非常的奇怪。在一個(gè)沒(méi)有人類生命的宇宙里,每個(gè)人都是一動(dòng)不動(dòng)的石頭。里面還有一個(gè)宇宙,這個(gè)宇宙里面每個(gè)人都是蠟筆畫(huà)。另一個(gè)宇宙里,每個(gè)人的手指都變成了熱狗(我告訴過(guò)你這很奇怪)。 《瞬息全宇宙》這部電影捕捉到了互聯(lián)網(wǎng)的運(yùn)動(dòng)能量與無(wú)情的節(jié)奏。 不過(guò),這部電影讓我想到的不是互聯(lián)網(wǎng),而是生成式人工智能正在發(fā)生的事情。就像電影讓主人公將她想象中的任何東西都轉(zhuǎn)化為有形的現(xiàn)實(shí)一樣,生成式 AI 也讓我們將想法變成了文字、圖像和視頻。 這是當(dāng)我輸入提示“A person made entirely of fruit”(一個(gè)完全由水果組成的人)時(shí) Midjourney 生成的結(jié)果: 這是我輸入“New York City skyline in the style of Van Gogh”(梵高風(fēng)格的紐約市天際線)時(shí)得到的結(jié)果: 我可以花幾個(gè)小時(shí)(而且我已經(jīng)花了幾個(gè)小時(shí))去試驗(yàn)這樣的提示。 2022 年取得突破的生成式人工智能是自十多年前移動(dòng)和云計(jì)算興起以來(lái)最引人注目的技術(shù)。平臺(tái)層正在鈣化,我們正目睹著令人興奮的應(yīng)用層的萌芽——這些產(chǎn)品有可能成為數(shù)十億人日常生活的一部分。 這篇文章的目的是研究 AI 這一時(shí)刻背后的“為什么是現(xiàn)在”,并探索初創(chuàng)企業(yè)可以如何利用 AI來(lái)進(jìn)行開(kāi)發(fā)。本文內(nèi)容將分為以下幾部分:
好了,讓我們開(kāi)始吧。 搭好舞臺(tái)在過(guò)去十年里,有兩股重要力量推動(dòng)了技術(shù)的發(fā)展:分別是移動(dòng)和云計(jì)算。 移動(dòng)促進(jìn)了大型消費(fèi)互聯(lián)網(wǎng)公司的崛起:Uber 與 Lyft、Instagram 與 Snap、Robinhood 與 Coinbase 。這些公司基本上都成立于 2009 年至 2013 年間。數(shù)字廣告在 2010 年代迅速轉(zhuǎn)向移動(dòng)設(shè)備,F(xiàn)acebook 等桌面時(shí)代的公司不得不爭(zhēng)先恐后地重塑業(yè)務(wù)。 明年移動(dòng)應(yīng)用內(nèi)廣告的支出預(yù)計(jì)將超過(guò)桌面廣告 - Marketing Charts 云計(jì)算則支撐了軟件即服務(wù) ( SaaS ) 的爆發(fā)式增長(zhǎng),并讓數(shù)據(jù)變成企業(yè)最寶貴的資源(“數(shù)據(jù)就是新的石油”云云)。這一領(lǐng)域的新興公司基本上也都成立于 2009 年至 2013 年之間,其中包括 Slack 與 Airtable 、Stripe 與 Plaid、Snowflake 與 Databricks 等。 從 2015 年到 2022 年間,存儲(chǔ)在云端的企業(yè)數(shù)據(jù)占比翻了一番: 存儲(chǔ)在云端的企業(yè)數(shù)據(jù);資料來(lái)源:Statista 這是過(guò)去 10 年 AWS 收入情況圖,很少有圖表比這幅圖更令人印象深刻(利潤(rùn)率高達(dá) 35%?。?/span> AWS 收入($B);資料來(lái)源:Statista 移動(dòng)和云計(jì)算讓 2010 年代成為技術(shù)領(lǐng)域非常非常好的十年。但在過(guò)去的幾年里,我們看到很多人都在嚷嚷接下來(lái)會(huì)發(fā)生什么。虛擬現(xiàn)實(shí)?增強(qiáng)現(xiàn)實(shí)?自動(dòng)駕駛汽車?加密貨幣?Web 3? 這些技術(shù)個(gè)個(gè)都很有趣,原因各不相同,有趣的用例也各異,但都還非常非常早。整個(gè) VR 行業(yè)僅相當(dāng)于蘋(píng)果 2021 年?duì)I收的 2%。(雖然隨著蘋(píng)果即將推出的混合現(xiàn)實(shí)頭顯,情況可能會(huì)有所改變。)圍繞新技術(shù)的炒作太多,而源于對(duì)移動(dòng)和云計(jì)算的焦慮的“平臺(tái)轉(zhuǎn)變”已經(jīng)……過(guò)時(shí)了。AWS 推出時(shí)間是 2006 年;iPhone 在 2007 年問(wèn)世。移動(dòng)和云計(jì)算都還沒(méi)有飽和,但它們的新機(jī)遇并不像以前那樣成熟了。與此同時(shí),我們看到前所未有的私有資本開(kāi)始涌入,去追逐創(chuàng)業(yè)公司: 風(fēng)投資金在 2021 年激增至 3300 億美元 2020 年代最引人注目且最有可能推動(dòng)技術(shù)發(fā)展的力量是什么?也許是人工智能。人工智能在過(guò)去幾年中得到了顯著改善。直到最近,Gmail 的自動(dòng)補(bǔ)充句子功能幾乎還沒(méi)法用;但現(xiàn)在已經(jīng)好得嚇人。Facebook 用戶將認(rèn)識(shí)到 AI 在識(shí)別照片里面的朋友方面已變得有多么出色;實(shí)際上,F(xiàn)acebook 的 DeepFace 引擎現(xiàn)在比人類還要擅長(zhǎng)面部識(shí)別。就在去年夏天,我們看到了從 Stable Diffusion 到 Midjourney、ChatGPT 到 Lensa 的一切事物的涌現(xiàn)。人工智能正在成為主流。 Facebook 的DeepFace現(xiàn)在比人類還要擅長(zhǎng)面部識(shí)別 我們正處在人工智能的轉(zhuǎn)折點(diǎn)(原因稍后會(huì)詳細(xì)介紹),這個(gè)轉(zhuǎn)折點(diǎn)正在支撐起創(chuàng)新的寒武紀(jì)大爆發(fā)。2009 年至 2013 年誕生了數(shù)十家由移動(dòng)和云計(jì)算技術(shù)提供支持的變革型初創(chuàng)公司。未來(lái)幾年這樣的公司將再度涌現(xiàn),但這次,人工智能將成為催化劑。 前一段時(shí)間,有位朋友問(wèn)了我一個(gè)問(wèn)題:AI 是泡沫,還是下一個(gè)大事件?答案可能是兩者兼而有之。 現(xiàn)在有很多令人興奮的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者兩者兼而有之。但是當(dāng)你將畫(huà)面拉遠(yuǎn)時(shí)就能發(fā)現(xiàn),毫無(wú)疑問(wèn)我們正處于一個(gè)激動(dòng)人心的技術(shù)新時(shí)代的風(fēng)口浪尖。 算法推薦系統(tǒng)最近的大部分討論都圍繞著生成式人工智展開(kāi),但“傳統(tǒng)”的人工智能仍有很大的發(fā)展空間。曝光度最高的人工智能應(yīng)用是什么?也許沒(méi)有比 TikTok 的For You Page(為你推薦)更高的了,對(duì)于《超國(guó)度》那個(gè)具有先見(jiàn)之明的超個(gè)性化的互聯(lián)網(wǎng)來(lái)說(shuō),這可以說(shuō)是它最好的現(xiàn)代類比。 TikTok 沉浸式、算法性的 For You Page 開(kāi)創(chuàng)了內(nèi)容策劃的新風(fēng)尚。一開(kāi)始,每個(gè)發(fā)布出去的視頻都會(huì)被推送給一組的初始受眾,然后根據(jù)他們觀看了多長(zhǎng)時(shí)間、是否喜歡視頻、是否對(duì)視頻發(fā)表了評(píng)論等等,對(duì)這些觀眾的反應(yīng)進(jìn)行評(píng)估。如果受眾反應(yīng)良好,視頻就會(huì)被推送給更多的受眾,如此循環(huán)往復(fù)。 TikTok的算法 我最近跟同事 Martin 討論了一下移動(dòng)和云計(jì)算之后技術(shù)的下一步會(huì)是什么。我們聊起了 AI,并回想起十年前那張著名的“解綁 Craigslist”的圖表。 就是這張圖: 將業(yè)務(wù)從Craigslist解綁出來(lái)誕生了大批初創(chuàng)企業(yè),迄今為止這批企業(yè)的融資額達(dá)到了88.7億美元 這里還有一張,要表達(dá)的概念是一樣的,但更清晰: 平臺(tái) Vs 垂直領(lǐng)域及下一個(gè)大解綁 | Andreessen Horowitz 圖片來(lái)源:Andrew Parker 這些圖有一個(gè)基本前提,那就是原先市場(chǎng)的主要品類正在被更專注、更好的產(chǎn)品所重塑。通常,顛覆者會(huì)利用某項(xiàng)新技術(shù):比方說(shuō),Tinder 是第一批只支持移動(dòng)設(shè)備的約會(huì) app 之一。 AI 應(yīng)用可能也會(huì)帶來(lái)類似的清算。主要的品類——如約會(huì)、房地產(chǎn)、求職等——可能會(huì)因?yàn)橛腥四芨玫乩萌斯ぶ悄芏粡氐最嵏病.?dāng) AI 可以把跟你完美匹配的對(duì)象呈現(xiàn)出來(lái)時(shí),為什么還要上 Tinder 沒(méi)完沒(méi)了地刷屏?十年之后,我們可能會(huì)看到上圖有了一個(gè)新版本,里面出現(xiàn)的也許是全新的公司 logo——AI 優(yōu)先的公司會(huì)重塑每一個(gè)品類。當(dāng)然了,生成式人工智能一定會(huì)從中發(fā)揮作用,但類似 TikTok 的推薦系統(tǒng)也很強(qiáng)大;就數(shù)字世界將越來(lái)越適合我們的獨(dú)特品味和偏好而言,我們?nèi)蕴幱谠缙陔A段。 讓我們看個(gè)例子——交易。 從很多方面來(lái)說(shuō),SHEIN 都算是 TikTok 的姊妹公司。SHEIN 與字節(jié)跳動(dòng)(TikTok 的母公司)都是中國(guó)公司,而且位列全球最有價(jià)值的三大初創(chuàng)公司之一(字節(jié)跳動(dòng)排名第一,美國(guó)的 SpaceX 排名第二,SHEIN 排名第三)。 就像 TikTok 滲透了美國(guó)的媒體一樣,SHEIN 也打入到美國(guó)的快時(shí)尚—— 美國(guó)快時(shí)尚市場(chǎng)Shein占據(jù)了最大的份額 - Bloomberg Second Measure 這張圖換了個(gè)視角,把 SHEIN 與 H&M 和 Zara 的銷售額進(jìn)行比較: 中國(guó)快時(shí)尚品牌Shein如何征服美國(guó)市場(chǎng) - Euromonitor.com SHEIN 的爆發(fā)式增長(zhǎng)非常引人注目:SHEIN 已經(jīng)連續(xù)八年(!)每年的增長(zhǎng)率都超過(guò) 100%,其在非公開(kāi)市場(chǎng)的最新估值已經(jīng)超過(guò) Zara 和 H&M 市值之和。2022年 6 月,SHEIN 取代亞馬遜,成為 iOS 和 Android 應(yīng)用商店排名第一的購(gòu)物應(yīng)用。 SHEIN 的速度令人矚目:這里每天都要上架 8000 件新商品,而 Zara 每周才新增 500 件。SHEIN 基本上屬于互聯(lián)網(wǎng)原生的 Zara 和 H&M 轉(zhuǎn)世,利用了更好的技術(shù)把從設(shè)計(jì)到生產(chǎn)的時(shí)間從三周壓縮到了三天。SHEIN 通過(guò)梳理競(jìng)爭(zhēng)對(duì)手的網(wǎng)站和 Google Trends,找出流行的款式,然后快速做出自己的設(shè)計(jì),預(yù)測(cè)需求,實(shí)時(shí)調(diào)整庫(kù)存。 我們?cè)僬f(shuō)回 AI,SHEIN 給我留下的其中一個(gè)深刻印象是它的推薦。就像字節(jié)跳動(dòng)會(huì)預(yù)測(cè)你想看的內(nèi)容一樣,SHEIN 會(huì)預(yù)測(cè)你想買什么衣服。SHEIN 之于電商就像字節(jié)跳動(dòng)之于內(nèi)容。 這個(gè)周末,為了給朋友即將舉行的 30 歲生日聚會(huì)準(zhǔn)備東西,我打算到網(wǎng)上購(gòu)物。這個(gè)派對(duì)以《亢奮》(Euphoria)為主題,也就是說(shuō),基本上你得穿得像 HBO 那部美劇的里 Maddie 、Cassie 或 Nate Jacobs 一樣。我之前從來(lái)都沒(méi)上 SHEIN 買過(guò)東西,但我輸入了“男士黑色網(wǎng)紗上衣”來(lái)找衣服。然后我點(diǎn)擊了“褲子”品類,結(jié)果看到了這個(gè)屏幕: 只是搜索了一次網(wǎng)紗上衣,SHEIN 就能夠預(yù)測(cè)出風(fēng)格和主題非常相似的褲子。這非常令人印象深刻。(還有,請(qǐng)不要以為這些就是我平時(shí)穿的衣服。) 從某種程度來(lái)說(shuō),這是 Stitch Fix 開(kāi)創(chuàng)的個(gè)人造型訂閱盒概念的更復(fù)雜版本。Stitch Fix 給整個(gè)過(guò)程引入了人,也利用了數(shù)據(jù)科學(xué),但其基礎(chǔ)是新客戶引導(dǎo)冗長(zhǎng)的問(wèn)卷調(diào)查。而 SHEIN 只根據(jù)我輸入的四個(gè)詞(也許還參考了我點(diǎn)擊的內(nèi)容、鼠標(biāo)懸停的位置等數(shù)據(jù))就做出了準(zhǔn)確的推薦。 Stitch Fix 的個(gè)人造型市場(chǎng)已被證明相對(duì)小眾,而且它的股票也已受到重創(chuàng)?;钴S客戶已降至 390 萬(wàn),同比下降 20 萬(wàn)人(下降 5%)。該公司正在努力向 Freestyle 產(chǎn)品轉(zhuǎn)型——這是一種更傳統(tǒng)的購(gòu)物體驗(yàn)——但這個(gè)細(xì)分市場(chǎng)仍然只占該公司業(yè)務(wù)的一小部分。 Stitch Fix 的訂閱盒里面是由造型師和數(shù)據(jù)科學(xué)策劃的推薦產(chǎn)品 盡管 Stitch Fix 舉步維艱,但它的目標(biāo)是突破性的——個(gè)性化商務(wù)。這家公司幾年前就提出了這個(gè)概念,但當(dāng)時(shí)人工智能還不夠成熟,沒(méi)法取代冗長(zhǎng)的問(wèn)卷調(diào)查以及小規(guī)模的數(shù)據(jù)科學(xué)家隊(duì)伍。SHEIN 朝著正確方向邁出了一步,但我們?nèi)哉驹谌斯ぶ悄茯?qū)動(dòng)推薦的風(fēng)口浪尖。 想象一下,如果有家公司能梳理你的相機(jī)膠卷,并以驚人的準(zhǔn)確性為你推薦一大批新衣服會(huì)怎樣?或者,也許這家公司只需要請(qǐng)你將 Instagram 帳戶關(guān)聯(lián)一下,然后就能消化你的所有點(diǎn)贊和關(guān)注,即可提供極其準(zhǔn)確、個(gè)性化的時(shí)尚推薦。 人工智能的主要消費(fèi)者應(yīng)用將大量依賴于嫻熟的推薦。這些推薦能預(yù)測(cè)到連你都不知道的需求與愿望——就像 TikTok 的 For You Page 一樣:它能夠在人們自己還沒(méi)意識(shí)到之前就向?qū)Ψ奖砻魉麄兪切陨贁?shù)者。也許上面的示例公司可以在一條 FYP(For You Page)動(dòng)態(tài)消息中重塑商業(yè),讓你每次瀏覽一個(gè)精心策劃的商品——雙擊即可購(gòu)買,向上滑動(dòng)即可查看下一件東西。 世界正在向著個(gè)性化轉(zhuǎn)變,而人工智能是在給這股趨勢(shì)火上澆油。我的朋友 Alex 說(shuō)的一席話我很喜歡: 在AI的幫助下,一對(duì)一輔導(dǎo)正在成為可能 突然之間,“一對(duì)一”體驗(yàn)可以大規(guī)模復(fù)制了——與我們?cè)谖磥?lái)幾年看到的應(yīng)用相比,今天的 AI 應(yīng)用仍處在初級(jí)階段。想想看,上面的每一個(gè) Craigslist 類別——教育、書(shū)籍、家居裝飾等。每一個(gè)都即將被重塑。 圖像模型2022 年文本生成圖像 AI 爆發(fā)了。首先出現(xiàn)的是來(lái)自 OpenAI 的 DALL-E (這個(gè)名字綜合了藝術(shù)家薩爾瓦多·達(dá)利以及皮克斯的那部動(dòng)畫(huà)片,《機(jī)器人瓦力》,WALL-E)。當(dāng)然,不是誰(shuí)都可以直接用 DALL-E,但這方面的創(chuàng)作已經(jīng)開(kāi)始在互聯(lián)網(wǎng)上火起來(lái)了;Twitter 上面我最喜歡的賬號(hào)是 Weird DALL-E Generations。 互聯(lián)網(wǎng)上用DALL-E 生成 11 張最奇怪的圖像 | Mashable 對(duì)于這個(gè)世界大部分的地區(qū)來(lái)說(shuō),DALL-E 是 AI 的第一個(gè)真正的“哇哦”時(shí)刻。在與麻省理工學(xué)院交流時(shí),OpenAI 的 Sam Altman 把這一點(diǎn)歸功于圖像所傳遞的情感力量:
人往往更喜歡更豐富的媒體格式:Instagram (主要媒體是照片)一直都比 Twitter(以文字為主)更受歡迎;與此同時(shí),TikTok (主要是視頻)在使用上一直在蠶食 Instagram 的市場(chǎng),迫使后者也得向視頻轉(zhuǎn)型(通過(guò) Reels )。在我看來(lái),類似的偏好也會(huì)發(fā)生在生成式人工智能身上:圖像 > 文本,很快,視頻也會(huì) > 圖像,以及最終沉浸式 3D 體驗(yàn)將 > 視頻。(消費(fèi)者偏好的這一事實(shí)也是我從長(zhǎng)遠(yuǎn)看繼續(xù)看好 VR 和 AR 的原因。) 在 DALL-E 起勢(shì)之后,去年夏天 Stable Diffusion 和 Midjourney 的出現(xiàn)徹底改變了局面。Stable Diffusion 具有開(kāi)創(chuàng)性,因?yàn)樗情_(kāi)源的,這意味著開(kāi)發(fā)者基于它做開(kāi)發(fā)。稍微解釋一下,Stable Diffusion 將擴(kuò)散從像素空間轉(zhuǎn)移到了潛在空間,從而推動(dòng)了質(zhì)量的顯著提高。(如果你感興趣的話,可以看看這一篇文章 下圖是 Midjourney、DALL-E 2 以及 Stable Diffusion 在使用相同的文本提示時(shí)生成的圖像,各自風(fēng)格略有不同: 下面這條時(shí)間線從更寬泛的角度展示了 AI 圖像生成在過(guò)去十年是如何得到改進(jìn)的(請(qǐng)留意近年來(lái)提示的復(fù)雜性的不斷增加,以及輸出的保真度在不斷提高): 去年是圖像模型的轉(zhuǎn)折點(diǎn),生成的圖像質(zhì)量得到了迅速提高。舉個(gè)例子:眾所周知,AI 很不擅長(zhǎng)創(chuàng)作手。除非 AI 具有出色的上下文感知能力,否則很難知道已經(jīng)弄出了多少根手指。其結(jié)果是我們最終會(huì)得到很多有四根或六根手指的手。下圖是 Midjourney v3(2022 年 7 月)與 Midjourney v4(2022 年 11 月)生成結(jié)果的對(duì)比,你能看出結(jié)果有了明顯改進(jìn):不再會(huì)出現(xiàn)有兩只喙或三條腿的企鵝。 當(dāng)我想到圖像生成早期遇到的挑戰(zhàn)時(shí),就會(huì)回想起一個(gè)世紀(jì)前動(dòng)畫(huà)在早期面臨的挑戰(zhàn)。米老鼠為什么要戴手套?原因之一是這樣制作動(dòng)畫(huà)可以更快;手是很難畫(huà)的?!堵斆鞅坎罚‵red Flintstone) 和 喬治·杰森(George Jetson)也是如此——你看不見(jiàn)他們的脖子,因?yàn)橛胁弊右馕吨巧恼麄€(gè)身體都得跟隨每個(gè)動(dòng)作和表情而移動(dòng)。這意味著動(dòng)畫(huà)師要做更多的工作。領(lǐng)帶和高領(lǐng)讓動(dòng)畫(huà)師得以投機(jī)取巧,加快制作動(dòng)畫(huà)的速度。 杰里·鄧肯(Jerry Duncan)與聰明笨伯交談 - Dean Kaner,《幽默時(shí)代》 當(dāng)然了,半個(gè)世紀(jì)之后,動(dòng)畫(huà)已經(jīng)取得了長(zhǎng)足進(jìn)步?!逗5卓倓?dòng)員》在某種程度上是皮克斯展示自己可以制作出逼真的水動(dòng)畫(huà)的借口?!豆肢F電力公司》里面的形象也是如此。皮克斯一直等到第 6 部動(dòng)畫(huà)片《超人總動(dòng)員》才第一次開(kāi)始描寫(xiě)人類的故事,因?yàn)?CGI 技術(shù)之前還沒(méi)有為此做好準(zhǔn)備(指玩具總動(dòng)員)之所以專門講玩具,部分是因?yàn)槠た怂惯€不能對(duì)逼真的人類細(xì)節(jié)進(jìn)行渲染——所以在電影中你幾乎看不見(jiàn)安迪和他媽媽的影子)。 數(shù)字創(chuàng)作的軌跡正在沿著動(dòng)畫(huà)的軌跡前進(jìn),但技術(shù)發(fā)展的步伐只會(huì)越來(lái)越快。比方說(shuō),上面 Midjourney 生成的企鵝圖像之間的差異只是短短幾個(gè)月之間的對(duì)比結(jié)果。 語(yǔ)言模型《黑鏡》第二季的《馬上回來(lái)》(Be Right Back)講的是一對(duì)夫妻一起搬進(jìn)了新家。結(jié)果第二天,丈夫出車禍身亡了。后來(lái)他的遺孀得知有一項(xiàng)新服務(wù)可以讓她與已故的丈夫聊天;這款工具能夠消化短信以及社交媒體的歷史記錄,從而了解伴侶會(huì)如何回應(yīng),然后代替他與客戶聊天。這一集(2013 年播出)的情節(jié)現(xiàn)在已經(jīng)成為現(xiàn)實(shí)。在針對(duì)個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練的基礎(chǔ),初創(chuàng)企業(yè) HereAfter.ai 就提供了與已故親屬的互動(dòng)化身聊天的服務(wù)。 去年,在圖像模型出現(xiàn)飛躍的同時(shí),語(yǔ)言模型也突飛猛進(jìn)。去年 11 月, OpenAI 推出了 ChatGPT ,剛推出五天,這款聊天工具就收獲了 100 萬(wàn)用戶。ChatGPT 的表現(xiàn)令人難以置信;使用它的感覺(jué)跟你第一次用上 Google Search 一樣,都有“魔法時(shí)刻”降臨的感覺(jué)。(每次使用 ChatGPT 時(shí),我都會(huì)想起亞瑟·克拉克的名言:“任何足夠先進(jìn)的技術(shù)都與魔法無(wú)異?!保?/span> 下面的一些例子說(shuō)明了 ChatGPT 能做什么: 提示:“什么是蟲(chóng)洞?把我當(dāng)作 5 歲小孩給我解釋一下?!?/span> 讓chatgpt用通俗易懂的方式解釋蟲(chóng)洞 提示:“提供一個(gè) 29 歲生日派對(duì)的創(chuàng)意?!?/span> 使用 chatGPT提出派對(duì)創(chuàng)意 提示:“用伴奏的和弦寫(xiě)一首關(guān)于在家工作的歌曲?!?/span> 讓 chatgpt用和弦寫(xiě)音樂(lè) 人工智能現(xiàn)在這種發(fā)展和采用的節(jié)奏可以追溯到 2017 年當(dāng)時(shí)谷歌發(fā)表的一篇開(kāi)創(chuàng)性論文,《Attention Is All You Need》。這篇論文由 Cohere.ai 創(chuàng)始人 Aidan Gomez 與人合著,從中催生出一個(gè)規(guī)模呈指數(shù)級(jí)增長(zhǎng)的“transformer”模型時(shí)代。 不到三年前的 GPT-3 推出時(shí)的參數(shù)規(guī)模為約 2000 億,但新的 GPT-4 將有約 1,000,000,000,000(萬(wàn)億)個(gè)參數(shù)。 來(lái)源:Erin Price-Wright 在提出新想法、理解上下文以及回憶信息的能力方面,每個(gè)新模型都實(shí)現(xiàn)了飛躍。但更大的模型的訓(xùn)練成本也高很多。訓(xùn)練有數(shù)千億個(gè)參數(shù)的模型可能要花費(fèi)數(shù)百萬(wàn)美元。出于這個(gè)原因,大規(guī)模模型正在成為初創(chuàng)公司創(chuàng)立的基礎(chǔ)。我的同事 Erin Price-Wright 將其類比為亞馬遜的 AWS 或微軟的 Azure——數(shù)百萬(wàn)企業(yè)所依賴的云計(jì)算平臺(tái)。 比方說(shuō),許多初創(chuàng)公司都建立在 OpenAI 的 GPT-3 基礎(chǔ)之上。舉個(gè)例子,Jasper 提供了一個(gè)由 GPT-3 提供支持的 AI 撰稿人。每月只需交 29 美元,Jasper 就能讓你擁有寫(xiě)作的超能力。不過(guò),Jasper 對(duì) OpenAI 推出免費(fèi)的 ChatGPT 感到吃驚,擔(dān)心這會(huì)蠶食自己的業(yè)務(wù)?;A(chǔ)模型和基于這些模型建立的公司之間的關(guān)系會(huì)如何發(fā)展?這是今年值得關(guān)注的一件事情。 生成式 AI 的用例手寫(xiě)文字識(shí)別是最早的人工智能形式之一,郵政服務(wù)主要用它來(lái)讀取信封上的地址。但是人工智能的這個(gè)用例非常特殊。在生成式人工智能方面,我們已經(jīng)看到:1) 圖像和語(yǔ)言模型有了巨大改進(jìn),以及 2)OpenAI、Hugging Face、Stability.ai 等公司提供的寶貴基礎(chǔ)設(shè)施。這兩個(gè)因素相結(jié)合拓寬了用例的可能性。 AI系統(tǒng)的語(yǔ)言與圖像識(shí)別能力得到了迅速改進(jìn) 資料來(lái)源:Our World in Data 之前在與 Daniel Gross 和 Ben Thompson 進(jìn)行對(duì)話時(shí),Nat Friedman 關(guān)于機(jī)會(huì)的思考方式我很喜歡:
我喜歡這個(gè)比喻。任何人都可以更輕松地開(kāi)發(fā)出利用 AI 去畫(huà)畫(huà)的工具。變革每個(gè)行業(yè)的機(jī)會(huì)已經(jīng)成熟。 如果極度簡(jiǎn)化的話,我們可以把用例分為兩類:1)創(chuàng)意類,以及 2)生產(chǎn)力類。 說(shuō)到創(chuàng)意,我們看到生成式人工智能降低了創(chuàng)作的門檻。利用 Midjourney,你可以給電影制作概念圖。Latitude.ai 等公司開(kāi)發(fā)出 AI Dungeon 等游戲,利用 GPT-3 進(jìn)行 AI 驅(qū)動(dòng)的探索。與此同時(shí),Alpaca 所做的 Photoshop 插件演示在 Twitter 掀起了一股風(fēng)暴;這家公司的使命是“將 AI 圖像生成能力與人類技能結(jié)合到一起”。 我過(guò)去也曾寫(xiě)過(guò)創(chuàng)意工具日益普及的文章。早在 2015 年時(shí),Steven Johnson 就曾在《紐約時(shí)報(bào)》上撰文:
這很了不起,而且至今依然適用:2020 年奧斯卡最佳影片《寄生蟲(chóng)》就是用 Final Cut Pro 剪輯的。工具正逐漸變得更實(shí)惠、更容易獲得,讓更多的創(chuàng)作涌現(xiàn)。 人工智能拓寬了可能性。想象一下由人工智能驅(qū)動(dòng)的 Roblox Studio,或者當(dāng)人工智能與 Figma 結(jié)合在一起時(shí)可以解鎖什么。我制作這張圖至今已過(guò)去兩年多了: YouTube 是革命性的,但卻給創(chuàng)作制造了很高的門檻:1) 工具需要昂貴的投入,以及 2) 使用這些工具需要具備 know-how 知識(shí)。TikTok 這一類似無(wú)代碼的方式降低了這些門檻,創(chuàng)造出一個(gè)公平的競(jìng)爭(zhēng)環(huán)境。其結(jié)果是 YouTube 上大概每 1000 人才有 1 人創(chuàng)作內(nèi)容,而接近 60% 的 TikTok 用戶都會(huì)自己創(chuàng)作內(nèi)容。 也許今年這張圖可以用第三個(gè)框更新一下——一個(gè)超越無(wú)代碼創(chuàng)作工具的更直觀、強(qiáng)大的工具,并在創(chuàng)作內(nèi)容的過(guò)程中利用生成式人工智能。用這個(gè)工具為 Instagram 制作照片、為 TikTok 制作視頻或?yàn)槿律缃痪W(wǎng)絡(luò)創(chuàng)作內(nèi)容。 就像人工智能增強(qiáng)了創(chuàng)意一樣,人工智能也增強(qiáng)了生產(chǎn)力。我們?cè)谫x予作者和營(yíng)銷人員超能力的工具中就能看到這一點(diǎn),比方說(shuō)像 Jasper.ai、Copy.ai、Lex 這樣的工具。我讓 ChatGPT 幫我頭腦風(fēng)暴,給我的自媒體設(shè)計(jì)新標(biāo)語(yǔ),它的推薦令人印象深刻: 我們從 Gong 身上看到了生產(chǎn)力的提升,它運(yùn)用了 AI 來(lái)幫助 B2B 銷售團(tuán)隊(duì)提高效率和效力。我們?cè)?Osmosis 身上也能看到這一點(diǎn),它可以幫助廣告代理商生成 AI 廣告。我們?cè)?GitHub Copilot 身上也能看到這一點(diǎn),它可以將自然語(yǔ)言提示轉(zhuǎn)化為數(shù)十種編程語(yǔ)言的編碼推薦,而且從 2022 年 6 月開(kāi)始,所有開(kāi)發(fā)者均可用上這款插件。(在安裝了 Copilot 的項(xiàng)目當(dāng)中,約 40% 的代碼是由它生成的,在五年之內(nèi)這個(gè)比例可能會(huì)達(dá)到 80%。) GitHub Copilot:你的 AI 結(jié)對(duì)程序員 | GitHub博客_ 人工智能(尤其是建立在語(yǔ)言模型基礎(chǔ)之上的人工智能)的早期目標(biāo)是死記硬背的重復(fù)性任務(wù)。我認(rèn)為有一個(gè)領(lǐng)域被重塑的時(shí)機(jī)已經(jīng)成熟:那就是客戶支持。這些是今天的人工智能已經(jīng)可以取得重大進(jìn)展的領(lǐng)域。更復(fù)雜的任務(wù)(比如 3D 游戲創(chuàng)作)在未來(lái)會(huì)有進(jìn)一步的發(fā)展。但任何涉及人類創(chuàng)作的行業(yè)(基本上算是每個(gè)行業(yè)都要受到波及)都會(huì)感受到人工智能的影響。 我看到有人已經(jīng)開(kāi)始拿早期 AI 應(yīng)用和早期 iPhone 應(yīng)用做比較。還記得手電筒 app、lightsaber app、lighter app 嗎?還記得《水果忍者》(Fruit Ninja)以及《勁樂(lè)團(tuán)》(Tap Tap Revenge )嗎?我們正處在 app 的早期階段,現(xiàn)在判斷什么樣的應(yīng)用是殺手級(jí)應(yīng)用還為時(shí)過(guò)早。一個(gè)迫在眉睫的問(wèn)題是企業(yè)如何才能建立起競(jìng)爭(zhēng)性護(hù)城河;真正的技術(shù)差異化將變得很罕見(jiàn),公司需要找到保持競(jìng)爭(zhēng)優(yōu)勢(shì)的方法,也許是通過(guò)建立網(wǎng)絡(luò)效應(yīng),也許是建立用戶互動(dòng)與產(chǎn)品改進(jìn)的迭代循環(huán)。畢竟,事實(shí)證明,2008 年代的手電筒應(yīng)用并沒(méi)有多厚實(shí)的護(hù)城河。 現(xiàn)在的手電筒應(yīng)用已經(jīng)多如牛毛 但正如我們?cè)趲啄陜?nèi)就從 lightsaber 應(yīng)用發(fā)展到 Uber ,從《水果忍者》發(fā)展到 Instagram 一樣,生態(tài)體系也將迅速發(fā)展,有生命力、差異化、跨時(shí)代的公司也將會(huì)出現(xiàn)。 商業(yè)模式軟件即服務(wù)是個(gè)好東西。可預(yù)測(cè)的經(jīng)常性收入。80% 以上的毛利率。理想情況下,凈收入留存率(NDR) >100%,這意味著即便沒(méi)有獲得任何新客戶,你的業(yè)務(wù)也會(huì)逐年穩(wěn)步增長(zhǎng)。(140% NDR 意味著在新客戶為零的情況,你的收入仍同比增長(zhǎng) 40% ) 。 我的直覺(jué)是,很多最好的人工智能初創(chuàng)企業(yè)將是 SaaS 公司。好東西為什么要改? 比方說(shuō),Runway 就是最令人興奮的人工智能公司之一。Runway 提供了一個(gè)由 AI 驅(qū)動(dòng)的創(chuàng)作套件,看過(guò)它的產(chǎn)品演示之后你會(huì)瞠目結(jié)舌的。 從演示視頻可以看出,Runway 提供了文本生成視頻功能,讓你可以用魔法召喚出一條城市街道,然后快速做出更改(比方說(shuō),移除燈柱,或?qū)⒁曨l設(shè)為黑白)。想象一下你在好萊塢從事特效工作——Runway 可以讓你在幾秒鐘之內(nèi)添加大爆炸效果,而如果沒(méi)有 AI 的話,你得花費(fèi)大量的時(shí)間和金錢來(lái)做特效。CBS 就是他們的客戶之一,使用 Runway 之后,他們的晚間秀剪輯時(shí)間從 5 小時(shí)縮短到了 5 分鐘。New Balance 是另一個(gè)客戶,他們?cè)?Runway 上用定制的生成模型來(lái)設(shè)計(jì)下一代運(yùn)動(dòng)鞋。 Runway 的定價(jià)對(duì)于任何 SaaS 愛(ài)好者來(lái)說(shuō)都很熟悉: 我們還看到人工智能公司轉(zhuǎn)向了其他我們熟悉的商業(yè)模式。Midjourney 依賴消費(fèi)者訂閱。去年 12 月,Lensa 開(kāi)始風(fēng)靡全球,其商業(yè)模式是免費(fèi)增值 + 小額支付。50 個(gè)一組的自定義頭像花掉了我 8.99 美元。 1/ Lensa的興起可以作為消費(fèi)者行為的一個(gè)有趣的案例研究:Lensa app其實(shí)早在 2018 就有了,但在推出四年之后的本周才升至應(yīng)用商店的第一名。關(guān)鍵是Lensa 推出了AI 驅(qū)動(dòng)的“魔法化身”功能。 當(dāng)然了,Lensa 面臨的挑戰(zhàn)是防御能力;Lensa 的命脈建立在 Instagram、Twitter 和 TikTok 之上,它得弄清楚如何建立自己的護(hù)城河。(同樣的問(wèn)題對(duì)基于基礎(chǔ)模型創(chuàng)立的 SaaS 公司也許同樣適用,就像我們之前在 Jasper 與 ChatGPT 的關(guān)系中所看到的那樣。)話雖如此,也許 Lensa 并不太關(guān)心護(hù)城河——據(jù)報(bào)道該公司在短短幾周內(nèi)就賺了 4000 到 5000 萬(wàn)美元,將來(lái)會(huì)出現(xiàn)許多能賺錢且對(duì)開(kāi)發(fā)者很有意義的 AI 應(yīng)用,它們無(wú)需(或可能也不希望)取得風(fēng)投規(guī)模的成果。(編者注:小富即安) PromptBase 這家富有創(chuàng)意的新公司采用的商業(yè)模式我們也很熟悉。PromptBase 是文本生成圖像提示的交易市場(chǎng)——這可能是生成式人工智能的首批交易市場(chǎng)之一。想出正確的提示,從而制作出令人驚嘆的 AI 藝術(shù)作品是非常困難的。最美的作品往往源自于詳細(xì)的提示,而撰寫(xiě)提示本身就是一門手藝。以下是生成 Stable Diffusion 圖像的示例提示:
PromptBase 上面交易的是類似這樣冗長(zhǎng)、高度具體的提示。到目前為止,該交易市場(chǎng)已有 11000 名用戶。 關(guān)于AI 應(yīng)用商業(yè)模式的走向,一個(gè)簡(jiǎn)短回答是我們可能會(huì)看到與上一代技術(shù)(及大型企業(yè))相同的商業(yè)模式。也會(huì)有廣告驅(qū)動(dòng)的社交網(wǎng)絡(luò)、小額支付驅(qū)動(dòng)的 MMO(大型多人在線游戲)、按使用的定價(jià)模式。交易市場(chǎng)可能(再次)被證明是需要更多資本來(lái)擴(kuò)大規(guī)模的業(yè)務(wù),但將(再次)體現(xiàn)出強(qiáng)大的網(wǎng)絡(luò)效應(yīng),從而建立起強(qiáng)大的護(hù)城河。SaaS 將(再次)證明是最理想的商業(yè)模式之一,盡管針對(duì)“企業(yè)型 SaaS 市場(chǎng)已經(jīng)十分擁擠”的噪音,AI SaaS 型公司將需要一流的產(chǎn)品來(lái)消除大家的疑慮。 最后思考及關(guān)鍵問(wèn)題一旦某項(xiàng)技術(shù)普遍改變了各種商品或服務(wù)的生產(chǎn)方式,就會(huì)被稱為是“通用技術(shù)”。Our World In Data 的團(tuán)隊(duì)認(rèn)為,人類有兩種主要的通用技術(shù):1)農(nóng)業(yè)革命賦予我們大規(guī)模的糧食生產(chǎn),讓我們從狩獵和采集過(guò)渡到農(nóng)業(yè);2) 工業(yè)革命賦予了我們大規(guī)模制造的能力。我認(rèn)為互聯(lián)網(wǎng)的出現(xiàn)——也就是數(shù)字革命——將標(biāo)志著第三次革命的出現(xiàn)。但我也同意他們的觀點(diǎn),Transformative AI 是下一個(gè)通用技術(shù): 這是一個(gè)激動(dòng)人心的時(shí)刻。炒得過(guò)火了?也許有一點(diǎn)。但這種炒作也會(huì)吸引到推動(dòng)該領(lǐng)域發(fā)展的人才;從某些方面來(lái)說(shuō),炒作有自我實(shí)現(xiàn)的成分。 人工智能不會(huì)自己發(fā)展。我們需要弄清楚如何與人工智能共存,并利用它來(lái)增強(qiáng)人類的能力。學(xué)校正在努力弄清楚如何應(yīng)付 ChatGPT,有很多學(xué)校選擇禁止它的使用。但我同意沃頓商學(xué)院教授 Ethan Mollick 的觀點(diǎn),他認(rèn)為,“大型語(yǔ)言模型在未來(lái)幾年內(nèi)不會(huì)停止發(fā)展。我們需要找到一種辦法來(lái)適應(yīng)這些工具,而不僅僅是取締它們?!苯裉斓暮⒆訉⑸钤谝粋€(gè)到處都是人工智能的世界里;他們需要了解如何去駕馭那個(gè)世界。 當(dāng)然,還有一些重大的倫理問(wèn)題需要解決——技術(shù)的飛躍往往會(huì)在影響深遠(yuǎn)與反烏托邦這兩個(gè)極端之間徘徊。我們需要弄清楚的問(wèn)題包括:
要弄清楚的事情還有很多。大規(guī)模的技術(shù)進(jìn)步往往會(huì)引起大規(guī)模的社會(huì)不和與爭(zhēng)執(zhí),甚至還會(huì)導(dǎo)致沖突。這是悲觀的看法。 我輸入的提示:“生活在一個(gè)用人工智能建設(shè)的未來(lái)社會(huì),賽博朋克風(fēng)格,高分辨率”,Midjourney生成的結(jié)果 但我永遠(yuǎn)是個(gè)技術(shù)樂(lè)觀主義者,對(duì)我來(lái)說(shuō)這是一個(gè)激動(dòng)人心的時(shí)刻——只要我們采取正確的保護(hù)措施即可。我以前曾引用過(guò) Midjourney 的 David Holz 的這句話,但我喜歡的是它對(duì)機(jī)會(huì)的思考方式:
Midjourney對(duì)提示“想象力引擎”的詮釋 再用一個(gè)令人興奮的想法來(lái)結(jié)束本文:生成式人工智能很快就會(huì)與其他成熟的技術(shù)發(fā)生沖突,比如 VR 和 AR。想象一下生成沉浸式三維虛擬世界的文本提示。這可能會(huì)在不久之后成為可能。技術(shù)發(fā)展往往非常迅速:在人的一生(63 年)之內(nèi),我們就從萊特兄弟首次實(shí)現(xiàn)飛行(1903 年)發(fā)展到了將人送上距離地球 384400 公里之遙的月球(1969 年)。而今天出生的人們,他們將目睹人工智能重塑人類生活、工作和社會(huì)的方方面面。 |
|
來(lái)自: 天承辦公室 > 《008矩陣進(jìn)化》