一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Reddit要收取API訪問費,盯著AI廠商來薅羊毛

 三易生活 2023-05-01 發(fā)布于湖北

進入2023年后,或許已經(jīng)鮮少有網(wǎng)友還沒聽過ChatGPT這個大名。這一繼元宇宙之后出現(xiàn)的“新浪潮”,儼然已經(jīng)成為了今年科技圈的風口,包括海外市場的微軟、谷歌、亞馬遜,以及國內的百度、阿里、騰訊、字節(jié)跳動在內,幾乎但凡有一定技術實力的科技廠商也悉數(shù)下場,即便是技術力不夠的廠商也是八仙過海各顯神通,有諸如知乎這樣聯(lián)手合作伙伴的,也有像“美國貼吧”Reddit這樣“賣資源”的。

日前Reddit方面宣布,將開始對使用其應用程序編程接口(API)的企業(yè)收費,該接口則提供了下載和處理人與人之間對話的相關數(shù)據(jù)。事實上,Reddit的API自2008年以來就一直是以免費的方式開放給第三方,對于突然轉向收費,Reddit方面的解釋,是此舉為了限制其API被用于訓練人工智能工具,其中包括OpenAI的ChatGPT、谷歌的Bard,以及微軟的Bing AI等。

盡管Reddit暫時還沒有公布其API的具體收費標準,但官方已經(jīng)透露,將為“需要額外功能、更高使用限制和更廣泛使用權的第三方,引入一個新的高級接入點”。而為了避免被外界指責“吃相難看”,Reddit方面還表示將會對一些訪問API的用戶免費,而這類用戶則主要包括科研機構的研究人員,或是從事非商業(yè)目的的研究員。

Reddit為何敢于去收這筆錢呢?其實成立于2005年的Reddit,已經(jīng)是全球互聯(lián)網(wǎng)中歷史最悠久、同時也最有活力的社區(qū)之一。截止2021年10月,也就是Reddit官方最后一次披露的用戶數(shù)據(jù)表明,其擁有5300萬DAU和超過4.3億MAU。而來自Statista的數(shù)據(jù)顯示,Reddit是全美訪問量第六大的社交媒體,月活水平與Instagram、Twitter幾乎持平。

如此海量的用戶也造就了Reddit的活躍社區(qū)總數(shù)超過了14萬個,帖子總量超過3.66億,評論總數(shù)為23億,這也代表著沉淀在Reddit的內容已然成為了一個極為驚人的語料庫。而在AI領域,語料(Corpus)通常是一定數(shù)量和規(guī)模的文本資源集合,作為一個以論壇為形式展開業(yè)務的平臺,Reddit顯然是當下英語互聯(lián)網(wǎng)中最潮流、最日新月異的語料庫。例如OpenAI開發(fā)的ChatGPT以及最新的GPT-4,就有很多訓練數(shù)據(jù)被證實是來源于Reddit。

就像數(shù)據(jù)之于算法一樣,語料則是ChatGPT這類生成式AI更加智慧的基礎所在。生成式AI的原理,大概可以總結為通過大量的語料庫進行訓練,以建立相應的模型,從而使得AI能夠對人類的問題作出相應的回答和決策,其核心邏輯就是“猜謎游戲”。經(jīng)過大量的訓練后,AI預測出問題的答案,并不等于擁有智慧,而只是在玩文字游戲,進行一次又一次的概率解謎,本質上與人類玩數(shù)獨或填字游戲是一樣的。

那么ChatGPT為什么會表現(xiàn)得比以往的人工智能產品、比如Siri更聰明呢?其實單純是因為語料規(guī)模更大。例如GPT-3就擁有的1750億的參數(shù)量、45TB的訓練數(shù)據(jù),以及高達1200萬美元的訓練費用,這也是OpenAI打造ChatGPT的基礎。而ChatGPT聰明的關鍵就在于涌現(xiàn)能力(Emergent ability)上,指的是在不進行參數(shù)更新的情況下,只在輸入中加入幾個示例,就能讓模型進行學習。

涌現(xiàn)能力從何而來呢,根據(jù)Google&Deepmind聯(lián)合發(fā)布的相關論文顯示,模型在沒有達到一定規(guī)模前,得到的表現(xiàn)較為隨機,但在突破規(guī)模的臨界點后,表現(xiàn)則會大幅度提升。

例如在BIG-Bench上,GPT-3和LaMDA在未達到臨界點時,模型的表現(xiàn)都是接近于零。而在GPT-3的規(guī)模突破2 · 10^22 training FLOPs (13B參數(shù)),LaMDA的規(guī)模突破10^23 training FLOPs (68B參數(shù))后,表現(xiàn)就開始快速上升。

“力大磚飛”就是當下大語言模型的底層邏輯,在這種情況下,語料基本決定了大語言模型的上限。語料雖然是越多越好,但問題是已經(jīng)沒有更多高質量的數(shù)據(jù)供模型進行訓練了。

AI研究團隊Epoch在今年年初發(fā)表的論文表明,AI不出5年就會把人類所有的高質量語料用光。而且這一結果,則是Epoch將人類語言數(shù)據(jù)增長率,即全體人類未來5年內出版的書籍、撰稿的論文、編寫的代碼,都考慮在內預測出的結果。

Epoch團隊將語料分為了高質量和低質量兩種,其中高質量的語料指的是包括維基百科、新聞網(wǎng)站、GitHub上的代碼、出版書籍等,低質量語料則來源于Twitter、Facebook,以及Reddit上的內容。

正常情況下,AI廠商自然更愿意使用高質量的語料,畢竟這能夠在最大限度上避免被偏見和歧視性言論“污染”。但問題是,據(jù)統(tǒng)計,高質量語料數(shù)據(jù)的存量只剩下約4.6×10^12~1.7×10^13個單詞,相比當前最大的文本數(shù)據(jù)集大了不到一個數(shù)量級。

所以當高質量語料不夠用的情況下,低質量語料即便再不好用也得用,不然大語言模型要如何成長。而對于低質量語料,充其量也只是在數(shù)據(jù)標注和清洗上投入更多成本,所以OpenAI、谷歌、亞馬遜等公司相當于就沒得選。所以Reddit如今就正是挾語料自重,料定了AI廠商只能硬著頭皮買。

【本文圖片來自網(wǎng)絡】

推薦閱讀:

釘釘為何不怕被打低分?因為這并不重要

消費者與用戶的分離,才是釘釘并不懼怕“低分”的最重要因素。

更多折疊屏機型即將亮相,“小折疊”或將引爆市場

“小折疊”的產品特性,或將使得其未來更受消費者青睞。

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲伊人久久精品国产| 91人妻人澡人人爽人人精品| 老熟妇2久久国内精品| 欧美日韩在线第一页日韩| 成年午夜在线免费视频| 国产成人亚洲精品青草天美| 99精品国产一区二区青青| 日本欧美三级中文字幕| 白白操白白在线免费观看| 日本亚洲精品在线观看| 亚洲中文字幕高清视频在线观看| 国产一区二区三区四区免费| 夫妻性生活一级黄色录像| 国产欧美日韩在线精品一二区 | 欧美一区二区三区十区| 国产成人精品午夜福利av免费| 手机在线不卡国产视频| 亚洲中文字幕乱码亚洲| 国产精品国产亚洲区久久| 日本加勒比系列在线播放| 色哟哟精品一区二区三区| 日韩毛片视频免费观看| 99久只有精品免费视频播放| 国产亚州欧美一区二区| 婷婷九月在线中文字幕| 免费在线播放不卡视频| 国产老熟女超碰一区二区三区| 国产一级性生活录像片| 熟妇久久人妻中文字幕| 亚洲精品成人午夜久久| 亚洲专区一区中文字幕| 妻子的新妈妈中文字幕| 久草国产精品一区二区| 国内精品一区二区欧美| 国产精品福利一级久久| 国产欧美日韩一级小黄片| 人妻少妇av中文字幕乱码高清| 成年午夜在线免费视频| 有坂深雪中文字幕亚洲中文 | 国产精品熟女乱色一区二区| 一区二区三区日韩在线|