確實(shí)是這樣,如果沒有數(shù)據(jù)的話,人工智能技術(shù)就是空中樓宇。不過幸好歐美一些科研機(jī)構(gòu)和政府組織,開放了一些高質(zhì)量的免費(fèi)數(shù)據(jù),接下來提供30個(gè)免費(fèi)的在線大數(shù)據(jù)來源: 1、 世界銀行開放數(shù)據(jù)(World Bank Open Data),是涵蓋了全球人口統(tǒng)計(jì)數(shù)據(jù)、大量經(jīng)濟(jì)和發(fā)展指標(biāo)的數(shù)據(jù)集。 2、 國(guó)際貨幣基金組織數(shù)據(jù)(IMF Data),國(guó)際貨幣基金組織公布的國(guó)際財(cái)務(wù)狀況、債務(wù)率、外匯儲(chǔ)備、商品價(jià)格和投資數(shù)據(jù)。 3、 美國(guó)國(guó)家教育統(tǒng)計(jì)中心(The US National Center for Education Statistics Data),提供了覆蓋美國(guó)和世界各地的教育機(jī)構(gòu)和教育人口統(tǒng)計(jì)的數(shù)據(jù)。 4、 英國(guó)數(shù)據(jù)中心(The UK Data Centre)是英國(guó)最大的社會(huì)、經(jīng)濟(jì)和人口的數(shù)據(jù)集。 5、 FiveThirtyEight,有大量提供政治和體育問題輿論數(shù)據(jù)的民意調(diào)查。 6、 FBI統(tǒng)一犯罪報(bào)告(FBI Uniform Crime Reporting),聯(lián)邦調(diào)查局負(fù)責(zé)編輯和出版國(guó)家犯罪統(tǒng)計(jì)數(shù)據(jù),并在國(guó)家、州和縣級(jí)提供免費(fèi)數(shù)據(jù)。 7、 美國(guó)司法局(Bureau of Justice),在這里你可以找到關(guān)于美國(guó)執(zhí)法機(jī)構(gòu)、監(jiān)獄、假釋和緩刑機(jī)構(gòu)及法院的數(shù)據(jù)。 8、 Qlick Data Market提供免費(fèi)包,可訪問涵蓋世界人口、貨幣、發(fā)展指標(biāo)和天氣數(shù)據(jù)的數(shù)據(jù)集。 9、 美國(guó)宇航局外行星存檔(NASA Exoplanet Archive)的公共數(shù)據(jù)集涵蓋了由美國(guó)宇航局空間探索任務(wù)收集的行星和恒星數(shù)據(jù)。 10、聯(lián)合國(guó)貿(mào)易數(shù)據(jù)庫(UN Comtrade Database Statistics)統(tǒng)計(jì)是由聯(lián)合國(guó)匯編并出版的資料,包括Comtrade Lab,展示了如何使用尖端分析和工具從數(shù)據(jù)中提取價(jià)值。 11、金融時(shí)報(bào)市場(chǎng)數(shù)據(jù)(Financial Times Market Data)是關(guān)于全球金融市場(chǎng)的最新信息,包括股票價(jià)格指數(shù)、商品和外匯。 12、谷歌趨勢(shì)(Google Trends)是檢查和分析全球互聯(lián)網(wǎng)上搜索活動(dòng)和趨勢(shì)新聞的數(shù)據(jù)。 13、Twitter,Twitter的優(yōu)勢(shì)在于大多數(shù)對(duì)話都是公開的,這意味著大量的數(shù)據(jù)可以通過其API獲得,誰正在談?wù)撌裁?,何地、何時(shí)以及為什么。 14、谷歌學(xué)術(shù)(Google Scholar)包括學(xué)術(shù)論文、期刊、書籍和法律判例法的文本內(nèi)容。 15、Instagram,與Twitter一樣,Instagram的帖子和對(duì)話默認(rèn)為公開,其API允許對(duì)喜歡、提及和商業(yè)細(xì)節(jié)進(jìn)行分析。 16、OpenCorporates是全球最大的企業(yè)開放數(shù)據(jù)庫。 17、Glassdoor API提供了有關(guān)職位空缺、候選人、薪水和員工滿意度的信息,可通過他們的開發(fā)者API獲得。 18、IMDB Datasets,是從網(wǎng)絡(luò)上最大的電影、電視和從業(yè)人員中獲得的多種格式數(shù)據(jù)集。 19、OpenLibrary Data Dumps是關(guān)于世界各地圖書館書籍目錄的數(shù)據(jù)集。 20、Labelled Faces in the Wild整理并標(biāo)記了13,000個(gè)人臉圖像,用于開發(fā)涉及面部識(shí)別的應(yīng)用。 21、Microsoft Marco是微軟的開放式機(jī)器學(xué)習(xí)數(shù)據(jù)集,用于閱讀理解和問題回答的培訓(xùn)系統(tǒng)。 22、機(jī)器學(xué)習(xí)數(shù)據(jù)集知識(shí)庫(Machine Learning Dataset Repository)由集合了由參與機(jī)器學(xué)習(xí)項(xiàng)目的數(shù)據(jù)科學(xué)家貢獻(xiàn)的開放數(shù)據(jù)集。 23、易趣市場(chǎng)數(shù)據(jù)洞察(eBay Market Data Insights)提供了來自eBay的數(shù)以百萬計(jì)的在線銷售和拍賣數(shù)據(jù)。 24、自然歷史博物館數(shù)據(jù)門戶(Natural History Museum Data Portal)提供了關(guān)于倫敦博物館藏品中近400萬個(gè)歷史標(biāo)本的信息,以及自然世界的科學(xué)錄音。 25、歐洲核子研究中心開放數(shù)據(jù)(CERN Open Data),歐洲核子研究中心開展的粒子物理實(shí)驗(yàn)提供了超過1PB的數(shù)據(jù)。 26、One Million Audio Cover Images數(shù)據(jù)集托管在上,涵蓋世界各地發(fā)布的音樂,用于圖像處理研究 27、Complete Public Reddit Comments Corpus,2007年至2015年期間在Reddit上發(fā)布的10多億份公共評(píng)論,用于訓(xùn)練語言算法。 28、Microsoft Azure Data Markets Free Datasets,提供了涵蓋從農(nóng)業(yè)到天氣所有內(nèi)容的免費(fèi)數(shù)據(jù)集。 29、Irish Electric Vehicle Charge Point Status收集了這個(gè)負(fù)責(zé)愛爾蘭共和國(guó)和北愛爾蘭電動(dòng)汽車充電站網(wǎng)絡(luò)數(shù)據(jù)機(jī)構(gòu)的數(shù)據(jù)。 30、LondonAir提供了來自倫敦各地的污染和空氣質(zhì)量數(shù)據(jù)。 |
|