一個(gè)產(chǎn)業(yè)的蓬勃發(fā)展離不開基礎(chǔ)知識(shí)點(diǎn)的整理與沉淀。 我們相信這一份「208個(gè)關(guān)于大數(shù)據(jù)和人工智能的專用名詞術(shù)語」中英文對(duì)照版 ;會(huì)成為大家以后日常工作中常用的工具,無論是你在翻譯、寫產(chǎn)品文檔、寫論文、又或者嘗試國外新技術(shù)的時(shí)候都會(huì)用得上。所以,我們很高興可以把它整合并且分享出來,并且按照字母進(jìn)行了排序。 由于文字太多,今天先放出從A-I部分,明天會(huì)放出J-Z部分。 感謝大家長期以來的關(guān)注和支持。 A Apache Kafka:命名于捷克作家卡夫卡,用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流媒體應(yīng)用。它如此流行的原因在于能夠以容錯(cuò)的方式存儲(chǔ)、管理和處理數(shù)據(jù)流,據(jù)說還非?!缚焖佟埂hb于社交網(wǎng)絡(luò)環(huán)境大量涉及數(shù)據(jù)流的處理,卡夫卡目前非常受歡迎。 Apache Mahout:Mahout 提供了一個(gè)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的預(yù)制算法庫,也可用作創(chuàng)建更多算法的環(huán)境。換句話說,機(jī)器學(xué)習(xí)極客的最佳環(huán)境。 Apache Oozie:在任何編程環(huán)境中,你都需要一些工作流系統(tǒng)通過預(yù)定義的方式和定義的依賴關(guān)系,安排和運(yùn)行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數(shù)據(jù)工作所提供正是這個(gè)。 應(yīng)用程序開發(fā)(APP DEV):應(yīng)用程序開發(fā)是根據(jù)用戶要求建造出軟件系統(tǒng)或者系統(tǒng)中的軟件部分的過程,包括需求捕捉、需求分析、設(shè)計(jì)、實(shí)現(xiàn)和測(cè)試的系統(tǒng)工程。一般是用某種程序設(shè)計(jì)語言來實(shí)現(xiàn)的。通常采用應(yīng)用程序開發(fā)工具可以進(jìn)行開發(fā)。 Apache Drill, Apache Impala, Apache Spark SQL:這三個(gè)開源項(xiàng)目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互。如果你已經(jīng)知道 SQL 并處理以大數(shù)據(jù)格式存儲(chǔ)的數(shù)據(jù)(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說的有點(diǎn)奇怪。 Apache Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲(chǔ)中的大型數(shù)據(jù)集。 Apache Pig:Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢、執(zhí)行例程的平臺(tái)。所使用的腳本語言叫做 Pig Latin(我絕對(duì)不是瞎說,相信我)。據(jù)說 Pig 很容易理解和學(xué)習(xí)。但是我很懷疑有多少是可以學(xué)習(xí)的? Apache Sqoop:一個(gè)用于將數(shù)據(jù)從 Hadoop 轉(zhuǎn)移到非 Hadoop 數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。 Apache Storm:一個(gè)免費(fèi)開源的實(shí)時(shí)分布式計(jì)算系統(tǒng)。它使得使用 Hadoop 進(jìn)行批處理的同時(shí)可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。 人工智能(Artificial Intelligence):研發(fā)智能機(jī)器和智能軟件,這些智能設(shè)備能夠感知周遭的環(huán)境,并根據(jù)要求作出相應(yīng)的反應(yīng),甚至能自我學(xué)習(xí) 聚合(Aggregation) – 搜索、合并、顯示數(shù)據(jù)的過程 算法(Algorithm):算法可以理解成一種數(shù)學(xué)公式或用于進(jìn)行數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)過程。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道,盡管算法這個(gè)詞是一個(gè)統(tǒng)稱,但是在這個(gè)流行大數(shù)據(jù)分析的時(shí)代,算法也經(jīng)常被提及且變得越發(fā)流行。 異常檢測(cè)(Anomaly detection) – 在數(shù)據(jù)集中搜索與預(yù)期模式或行為不匹配的數(shù)據(jù)項(xiàng)。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通??商峁╆P(guān)鍵的可執(zhí)行信息 匿名化(Anonymization) – 使數(shù)據(jù)匿名,即移除所有與個(gè)人隱私相關(guān)的數(shù)據(jù) 應(yīng)用(Application) – 實(shí)現(xiàn)某種特定功能的計(jì)算機(jī)軟件 分析法(Analytics):用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義。讓我們?cè)囅胍粋€(gè)很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個(gè)時(shí)候你拿著這張單子,開始認(rèn)真研究你在食品、衣物、娛樂等方面消費(fèi)情況的百分比會(huì)怎樣?你正在進(jìn)行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來年自己的消費(fèi)情況作出決定)中挖掘有用的信息。那么,如果你以類似的方法在推特和臉書上對(duì)整個(gè)城市人們發(fā)的帖子進(jìn)行處理會(huì)如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對(duì)大量數(shù)據(jù)進(jìn)行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來對(duì)它們分別進(jìn)行梳理。 B 批處理(Batch processing):盡管批量數(shù)據(jù)處理從大型機(jī)(mainframe)時(shí)代就已經(jīng)存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時(shí)代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時(shí)間內(nèi)收集到的一堆交易數(shù)據(jù))的有效方法。分布式計(jì)算(Hadoop),后面會(huì)討論,就是一種專門處理批量數(shù)據(jù)的方法。 行為分析(Behavioral Analytics):你有沒有想過谷歌是如何為你需要的產(chǎn)品/服務(wù)提供廣告的?行為分析側(cè)重于理解消費(fèi)者和應(yīng)用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網(wǎng)模式,社交媒體互動(dòng)行為,以及我們的網(wǎng)上購物活動(dòng)(購物車等),連接這些無關(guān)的數(shù)據(jù)點(diǎn),并試圖預(yù)測(cè)結(jié)果。舉一個(gè)例子,在我找到一家酒店并清空購物車后,我收到了度假村假期線路的電話。我還要說多點(diǎn)嗎? 商業(yè)智能(Business Intelligence):我將重用 Gartner 對(duì) BI 的定義,因?yàn)樗忉尩暮芎?。商業(yè)智能是一個(gè)總稱,包括應(yīng)用程序、基礎(chǔ)設(shè)施、工具以及最佳實(shí)踐,它可以訪問和分析信息,從而改善和優(yōu)化決策及績效。 生物測(cè)定學(xué)(Biometrics):這是一項(xiàng) James Bondish 技術(shù)與分析技術(shù)相結(jié)合的通過人體的一種或多種物理特征來識(shí)別人的技術(shù),如面部識(shí)別,虹膜識(shí)別,指紋識(shí)別等。 描述性分析法(Descriptive Analytics):如果你只說出自己去年信用卡消費(fèi)情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項(xiàng)開支,那么這種分析方法被稱為描述性分析法。當(dāng)然,你也可以找出更多細(xì)節(jié)。 大數(shù)據(jù)科學(xué)家(Big Data Scientist):能夠設(shè)計(jì)大數(shù)據(jù)算法使得大數(shù)據(jù)變得有用的人 大數(shù)據(jù)創(chuàng)業(yè)公司(Big data startup):指研發(fā)最新大數(shù)據(jù)技術(shù)的新興公司 B字節(jié) (BB: Brontobytes):約等于1000 YB(Yottabytes),相當(dāng)于未來數(shù)字化宇宙的大小。1 B字節(jié)包含了27個(gè)0! 大數(shù)據(jù) (Big data):指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。 數(shù)據(jù)科學(xué)平臺(tái)(Data science platforms):是數(shù)據(jù)科學(xué)家創(chuàng)造和測(cè)試數(shù)據(jù)科學(xué)解決方案的工作平臺(tái)。按照高德納的定義,數(shù)據(jù)科學(xué)平臺(tái)是“由緊密相關(guān)的多項(xiàng)數(shù)據(jù)處理核心技術(shù)模塊組合而成的軟件系統(tǒng),以支持各類數(shù)據(jù)科學(xué)解決方案的開發(fā)及其在業(yè)務(wù)流程、周邊基礎(chǔ)設(shè)施和產(chǎn)品中的應(yīng)用。 C 點(diǎn)擊流分析(Clickstream analytics):用于分析用戶在網(wǎng)絡(luò)上瀏覽時(shí)的在線點(diǎn)擊數(shù)據(jù)。有沒有想過即使在切換網(wǎng)站時(shí),為什么某些谷歌廣告還是陰魂不散?因?yàn)楣雀璐罄兄滥阍邳c(diǎn)擊什么。 聚類分析(Cluster Analysis):是一個(gè)試圖識(shí)別數(shù)據(jù)結(jié)構(gòu)的探索性分析,也稱為分割分析或分類分析。更具體地說,它試圖確定案例的同質(zhì)組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來識(shí)別案例組。因?yàn)樗翘剿餍缘?,確實(shí)對(duì)依賴變量和獨(dú)立變量進(jìn)行了區(qū)分。SPSS 提供的不同的聚類分析方法可以處理二進(jìn)制、標(biāo)稱、序數(shù)和規(guī)模(區(qū)間或比率)數(shù)據(jù)。 比較分析(Comparative Analytics):因?yàn)榇髷?shù)據(jù)的關(guān)鍵就在于分析,顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統(tǒng)計(jì)技術(shù)來比較多個(gè)進(jìn)程、數(shù)據(jù)集或其他對(duì)象。我知道它涉及的技術(shù)越來越少,但是我仍無法完全避免使用術(shù)語。比較分析可用于醫(yī)療保健領(lǐng)域,通過比較大量的醫(yī)療記錄、文件、圖像等,給出更有效和更準(zhǔn)確的醫(yī)療診斷。 關(guān)聯(lián)分析(Connection Analytics):你一定看到了像圖表一樣的蜘蛛網(wǎng)將人與主題連接起來,從而確定特定主題的影響者。關(guān)聯(lián)分析分析可以幫助發(fā)現(xiàn)人們、產(chǎn)品、網(wǎng)絡(luò)之中的系統(tǒng),甚至是數(shù)據(jù)與多個(gè)網(wǎng)絡(luò)結(jié)合之間的相關(guān)連接和影響。 Cassandra:是一個(gè)很流行的開源數(shù)據(jù)管理系統(tǒng),由 Apache Software Foundation 開發(fā)并運(yùn)營。Apache 掌握了很多大數(shù)據(jù)處理技術(shù),Cassandra 就是他們專門設(shè)計(jì)用于在分布式服務(wù)器之間處理大量數(shù)據(jù)的系統(tǒng)。 云計(jì)算(Cloud computing):構(gòu)建在網(wǎng)絡(luò)上的分布式計(jì)算系統(tǒng),數(shù)據(jù)是存儲(chǔ)于機(jī)房外的(即云端),軟件或數(shù)據(jù)在遠(yuǎn)程服務(wù)器上進(jìn)行處理,并且這些資源可以在網(wǎng)絡(luò)上任何地方被訪問,那么它就可被稱為云計(jì)算。 集群計(jì)算(Cluster computing):這是一個(gè)來描述使用多個(gè)服務(wù)器豐富資源的一個(gè)集群(cluster)的計(jì)算的形象化術(shù)語。更技術(shù)層面的理解是,在集群處理的語境下,我們可能會(huì)討論節(jié)點(diǎn)(node)、集群管理層(cluster management layer)、負(fù)載平衡(load balancing)和并行處理(parallel processing)等等。 分類分析(Classification analysis) :從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過程; 這類數(shù)據(jù)也被稱為元數(shù)據(jù)(meta data),是描述數(shù)據(jù)的數(shù)據(jù)。 商業(yè)分析(Commerce analytics):指的是包括審視預(yù)計(jì)的銷售額、成本和利潤是否達(dá)到公司預(yù)計(jì)目標(biāo);如達(dá)到,則此產(chǎn)品概念才能進(jìn)一步發(fā)展到產(chǎn)品開發(fā)階段。 聚類分析(Clustering analysis) – 它是將相似的對(duì)象聚合在一起,每類相似的對(duì)象組合成一個(gè)聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性。 冷數(shù)據(jù)存儲(chǔ)(Cold data storage) – 在低功耗服務(wù)器上存儲(chǔ)那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會(huì)很耗時(shí)。 眾包(Crowdsourcing):從一廣泛群體,特別是在線社區(qū),獲取所需想法,服務(wù)或內(nèi)容貢獻(xiàn)的實(shí)踐。 集群服務(wù)器(Cluster server):把多臺(tái)服務(wù)器通過快速通信鏈路連接起來,從外部看來,這些服務(wù)器就像一臺(tái)服務(wù)器在工作,而對(duì)內(nèi)來說,外面來的負(fù)載通過一定的機(jī)制動(dòng)態(tài)地分配到這些節(jié)點(diǎn)機(jī)中去,從而達(dá)到超級(jí)服務(wù)器才有的高性能、高可用。 對(duì)比分析(Comparative analysis) – 在非常大的數(shù)據(jù)集中進(jìn)行模式匹配時(shí),進(jìn)行一步步的對(duì)比和計(jì)算過程得到分析結(jié)果。 復(fù)雜結(jié)構(gòu)的數(shù)據(jù)(Complex structured data) – 由兩個(gè)或多個(gè)復(fù)雜而相互關(guān)聯(lián)部分組成的數(shù)據(jù),這類數(shù)據(jù)不能簡單地由結(jié)構(gòu)化查詢語言或工具(SQL)解析。 計(jì)算機(jī)產(chǎn)生的數(shù)據(jù)(Computer generated data) – 如日志文件這類由計(jì)算機(jī)生成的數(shù)據(jù)。 并發(fā)(Concurrency) – 同時(shí)執(zhí)行多個(gè)任務(wù)或運(yùn)行多個(gè)進(jìn)程。 相關(guān)性分析(Correlation analysis) – 是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關(guān),或者負(fù)相關(guān)。 客戶關(guān)系管理(CRM: Customer Relationship Management) – 用于管理銷售、業(yè)務(wù)過程的一種技術(shù),大數(shù)據(jù)將影響公司的客戶關(guān)系管理的策略。 云數(shù)據(jù)(Cloud data):是基于云計(jì)算商業(yè)模式應(yīng)用的數(shù)據(jù)集成、數(shù)據(jù)分析、數(shù)據(jù)整合、數(shù)據(jù)分配、數(shù)據(jù)預(yù)警的技術(shù)與平臺(tái)的總稱。 D 數(shù)據(jù)分析師(Data Analyst):數(shù)據(jù)分析師是一個(gè)非常重要和受歡迎的工作,除了準(zhǔn)備報(bào)告之外,它還負(fù)責(zé)收集、編輯和分析數(shù)據(jù)。 數(shù)據(jù)清洗(Data Cleansing):顧名思義,數(shù)據(jù)清洗涉及到檢測(cè)并更正或者刪除數(shù)據(jù)庫中不準(zhǔn)確的數(shù)據(jù)或記錄,然后記住「臟數(shù)據(jù)」。借助于自動(dòng)化或者人工工具和算法,數(shù)據(jù)分析師能夠更正并進(jìn)一步豐富數(shù)據(jù),以提高數(shù)據(jù)質(zhì)量。請(qǐng)記住,臟數(shù)據(jù)會(huì)導(dǎo)致錯(cuò)誤的分析和糟糕的決策。 數(shù)據(jù)即服務(wù)(DaaS):通過給用戶提供按需訪問的云端數(shù)據(jù),DaaS 提供商能夠幫助我們快速地得到高質(zhì)量的數(shù)據(jù)。 數(shù)據(jù)虛擬化(Data virtualization):這是一種數(shù)據(jù)管理方法,它允許某個(gè)應(yīng)用在不知道技術(shù)細(xì)節(jié)(如數(shù)據(jù)存放在何處,以什么格式)的情況下能夠抽取并操作數(shù)據(jù)。例如,社交網(wǎng)絡(luò)利用這個(gè)方法來存儲(chǔ)我們的照片。 臟數(shù)據(jù)(Dirty Data):臟數(shù)據(jù)就是不干凈的數(shù)據(jù),換言之,就是不準(zhǔn)確的、重復(fù)的以及不一致的數(shù)據(jù)。顯然,你不會(huì)想著和臟數(shù)據(jù)攪在一起。所以,盡快地修正它。 暗數(shù)據(jù)(Dark data):公司積累和處理的實(shí)際上完全用不到的所有數(shù)據(jù),從這個(gè)意義上來說我們稱它們?yōu)椤赴怠沟臄?shù)據(jù),它們有可能根本不會(huì)被分析。這些數(shù)據(jù)可以是社交網(wǎng)絡(luò)中的信息,電話中心的記錄,會(huì)議記錄等等。很多估計(jì)認(rèn)為所有公司的數(shù)據(jù)中有 60% 到 90% 不等可能是暗數(shù)據(jù),但實(shí)際上沒人知道。 數(shù)據(jù)流(data stream):最初是通信領(lǐng)域使用的概念,代表傳輸中所使用的信息的數(shù)字編碼信號(hào)序列。然而,我們所提到的數(shù)據(jù)流概念與此不同。 數(shù)據(jù)湖(Data lake):即一個(gè)以大量原始格式保存了公司級(jí)別的數(shù)據(jù)知識(shí)庫。這里我們介紹一下數(shù)據(jù)倉庫(Data warehouse)。數(shù)據(jù)倉庫是一個(gè)與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經(jīng)過清理和并且其它資源整合后的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉庫經(jīng)常被用于通用數(shù)據(jù)(但不一定如此)。一般認(rèn)為,一個(gè)數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。 數(shù)據(jù)資源管理(Data Resources):是應(yīng)用信息技術(shù)和軟件工具完成組織數(shù)據(jù)資源管理任務(wù)的管理活動(dòng)。 數(shù)據(jù)源(Data Source):顧名思義,數(shù)據(jù)的來源,是提供某種所需要數(shù)據(jù)的器件或原始媒體。在數(shù)據(jù)源中存儲(chǔ)了所有建立數(shù)據(jù)庫連接的信息。就像通過指定文件名稱可以在文件系統(tǒng)中找到文件一樣,通過提供正確的數(shù)據(jù)源名稱,你可以找到相應(yīng)的數(shù)據(jù)庫連接。 數(shù)據(jù)挖掘(Data mining):從一大群數(shù)據(jù)中以復(fù)雜的模式識(shí)別技巧找出有意義的模式,并且得到相關(guān)洞見。 數(shù)據(jù)分析平臺(tái)(Data analyst platforms): 主要通過集成企業(yè)內(nèi)部運(yùn)營支撐系統(tǒng)和外部數(shù)據(jù),包括交易型大數(shù)據(jù)(Big Transaction Data)和交互型大數(shù)據(jù)(Big Interaction Data),通過多種云計(jì)算的技術(shù)將之集成和處理,向企業(yè)內(nèi)部和外部企業(yè)客戶提供有極大商業(yè)價(jià)值的信息支撐和智能解決方案,基于大數(shù)據(jù)平臺(tái)建設(shè)的數(shù)據(jù)倉庫的基礎(chǔ)上,提供報(bào)表工具,分析工具,結(jié)合企業(yè)的實(shí)際需求進(jìn)行的解決方案實(shí)施服務(wù);企業(yè)的管理人員、業(yè)務(wù)分析人員等可以通過web、手機(jī)或其它移動(dòng)設(shè)備訪問,以便隨時(shí)了解企業(yè)的關(guān)鍵指標(biāo)和進(jìn)行深度業(yè)務(wù)分析。 分布式文件系統(tǒng)(Distributed File System):大數(shù)據(jù)數(shù)量太大,不能存儲(chǔ)在一個(gè)單獨(dú)的系統(tǒng)中,分布式文件系統(tǒng)是一個(gè)能夠把大量數(shù)據(jù)存儲(chǔ)在多個(gè)存儲(chǔ)設(shè)備上的文件系統(tǒng),它能夠減少存儲(chǔ)大量數(shù)據(jù)的成本和復(fù)雜度。 。 儀表板(Dashboard) :使用算法分析數(shù)據(jù),并將結(jié)果用圖表方式顯示于儀表板中。 數(shù)據(jù)存取(Data access):是指數(shù)據(jù)庫數(shù)據(jù)存貯組織和存貯路徑的實(shí)現(xiàn)和維護(hù)。 數(shù)據(jù)傳送(data transfer):是指在數(shù)據(jù)源和數(shù)據(jù)宿之間傳送數(shù)據(jù)的過程,也稱數(shù)據(jù)通信。 數(shù)據(jù)聚合工具(Data aggregation tools) :將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個(gè)全新數(shù)據(jù)源的過程。 數(shù)據(jù)庫(Database) :一個(gè)以某種特定的技術(shù)來存儲(chǔ)數(shù)據(jù)集合的倉庫。 數(shù)據(jù)庫管理系統(tǒng)(DBMS: Database Management System) :收集、存儲(chǔ)數(shù)據(jù),并提供數(shù)據(jù)的訪問。 數(shù)據(jù)中心(Data centre) : 一個(gè)實(shí)體地點(diǎn),放置了用來存儲(chǔ)數(shù)據(jù)的服務(wù)器。 數(shù)據(jù)管理員(Data custodian) :負(fù)責(zé)維護(hù)數(shù)據(jù)存儲(chǔ)所需技術(shù)環(huán)境的專業(yè)技術(shù)人員。 數(shù)據(jù)道德準(zhǔn)則(Data ethical guidelines) :這些準(zhǔn)則有助于組織機(jī)構(gòu)使其數(shù)據(jù)透明化,保證數(shù)據(jù)的簡潔、安全及隱私。 數(shù)據(jù)訂閱(Data feed) : 一種數(shù)據(jù)流,例如Twitter訂閱和RSS。 數(shù)據(jù)集市(Data marketplace) :進(jìn)行數(shù)據(jù)集買賣的在線交易場(chǎng)所。 數(shù)據(jù)建模(Data modelling) :使用數(shù)據(jù)建模技術(shù)來分析數(shù)據(jù)對(duì)象,以此洞悉數(shù)據(jù)的內(nèi)在涵義。 數(shù)據(jù)集(Data set) :大量數(shù)據(jù)的集合。 數(shù)據(jù)虛擬化(Data virtualization) :數(shù)據(jù)整合的過程,以此獲得更多的數(shù)據(jù)信息,這個(gè)過程通常會(huì)引入其他技術(shù),例如數(shù)據(jù)庫,應(yīng)用程序,文件系統(tǒng),網(wǎng)頁技術(shù),大數(shù)據(jù)技術(shù)等等。 去身份識(shí)別(De-identification) :也稱為匿名化(anonymization),確保個(gè)人不會(huì)通過數(shù)據(jù)被識(shí)別。 判別分析(Discriminant analysis) :將數(shù)據(jù)分類;按不同的分類方式,可將數(shù)據(jù)分配到不同的群組,類別或者目錄。是一種統(tǒng)計(jì)分析法,可以對(duì)數(shù)據(jù)中某些群組或集群的已知信息進(jìn)行分析,并從中獲取分類規(guī)則。 分布式文件系統(tǒng)(Distributed File System) :提供簡化的,高可用的方式來存儲(chǔ)、分析、處理數(shù)據(jù)的系統(tǒng)。 文件存貯數(shù)據(jù)庫(Document Store Databases) 又稱為文檔數(shù)據(jù)庫(document-oriented database), 為存儲(chǔ)、管理、恢復(fù)文檔數(shù)據(jù)而專門設(shè)計(jì)的數(shù)據(jù)庫,這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)。 數(shù)據(jù)治理(Data Governance) :數(shù)據(jù)治理是指從使用零散數(shù)據(jù)變?yōu)槭褂媒y(tǒng)一主數(shù)據(jù)、從具有很少或沒有組織和流程治理到企業(yè)范圍內(nèi)的綜合數(shù)據(jù)治理、從嘗試處理主數(shù)據(jù)混亂狀況到主數(shù)據(jù)井井有條的一個(gè)過程。 數(shù)據(jù)轉(zhuǎn)換服務(wù)(Data Transfer Service): 主要用作在不同的數(shù)據(jù)庫之間轉(zhuǎn)換數(shù)據(jù),比如在SQL Server和Oracle之間轉(zhuǎn)換數(shù)據(jù)。 數(shù)據(jù)集成(Data integration):是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。 E ETL:ETL 代表提取、轉(zhuǎn)換和加載。它指的是這一個(gè)過程:「提取」原始數(shù)據(jù),通過清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統(tǒng)使用。即使 ETL 源自數(shù)據(jù)倉庫,但是這個(gè)過程在獲取數(shù)據(jù)的時(shí)候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。 企業(yè)級(jí)應(yīng)用(Enterprise applications):其實(shí)是一個(gè)軟件行業(yè)內(nèi)部通用的一個(gè)術(shù)語。如果解釋成通俗易懂的話來說,那就是一個(gè)企業(yè)范圍內(nèi)所使用的、基于計(jì)算機(jī)的穩(wěn)定的、安全的和高效的分布式信息管理系統(tǒng)。 探索性分析(Exploratory analysis) :在沒有標(biāo)準(zhǔn)的流程或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)集主要特性的一種方法 E字節(jié)(EB: Exabytes):約等于1000 PB(petabytes), 約等于1百萬 GB。如今全球每天所制造的新信息量大約為1 EB。 提取-轉(zhuǎn)換-加載(ETL: Extract, Transform and Load) – 是一種用于數(shù)據(jù)庫或者數(shù)據(jù)倉庫的處理過程。即從各種不同的數(shù)據(jù)源提取(E)數(shù)據(jù),并轉(zhuǎn)換(T)成能滿足業(yè)務(wù)需要的數(shù)據(jù),最后將其加載(L)到數(shù)據(jù)庫。 企業(yè)生產(chǎn)力(Enterrrise productivity):企業(yè)在一定時(shí)期為社會(huì)提供某種產(chǎn)品或勞務(wù)的能力。 F 模糊邏輯(Fuzzy logic):我們有多少次對(duì)一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數(shù)據(jù)聚合成部分的事實(shí),這些事實(shí)進(jìn)一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計(jì)算方式,與像布爾代數(shù)等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實(shí)來模仿人腦。 故障切換(Failover) :當(dāng)系統(tǒng)中某個(gè)服務(wù)器發(fā)生故障時(shí),能自動(dòng)地將運(yùn)行任務(wù)切換到另一個(gè)可用服務(wù)器或節(jié)點(diǎn)上。 架構(gòu)(Framework):又名軟件架構(gòu),是有關(guān)軟件整體結(jié)構(gòu)與組件的抽象描述,用于指導(dǎo)大型軟件系統(tǒng)各個(gè)方面的設(shè)計(jì)。 流量監(jiān)控(Flow monitoring): 流量監(jiān)控指的是對(duì)數(shù)據(jù)流進(jìn)行的監(jiān)控,通常包括出數(shù)據(jù)、入數(shù)據(jù)的速度、總流量。微信用戶可以在騰訊手機(jī)管家4.7上實(shí)現(xiàn)流量的精準(zhǔn)監(jiān)控。 容錯(cuò)設(shè)計(jì)(Fault-tolerant design) :一個(gè)支持容錯(cuò)設(shè)計(jì)的系統(tǒng)應(yīng)該能夠做到當(dāng)某一部分出現(xiàn)故障也能繼續(xù)運(yùn)行。 金融(Finance):是人們?cè)诓淮_定環(huán)境中進(jìn)行資源跨期的最優(yōu)配置決策的行為。 G 游戲化(Gamification) :在其他非游戲領(lǐng)域中運(yùn)用游戲的思維和機(jī)制,這種方法可以以一種十分友好的方式進(jìn)行數(shù)據(jù)的創(chuàng)建和偵測(cè),非常有效。 圖形數(shù)據(jù)庫(Graph Databases) :運(yùn)用圖形結(jié)構(gòu)(例如,一組有限的有序?qū)?,或者某種實(shí)體)來存儲(chǔ)數(shù)據(jù),這種圖形存儲(chǔ)結(jié)構(gòu)包括邊緣、屬性和節(jié)點(diǎn)。它提供了相鄰節(jié)點(diǎn)間的自由索引功能,也就是說,數(shù)據(jù)庫中每個(gè)元素間都與其他相鄰元素直接關(guān)聯(lián)。 網(wǎng)格計(jì)算(Grid computing) :將許多分布在不同地點(diǎn)的計(jì)算機(jī)連接在一起,用以處理某個(gè)特定問題,通常是通過云將計(jì)算機(jī)相連在一起。 H Hadoop 用戶體驗(yàn)(Hadoop User Experience /Hue):Hue 是一個(gè)能夠讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基于 web 的應(yīng)用;它有一款分布式文件系統(tǒng)的文件瀏覽器;它有用于 MapReduce 的任務(wù)設(shè)計(jì);它有能夠調(diào)度工作流的框架 Oozie;它有一個(gè) shell、一個(gè) Impala、一個(gè) Hive UI 以及一組 Hadoop API。 人力資本(Human capital):是指勞動(dòng)者受到教育、培訓(xùn)、實(shí)踐經(jīng)驗(yàn)、遷移、保健等方面的投資而獲得的知識(shí)和技能的積累,亦稱“非物力資本”。 硬件設(shè)施(Hardware): 計(jì)算機(jī)系統(tǒng)中由電子,機(jī)械和光電元件等組成的各種物理裝置的總稱。 高性能分析應(yīng)用(HANA):這是 SAP 公司為大數(shù)據(jù)傳輸和分析設(shè)計(jì)的一個(gè)軟硬件內(nèi)存平臺(tái)。 HBase: 一個(gè)分布式的面向列的數(shù)據(jù)庫。它使用 HDFS 作為其底層存儲(chǔ),既支持利用 MapReduce 進(jìn)行的批量計(jì)算,也支持利用事物交互的批量計(jì)算。 Hadoop – 一個(gè)開源的分布式系統(tǒng)基礎(chǔ)框架,可用于開發(fā)分布式程序,進(jìn)行大數(shù)據(jù)的運(yùn)算與存儲(chǔ)。 Hadoop數(shù)據(jù)庫(HBase) :一個(gè)開源的、非關(guān)系型、分布式數(shù)據(jù)庫,與Hadoop框架共同使用。 分布式文件系統(tǒng)(Hadoop Distributed File System):是一個(gè)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。 高性能計(jì)算(HPC: High-Performance-Computing) :使用超級(jí)計(jì)算機(jī)來解決極其復(fù)雜的計(jì)算問題。 部署在云上的Hadoop(Hadoop in the cloud):某些云解決方案完全基于某個(gè)特定服務(wù),該服務(wù)將會(huì)加載并處理數(shù)據(jù)。例如,借助 IBM Bluemix,您可以基于 IBM InfoSphere BigInsights 配置一個(gè) MapReduce 服務(wù),該服務(wù)可以處理高達(dá) 20GB 的信息。但 Hadoop 服務(wù)的大小、配置與復(fù)雜性是不可配置的。其他基于服務(wù)的解決方案也提供同樣類別的復(fù)雜性。 I 基礎(chǔ)設(shè)施即服務(wù)(Infrastructure As a Service):消費(fèi)者通過Internet 可以從完善的計(jì)算機(jī)基礎(chǔ)設(shè)施獲得服務(wù)。這類服務(wù)稱為基礎(chǔ)設(shè)施即服務(wù)。 基礎(chǔ)設(shè)施即代碼(Infrastructure As a Code):一種通過源代碼就可以解析計(jì)算和網(wǎng)絡(luò)架構(gòu)的一種方式,然后就可以認(rèn)為是任何一種軟件系統(tǒng)。這些代碼可以在源代碼管理中被保存以確??蓪徯院驮偎苄裕芟抻跍y(cè)試實(shí)踐和持續(xù)交付的所有準(zhǔn)則。這是十幾年前就被用在處理成長中的云計(jì)算平臺(tái)的方法,也將會(huì)是日后處理計(jì)算架構(gòu)的主要方式。 內(nèi)存計(jì)算(In-memory computing):通常認(rèn)為,任何不涉及到 I/O 訪問的計(jì)算都會(huì)更快一些。內(nèi)存計(jì)算就是這樣的技術(shù),它把所有的工作數(shù)據(jù)集都移動(dòng)到集群的集體內(nèi)存中,避免了在計(jì)算過程中向磁盤寫入中間結(jié)果。Apache Spark 就是一個(gè)內(nèi)存計(jì)算的系統(tǒng),它相對(duì) Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢(shì)。 物聯(lián)網(wǎng)(IoT):最新的流行語就是物聯(lián)網(wǎng)(IoT)。IoT 是嵌入式對(duì)象中(如傳感器、可穿戴設(shè)備、車、冰箱等等)的計(jì)算設(shè)備通過英特網(wǎng)的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網(wǎng)生成了海量的數(shù)據(jù),帶來了很多大數(shù)據(jù)分析的機(jī)遇。 內(nèi)存數(shù)據(jù)庫(IMDB: In-memory) :一種數(shù)據(jù)庫管理系統(tǒng),與普通數(shù)據(jù)庫管理系統(tǒng)不同之處在于,它用主存來存儲(chǔ)數(shù)據(jù),而非硬盤。其特點(diǎn)在于能高速地進(jìn)行數(shù)據(jù)的處理和存取。 法律上的數(shù)據(jù)一致性(Juridical data compliance) :當(dāng)你使用的云計(jì)算解決方案,將你的數(shù)據(jù)存儲(chǔ)于不同的國家或不同的大陸時(shí),就會(huì)與這個(gè)概念扯上關(guān)系了。你需要留意這些存儲(chǔ)在不同國家的數(shù)據(jù)是否符合當(dāng)?shù)氐姆伞?/span> |
|