一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

轉(zhuǎn)型AI產(chǎn)品經(jīng)理需要掌握的硬知識二:AI常見概念和算法梳理

 萬皇之皇 2017-12-20

轉(zhuǎn)型AI產(chǎn)品經(jīng)理需要掌握的硬知識二:AI常見概念和算法梳理

一、常用AI技術(shù)概念

提到人工智能,大家應(yīng)該都聽說過這樣幾個概念:人工智能,機器學(xué)習(xí),深度學(xué)習(xí),模式識別,知識圖譜,卷積神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò),以及與人工智能直接相關(guān)的概念,如云計算,數(shù)據(jù)挖掘等,這些概念之間是什么關(guān)系呢?筆者找到了一張這些概念的關(guān)系圖,可以將上述概念串在一起,更易理解,如下圖所示:

轉(zhuǎn)型AI產(chǎn)品經(jīng)理需要掌握的硬知識二:AI常見概念和算法梳理

1、人工智能>機器學(xué)習(xí)>深度學(xué)習(xí)

人工智能(Artificial Intelligence):英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機科學(xué)的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器,該領(lǐng)域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。

機器學(xué)習(xí)(Machine Learning):機器學(xué)習(xí)是人工智能領(lǐng)域的一部分,并且和知識發(fā)現(xiàn)與數(shù)據(jù)挖掘有所交集。機器學(xué)習(xí)還有下面幾種定義: “機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能”。 “機器學(xué)習(xí)的應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領(lǐng)域。機器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認知科學(xué)等對人類學(xué)習(xí)機理的了解,建立人類學(xué)習(xí)過程的計算模型或認識模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。

深度學(xué)習(xí)(Deep Learning):深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,是一種含多隱層的多層感知器。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度機器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之分.不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同.例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,簡稱CNNs)就是一種深度的監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型,而深度置信網(wǎng)(Deep Belief Nets,簡稱DBNs)就是一種無監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型。

轉(zhuǎn)型AI產(chǎn)品經(jīng)理需要掌握的硬知識二:AI常見概念和算法梳理

2、神經(jīng)計算>人工神經(jīng)網(wǎng)絡(luò)>深度學(xué)習(xí)>卷積神經(jīng)網(wǎng)絡(luò)/遞歸神經(jīng)網(wǎng)絡(luò)

神經(jīng)計算科學(xué)是使用數(shù)學(xué)分析和計算機模擬的方法在不同水平上對神經(jīng)系統(tǒng)進行模擬和研究: 從神經(jīng)元的真實生物物理模型,它們的動態(tài)交互關(guān)系以及神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí), 到腦的組織和神經(jīng)類型計算的量化理論等,從計算角度理解腦,研究非程序的、 適應(yīng)性的、大腦風(fēng)格的信息處理的本質(zhì)和能力,探索新型的信息處理機理和途徑。

延伸閱讀 計算神經(jīng)科學(xué)

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,即ANN ),是20世紀80 年代以來人工智能領(lǐng)域興起的研究熱點。它從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種運算模型,由大量的節(jié)點(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成。每個節(jié)點代表一種特定的輸出函數(shù),稱為激勵函數(shù)(activation function)。每兩個節(jié)點間的連接都代表一個對于通過該連接信號的加權(quán)值,稱之為權(quán)重,這相當于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對自然界某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達。

延伸閱讀 神經(jīng)網(wǎng)絡(luò)的簡化理解

深度學(xué)習(xí)的概念見上文。

卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)下文算法中詳細介紹。

3、模式識別、知識圖譜和專家系統(tǒng)

模式識別(Pattern Recognition)是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進行處理和分析,以對事物或現(xiàn)象進行描述、辨認、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。模式識別又常稱作模式分類,從處理問題的性質(zhì)和解決問題的方法等角度,模式識別分為有監(jiān)督的分類(Supervised Classification)和無監(jiān)督的分類(Unsupervised Classification)兩種。我們所指的模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物傳感器等對象的具體模式進行辨識和分類。模式識別研究主要集中在兩方面,一是研究生物體(包括人)是如何感知對象的,屬于認識科學(xué)的范疇,二是在給定的任務(wù)下,如何用計算機實現(xiàn)模式識別的理論和方法。應(yīng)用計算機對一組事件或過程進行辨識和分類,所識別的事件或過程可以是文字、聲音、圖像等具體對象,也可以是狀態(tài)、程度等抽象對象。這些對象與數(shù)字形式的信息相區(qū)別,稱為模式信息。它與人工智能、圖像處理的研究有交叉關(guān)系。

知識圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系”。知識圖譜是關(guān)系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。構(gòu)建知識圖譜的重點在于語義理解、知識表示、QA、智能對話和用戶建模。知識圖譜是一系列結(jié)構(gòu)化數(shù)據(jù)的處理方法,它涉及知識的提取、 表示、存儲、檢索等諸多技術(shù)。從淵源上講,它是知識表示與推理、數(shù)據(jù)庫、信息檢索、自然語言處理等多種技術(shù)發(fā)展的融合。

延伸閱讀 知識圖譜技術(shù)解剖

專家系統(tǒng)是一個具有大量的專門知識與經(jīng)驗的程序系統(tǒng),它應(yīng)用人工智能技術(shù)和計算機技術(shù),根據(jù)某領(lǐng)域一個或多個專家提供的知識和經(jīng)驗,進行推理和判斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復(fù)雜問題。專家系統(tǒng)就是人去學(xué)一個東西,然后把學(xué)到的知識理論化,再把這些理論模型化,最后把這個模型程序化,形成一個系統(tǒng),就叫專家系統(tǒng)。知識圖譜可以作為專家系統(tǒng)的一部分存在,提供半自動構(gòu)建知識庫的方法。

二、常見算法概述

前文中我們提到了深度學(xué)習(xí),既然有深度學(xué)習(xí)就一定有淺度學(xué)習(xí),其區(qū)別體現(xiàn)在隱藏層的數(shù)量上,一般來說,淺層學(xué)習(xí)沒有隱藏層或者只有一層隱藏層,常見算法包括線性回歸、邏輯回歸、隨機森林、SVM、K-means、RBM、AutoEncoder、PCA、SOM等。深度學(xué)習(xí)通常會有較多隱藏層,可以表達復(fù)雜函數(shù),識別更多復(fù)雜特征。常見算法有CNN卷積神經(jīng)網(wǎng)絡(luò)和RNN遞歸神經(jīng)網(wǎng)絡(luò),而基于RNN衍生出了LSTM和GRU等一系列算法。

下面將介紹學(xué)習(xí)過程中一些常見的算法分類,AI產(chǎn)品未必掌握具體算法實現(xiàn)細節(jié),但是需要掌握一些常見算法概念,它們可以處理什么類型的問題,有什么優(yōu)點,一般應(yīng)用在哪些領(lǐng)域。

1、決策樹

決策樹根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型, 用樹形結(jié)構(gòu)對數(shù)據(jù)進行分類,在進行逐步應(yīng)答過程中,典型的決策樹分析會使用分層變量或決策節(jié)點,決策樹模型常常用來解決分類和回歸問題。以服裝購買為例,首先判定是否喜歡,不喜歡則不買,喜歡則看價格,價格不合適則不買,合適則看是否有合適的尺碼,沒有合適的尺碼則不買,有則購買,基于以上選擇,可以畫出一個簡單的樹樁結(jié)構(gòu)。

場景舉例:基于規(guī)則的信用評估、賽馬結(jié)果預(yù)測

優(yōu)點:擅長對人、地點、事物的一系列不同特征、品質(zhì)、特性進行評估

常見相關(guān)算法:分類及回歸樹(Classification And Regression Tree, CART)、ID3(Iterative Dichotomiser 3)、GBDT、C4.5、Chi-squared Automatic Interaction Detection(CHAID)、Decision Stump、隨機森林(Random Forest)、多元自適應(yīng)回歸樣條(MARS)、梯度推進機(Gradient Boosting Machine, GBM)

隨機森林(Random forest):隨機森林算法通過使用多個帶有隨機選取的數(shù)據(jù)子集的樹(tree)改善了決策樹的精確性。

優(yōu)點:隨機森林方法被證明對大規(guī)模數(shù)據(jù)集和存在大量且有時不相關(guān)特征的項(item)來說很有用

場景舉例:用戶流失分析、風(fēng)險評估

2、回歸算法

回歸算法是試圖采用對誤差的衡量來探索變量之間的關(guān)系的一類算法,可以勾畫出因變量與一個或多個因變量之間的狀態(tài)關(guān)系??梢岳没貧w算法將垃圾郵件和非垃圾郵件進行了區(qū)分。常見算法有最小二乘法(Ordinary Least Square)、線性回歸、邏輯回歸(Logistic Regression)、逐步式回歸(Stepwise Regression)、多元自適應(yīng)回歸樣條(Multivariate Adaptive Regression Splines)、本地散點平滑估計(Locally Estimated Scatterplot Smoothing)

場景舉例:路面交通流量分析、郵件過濾

優(yōu)點:回歸可用于識別變量之間的連續(xù)關(guān)系,即便這個關(guān)系不是非常明顯

3、基于核函數(shù)的學(xué)習(xí)算法

基于核的算法中最著名的莫過于支持向量機(SVM)了。 基于核的算法把輸入數(shù)據(jù)映射到一個高階的向量空間, 在這些高階向量空間里, 有些分類或者回歸問題能夠更容易的解決。常見算法有支持向量機(Support Vector Machine, SVM)、徑向基函數(shù)(Radial Basis Function ,RBF)、線性判別分析(Linear Discriminate Analysis ,LDA)。

延伸閱讀 基于核函數(shù)的學(xué)習(xí)算法

4、基于實例的算法

常常用來對決策問題建立模型,這樣的模型常常先選取一批樣本數(shù)據(jù),然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進行比較。通過這種方式來尋找最佳的匹配。常見算法有k-Nearest Neighbor(KNN),、學(xué)習(xí)矢量量化(Learning Vector Quantization, LVQ)、自組織映射算法(Self-Organizing Map , SOM)。

延伸閱讀 基于實例的學(xué)習(xí)

5、神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)也是一種分類器。它是由很多個虛擬的神經(jīng)元組成的一個網(wǎng)絡(luò),我們可以把一個神經(jīng)元看做是一個分類器,那很多個神經(jīng)元組成的網(wǎng)絡(luò)就能對樣本進行很多次分類。

CNN(Convolutional Neural Networks)卷積神經(jīng)網(wǎng)絡(luò),是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對于大型圖像處理有出色表現(xiàn)。

優(yōu)點:當存在非常大型的數(shù)據(jù)集、大量特征和復(fù)雜的分類任務(wù)時,卷積神經(jīng)網(wǎng)絡(luò)是非常有用的

場景舉例:圖像識別、文本轉(zhuǎn)語音、藥物發(fā)現(xiàn)、照片濾鏡、人臉識別,無人汽車等。

RNN(Recurrent Neural NetWorks)遞歸神經(jīng)網(wǎng)絡(luò),在任意神經(jīng)網(wǎng)絡(luò)中,每個神經(jīng)元都通過 1 個或多個隱藏層來將很多輸入轉(zhuǎn)換成單個輸出。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)會將值進一步逐層傳遞,讓逐層學(xué)習(xí)成為可能。換句話說,RNN 存在某種形式的記憶,允許先前的輸出去影響后面的輸入。

遞歸神經(jīng)網(wǎng)絡(luò)其實是兩種人工神經(jīng)網(wǎng)絡(luò)的總稱,一種是時間遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network),另一種是結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network)。時間遞歸神經(jīng)網(wǎng)絡(luò)的神經(jīng)元間連接構(gòu)成有向圖,而結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)利用相似的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)遞歸構(gòu)造更為復(fù)雜的深度網(wǎng)絡(luò)。兩者訓(xùn)練的算法不同,但屬于同一算法變體?;赗NN還衍生出了LSTM(Long-Short-Term-Memerory)和GRU(Gated Recurrent Unit)等一系列算法,這些算法擁有記住過去的能力,所以可以用來處理一些有時間序列屬性的數(shù)據(jù),在處理語言、文字等方面有獨到的優(yōu)勢,LSTM和GRU的優(yōu)點是具備與其它遞歸神經(jīng)網(wǎng)絡(luò)一樣的優(yōu)點,但因為它們有更好的記憶能力,所以更常被使用。

優(yōu)點:遞歸神經(jīng)網(wǎng)絡(luò)在存在大量有序信息時具有預(yù)測能力

場景舉例:圖像分類與字幕添加、政治情感分析、對話機器人,機器翻譯,科大訊飛的自然語言識別,文章編輯等。

6、葉貝斯算法

貝葉斯是一個定理,它的意思是:當你不能準確知悉一個事物的本質(zhì)時,你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。當我們找到若干個這樣的特征,然后用這些特征進行組合后,可以進行判斷,常見算法有樸素貝葉斯算法、平均單依賴估計(Averaged One-Dependence Estimators, AODE)、Bayesian Belief Network(BBN)。

舉例來看,要識別一封郵件是不是垃圾郵件??梢噪S機挑選出100封垃圾郵件,分析它的特征,我們發(fā)現(xiàn)“便宜”這個詞出現(xiàn)的頻率很高,100封垃圾郵件里,有40封出現(xiàn)了這個詞。那我們就以這個認知為依據(jù),得出結(jié)論:如果出現(xiàn)了“便宜”,那這封郵件有40%的概率是垃圾郵件。

優(yōu)點:對于在小數(shù)據(jù)集上有顯著特征的相關(guān)對象,樸素貝葉斯方法可對其進行快速分類

場景舉例:情感分析、消費者分類

7、聚類

聚類是一種非監(jiān)督學(xué)習(xí)的方式。簡單的說,就是通過不斷的迭代計算,把數(shù)據(jù)分成若干個組,使得這個組里的都是類似的數(shù)據(jù),而不同組之間的數(shù)據(jù)是不相似的。聚類算法通常按照中心點或者分層的方式對輸入數(shù)據(jù)進行歸并。所以的聚類算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便按照最大的共同點將數(shù)據(jù)進行歸類??梢杂糜趫D像分類識別,用戶行為識別,用戶畫像等領(lǐng)域。常見算法有k-Means算法、期望最大化算法(Expectation Maximization, EM)。

8、強化學(xué)習(xí)模型

在沒有給出任何答案的情況下,先進行一些嘗試,通過嘗試所得到的回報,來確定這個嘗試是否正確,由這一系列的嘗試來不斷調(diào)整和優(yōu)化算法,最后算法知道在某種情況下,采取何種動作可以得到最好的結(jié)果。他的本質(zhì)是解決“決策問題”,就是通過不斷做出決策并獲得結(jié)果反饋后,學(xué)會自動進行決策,得到最優(yōu)結(jié)果。比如上面說過的猴子“學(xué)會”做算術(shù)題的過程。

9、集成學(xué)習(xí)模型

用一些相對較弱的學(xué)習(xí)模型獨立地就同樣的樣本進行訓(xùn)練,然后把結(jié)果整合起來進行整體預(yù)測。集成算法的主要難點在于究竟集成哪些獨立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來。

我們在做機器學(xué)習(xí)的時候,希望能做出各個方面表現(xiàn)都比較好的模型。但常?,F(xiàn)實是我們的模型是有偏好的,可能只對某一些情況效果比較好,這個時候我們就希望把若干個這樣的模型組合起來,得到一個更好更全面的模型,這種方法,就叫做集成學(xué)習(xí)。常見算法有Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、堆疊泛化(Stacked Generalization, Blending)、梯度推進機(Gradient Boosting Machine, GBM)、隨機森林(Random Forest)。

三、三大流派

經(jīng)過幾十年的發(fā)展,人工智能演化出了多個分支流派,這些分支一直都在彼此爭奪主導(dǎo)權(quán),此次人工智能的爆發(fā),主要源于聯(lián)結(jié)主義的神經(jīng)網(wǎng)絡(luò)有了突破性發(fā)展,將語音識別和視覺識別的準確度分別達到了99%和95%。未來的發(fā)展很可能是這三大流派彼此合作,因為算法融合是實現(xiàn)真正通用人工智能(AGI)的唯一方式。

①符號主義(Symbolism):是一種基于邏輯推理的智能模擬方法,又稱為邏輯主義(Logicism)、心理學(xué)派(Psychlogism)或計算機學(xué)派(Computerism),其原理主要為物理符號系統(tǒng)(即符號操作系統(tǒng))假設(shè)和有限合理性原理,長期以來,一直在人工智能中處于主導(dǎo)地位。

②聯(lián)結(jié)主義(connectionism):認為人工智能源于仿生學(xué),特別是對人腦模型的研究。它從神經(jīng)元開始進而研究神經(jīng)網(wǎng)絡(luò)模型和腦模型,開辟了人工智能的又一發(fā)展道路。1986年,魯梅爾哈特(Rumelhart)等人提出多層網(wǎng)絡(luò)中的反向傳播算法(BP)算法。此后,連接主義勢頭大振,從模型到算法,從理論分析到工程實現(xiàn), 為神經(jīng)網(wǎng)絡(luò)計算機走向市場打下基礎(chǔ)。

③行為主義:控制論思想早在20世紀40~50年代就成為時代思潮的重要部分,影響了早期的人工智能工作者。實際上是從行為上模擬和體現(xiàn)智能,也就是說,模擬人在控制過程中的智能活動和行為特性來研究和實現(xiàn)人工智能,行為主義思想在智能控制、機器人領(lǐng)域獲得了很多成就。

還有一種說法,將人工只分為五大流派,分別是符號主義,貝葉斯主義,聯(lián)結(jié)主義,進化主義和Analogizer,擴展閱讀三張圖讀懂機器學(xué)習(xí):基本概念、五大流派與九種常見算法 文中包含大量延伸閱讀鏈接。

四、機器學(xué)習(xí)的工作流程

①選擇數(shù)據(jù):將你的數(shù)據(jù)分成三組:訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù)

②模型數(shù)據(jù):使用訓(xùn)練數(shù)據(jù)來構(gòu)建使用相關(guān)特征的模型

③驗證模型:使用你的驗證數(shù)據(jù)接入你的模型

④測試模型:使用你的測試數(shù)據(jù)檢查被驗證的模型的表現(xiàn)

⑤使用模型:使用完全訓(xùn)練好的模型在新數(shù)據(jù)上做預(yù)測

⑥調(diào)優(yōu)模型:使用更多數(shù)據(jù)、不同的特征或調(diào)整過的參數(shù)來提升算法的性能表現(xiàn)

五、手寫數(shù)字識別流程概述

本文下面內(nèi)容源于gitchat上劉穎老師的人人都能看懂的 AI 入門課,對代碼感興趣的朋友可以點擊查看。本文不討論代碼實現(xiàn),僅討論實現(xiàn)流程和實現(xiàn)過程中的一些概念。

1、TensorFlow基礎(chǔ)

TensorFlow 是 Google 開源的一款人工智能學(xué)習(xí)系統(tǒng)。使用很方便,幾行代碼就能開始跑模型,這讓神經(jīng)網(wǎng)絡(luò)的入門變得非常簡單。Google 開源了 TensorFlow,希望占領(lǐng) AI 端。Google 也為入門者提供了一個這樣的例子,也就是 TensorFlow 里的“ hello world ”,這個例子的名字叫“ MNIST ”,MNIST機器學(xué)習(xí)入門可點擊查看。下文將簡述實現(xiàn)過程,重在理解流程和一些模型設(shè)計概念。

2、 手寫圖片識別實現(xiàn)步驟概述

劉穎老師對項目做了三次優(yōu)化,使手寫數(shù)字的準確率從92%->98%->99.25%,1.0版使用一個最簡單的單層的神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí),2.0版使用了卷積神經(jīng)網(wǎng)絡(luò),3.0版使用 Keras 框架,增加20層網(wǎng)絡(luò)的深度。

手寫圖片識別的實現(xiàn),分為三步:(1)數(shù)據(jù)的準備;(2)模型的設(shè)計;(3)代碼實現(xiàn)

3、數(shù)據(jù)準備

在寫代碼的過程中,數(shù)據(jù)的預(yù)處理是最大的一塊工作,60%以上的代碼在做數(shù)據(jù)預(yù)處理。 這個項目的預(yù)處理,分為5步:

把輸入和結(jié)果分開

對輸入進行處理:把一維的輸入變成28*28的矩陣

對結(jié)果進行處理:把結(jié)果進行 One-Hot 編碼

把訓(xùn)練數(shù)據(jù)劃分訓(xùn)練集和驗證集

對訓(xùn)練集進行分批

那么準備的數(shù)據(jù)是什么樣的呢?劉穎老師使用Kaggle 里包含了42000份訓(xùn)練數(shù)據(jù)和28000份測試數(shù)據(jù),這些數(shù)字是28*28像素的手寫數(shù)字圖片,可以將一張圖理解為一個二維數(shù)組結(jié)構(gòu),如下圖所示:

轉(zhuǎn)型AI產(chǎn)品經(jīng)理需要掌握的硬知識二:AI常見概念和算法梳理

Kaggle 的數(shù)據(jù)將二維數(shù)組轉(zhuǎn)化為了一維數(shù)組,也就是28*28=784列,包括圖片代表的數(shù)字一共785列,所以上文中的測試和訓(xùn)練數(shù)據(jù)被轉(zhuǎn)為[42000,785]和[28000,784]的數(shù)組,這就是圖片的預(yù)處理。

人類可以快速識別圖像并對應(yīng)到記憶中的事物,而圖像在計算機看來是這樣的:

轉(zhuǎn)型AI產(chǎn)品經(jīng)理需要掌握的硬知識二:AI常見概念和算法梳理

4、單層的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)流程及相關(guān)概念

使用一個最簡單的單層的神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)的模型設(shè)計如下所示:

用 SoftMax 來做為激活函數(shù)

用交叉熵來做損失函數(shù)

用梯度下降來做優(yōu)化方式

激活函數(shù):每個神經(jīng)元,在通過一系列計算后,得到了一個數(shù)值,怎么來判斷應(yīng)該輸出什么?激活函數(shù)就是解決這個問題,你把值給我,我來判斷怎么輸出。所以一個神經(jīng)網(wǎng)絡(luò),激活函數(shù)是非常重要的。目前主流的幾個激活函數(shù)是:softMax,sigmoid,tanh,ReLU。

SoftMax:我們知道 max(A,B)是指 A 和 B 里哪個大就取哪個值,但我們有時候希望比較小的那個也有一定概率取到,怎么辦呢?我們就按照兩個值的大小,計算出概率,按照這個概率來取 A 或者 B。比如A=9,B=1,那取 A 的概率是90%,取B的概率是10%,這就是SoftMax。

損失函數(shù):損失函數(shù)是模型對數(shù)據(jù)擬合程度的反映,擬合得越好損失應(yīng)該越小,擬合越差損失則越大,然后我們根據(jù)損失函數(shù)的結(jié)果對模型進行調(diào)整。

交叉熵:交叉熵通俗的講就是現(xiàn)在的訓(xùn)練程度和圓滿之間的距離,我們希望距離越小越好,所以交叉熵可以作為一個損失函數(shù),來衡量和目標之間的距離。

梯度下降:我們將要解決的問題比作是一座山,答案在山底,我們從山頂?shù)缴降椎倪^程就是解決問題的過程。在山頂,想找到最快的下山的路。這個時候,我們的做法是什么呢?在每次選擇道路的時候,選最陡的那條路。梯度是改變率或者斜度的另一個稱呼,用數(shù)學(xué)的語言解釋是導(dǎo)數(shù)。對于求損失函數(shù)最小值這樣的問題,朝著梯度下降的方向走,就能找到最優(yōu)值了。

5、卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)流程及相關(guān)概念

卷積神經(jīng)網(wǎng)絡(luò)(CNN)由輸入層、卷積層、激活函數(shù)、池化層、全連接層組成,即INPUT(輸入層)-CONV(卷積層)-RELU(激活函數(shù))-POOL(池化層)-FC(全連接層)

卷積層1+激活函數(shù)+池化層1+卷積層2+激活函數(shù)+池化層2+全連接1+Dropout 層+輸出層

卷積層的作用是指對圖片的矩陣進行卷積運算,得到一些數(shù)值,作為圖片的某些特征。

池化層的作用是對上層的數(shù)據(jù)進行采樣,也就是只留下一部分,這樣的作用是可以縮小數(shù)據(jù)量和模糊特征。

全連接層就是連在最后的分類器。前面卷積層和池化層進行處理后,得到了很多的特征,全連接層使用這些特征進行分類。比如識別數(shù)字,那就是對0~9的十個類別進行分類。

Dropout層是為了防止 CNN 對訓(xùn)練樣本過擬合,而導(dǎo)致處理新樣本的時候效果不好,采取的丟棄部分激活參數(shù)的處理方式。

這里對這些概念的解釋都是比較簡單的,如果希望詳細了解,可以看知乎的這個鏈接:CNN卷積神經(jīng)網(wǎng)絡(luò)是什么? 卷積神經(jīng)網(wǎng)絡(luò)

6、使用 Keras 框架實現(xiàn)多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)

使用 Keras 框架提升準確率

增加網(wǎng)絡(luò)的深度,這里增加到了20層

每次卷積完之后,加入規(guī)范層

使用最新的 SELU 激活函數(shù),這是 Sepp Hochreiter 最新發(fā)表在 arXiv 上的激活函數(shù)

概括來看,圖片識別中需要完成三步:數(shù)據(jù)的準備,模型設(shè)計,代碼實現(xiàn)。淺層學(xué)習(xí)需要選擇激活函數(shù),損失函數(shù)和優(yōu)化方式,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)在模型設(shè)計時需要考慮輸入層、卷積層、激活函數(shù)、池化層、全連接層等。

筆者暫時可以理解的只有這些,希望AI大神或前輩可以多多指正,如果AI產(chǎn)品經(jīng)理的崗位求內(nèi)推,如果AI產(chǎn)品經(jīng)理的崗位求內(nèi)推,如果AI產(chǎn)品經(jīng)理的崗位求內(nèi)推,重要的事情說三遍~

下一篇文章嘗試總結(jié)我們身邊的一些2B和2C的AI產(chǎn)品,并且嘗試著對于未來AI產(chǎn)品的應(yīng)用場景開開腦洞。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产欧美韩日一区二区三区| 日本人妻丰满熟妇久久| 国产又粗又猛又爽又黄| 久久人人爽人人爽大片av| 国产精品福利一级久久| 美女被啪的视频在线观看| 伊人国产精选免费观看在线视频 | 99国产高清不卡视频| 不卡免费成人日韩精品| 五月综合激情婷婷丁香| 国产欧美日韩视频91| 特黄大片性高水多欧美一级| 国产成人午夜在线视频| 日本深夜福利在线播放| 日本人妻免费一区二区三区| 欧美精品亚洲精品日韩专区| 日韩三极片在线免费播放| 久久精品欧美一区二区三不卡| 日本久久精品在线观看| 午夜免费精品视频在线看| 欧美日韩国内一区二区| 亚洲最新中文字幕一区| 日韩精品综合福利在线观看| 国产精品十八禁亚洲黄污免费观看 | 精品久久久一区二区三| 国产又大又黄又粗又免费| 99国产成人免费一区二区| 日本高清不卡一二三区| 日韩精品小视频在线观看| 最新国产欧美精品91| 伊人欧美一区二区三区| 激情综合五月开心久久| 久久精品视频就在久久| 午夜福利直播在线视频| 久久老熟女一区二区三区福利| 老司机精品视频在线免费| 亚洲一区二区久久观看| 欧美日韩免费黄片观看| 国产视频福利一区二区| 中日韩美一级特黄大片| 空之色水之色在线播放|