新手上路：大數(shù)據(jù)和機(jī)器學(xué)習(xí)有什么區(qū)別

大數(shù)據(jù) 機(jī)器學(xué)習(xí)

YCM1101743158 | 2017-06-20 18:28

【數(shù)據(jù)猿導(dǎo)讀】大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值，機(jī)器學(xué)習(xí)是利用數(shù)據(jù)價(jià)值的關(guān)鍵技術(shù)，對(duì)于大數(shù)據(jù)而言，機(jī)器學(xué)習(xí)是不可或缺的。

新手上路：大數(shù)據(jù)和機(jī)器學(xué)習(xí)有什么區(qū)別

大數(shù)據(jù)的定義

大數(shù)據(jù)(big data)，指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)是一個(gè)籠統(tǒng)的概念暫未發(fā)現(xiàn)和準(zhǔn)確的定義。

大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值，機(jī)器學(xué)習(xí)是利用數(shù)據(jù)價(jià)值的關(guān)鍵技術(shù)，對(duì)于大數(shù)據(jù)而言，機(jī)器學(xué)習(xí)是不可或缺的。相反，對(duì)于機(jī)器學(xué)習(xí)而言，越多的數(shù)據(jù)會(huì)越可能提升模型的精確性，同時(shí)，復(fù)雜的機(jī)器學(xué)習(xí)算法的計(jì)算時(shí)間也迫切需要分布式計(jì)算與內(nèi)存計(jì)算這樣的關(guān)鍵技術(shù)。因此，機(jī)器學(xué)習(xí)的興盛也離不開(kāi)大數(shù)據(jù)的幫助。大數(shù)據(jù)與機(jī)器學(xué)習(xí)兩者是互相促進(jìn)，相依相存的關(guān)系。

機(jī)器學(xué)習(xí)與大數(shù)據(jù)緊密聯(lián)系。但是，必須清醒的認(rèn)識(shí)到，大數(shù)據(jù)并不等同于機(jī)器學(xué)習(xí)，同理，機(jī)器學(xué)習(xí)也不等同于大數(shù)據(jù)。大數(shù)據(jù)中包含有分布式計(jì)算，內(nèi)存數(shù)據(jù)庫(kù)，多維分析等等多種技術(shù)。單從分析方法來(lái)看，大數(shù)據(jù)也包含以下四種分析方法：

1.大數(shù)據(jù)，小分析：即數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的OLAP分析思路，也就是多維分析思想。

2.大數(shù)據(jù)，大分析：這個(gè)代表的就是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)分析法。

3.流式分析：這個(gè)主要指的是事件驅(qū)動(dòng)架構(gòu)。

4.查詢(xún)分析：經(jīng)典代表是NoSQL數(shù)據(jù)庫(kù)。

也就是說(shuō)，機(jī)器學(xué)習(xí)僅僅是大數(shù)據(jù)分析中的一種而已。盡管機(jī)器學(xué)習(xí)的一些結(jié)果具有很大的魔力，在某種場(chǎng)合下是大數(shù)據(jù)價(jià)值最好的說(shuō)明。但這并不代表機(jī)器學(xué)習(xí)是大數(shù)據(jù)下的唯一的分析方法。

機(jī)器學(xué)習(xí)的定義

從廣義上來(lái)說(shuō)，機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無(wú)法完成的功能的方法。但從實(shí)踐的意義上來(lái)說(shuō)，機(jī)器學(xué)習(xí)是一種通過(guò)利用數(shù)據(jù)，訓(xùn)練出模型，然后使用模型預(yù)測(cè)的一種方法。

首先，我們需要在計(jì)算機(jī)中存儲(chǔ)歷史的數(shù)據(jù)。接著，我們將這些數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)算法進(jìn)行處理，這個(gè)過(guò)程在機(jī)器學(xué)習(xí)中叫做“訓(xùn)練”，處理的結(jié)果可以被我們用來(lái)對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)，這個(gè)結(jié)果一般稱(chēng)之為“模型”。對(duì)新數(shù)據(jù) 的預(yù)測(cè)過(guò)程在機(jī)器學(xué)習(xí)中叫做“預(yù)測(cè)”。“訓(xùn)練”與“預(yù)測(cè)”是機(jī)器學(xué)習(xí)的兩個(gè)過(guò)程，“模型”則是過(guò)程的中間輸出結(jié)果，“訓(xùn)練”產(chǎn)生“模型”，“模型”指導(dǎo) “預(yù)測(cè)”。

人類(lèi)在成長(zhǎng)、生活過(guò)程中積累了很多的歷史與經(jīng)驗(yàn)。人類(lèi)定期地對(duì)這些經(jīng)驗(yàn)進(jìn)行“歸納”，獲得了生活的“規(guī)律”。當(dāng)人類(lèi)遇到未知的問(wèn)題或者需要對(duì)未來(lái)進(jìn)行“推測(cè)”的時(shí)候，人類(lèi)使用這些“規(guī)律”，對(duì)未知問(wèn)題與未來(lái)進(jìn)行“推測(cè)”，從而指導(dǎo)自己的生活和工作。

機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測(cè)”過(guò)程可以對(duì)應(yīng)到人類(lèi)的“歸納”和“推測(cè)”過(guò)程。通過(guò)這樣的對(duì)應(yīng)，我們可以發(fā)現(xiàn)，機(jī)器學(xué)習(xí)的思想并不復(fù)雜，僅僅是對(duì)人類(lèi)在生活中學(xué)習(xí)成長(zhǎng)的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果，因此它的處理過(guò)程不是因果的邏輯，而是通過(guò)歸納思想得出的相關(guān)性結(jié)論。

這也可以聯(lián)想到人類(lèi)為什么要學(xué)習(xí)歷史，歷史實(shí)際上是人類(lèi)過(guò)往經(jīng)驗(yàn)的總結(jié)。有句話說(shuō)得很好，“歷史往往不一樣，但歷史總是驚人的相似”。通過(guò)學(xué)習(xí)歷史，我們從歷史中歸納出人生與國(guó)家的規(guī)律，從而指導(dǎo)我們的下一步工作，這是具有莫大價(jià)值的。當(dāng)代一些人忽視了歷史的本來(lái)價(jià)值，而是把其作為一種宣揚(yáng)功績(jī)的手段，這其實(shí)是對(duì)歷史真實(shí)價(jià)值的一種誤用。

機(jī)器學(xué)習(xí)的范圍

機(jī)器學(xué)習(xí)跟模式識(shí)別，統(tǒng)計(jì)學(xué)習(xí)，數(shù)據(jù)挖掘，計(jì)算機(jī)視覺(jué)，語(yǔ)音識(shí)別，自然語(yǔ)言處理等領(lǐng)域有著很深的聯(lián)系。

從范圍上來(lái)說(shuō)，機(jī)器學(xué)習(xí)跟模式識(shí)別，統(tǒng)計(jì)學(xué)習(xí)，數(shù)據(jù)挖掘是類(lèi)似的，同時(shí)，機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合，形成了計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等交叉學(xué)科。因此，一般說(shuō)數(shù)據(jù)挖掘時(shí)，可以等同于說(shuō)機(jī)器學(xué)習(xí)。同時(shí)，我們平常所說(shuō)的機(jī)器學(xué)習(xí)應(yīng)用，應(yīng)該是通用的，不僅僅局限在結(jié)構(gòu)化數(shù)據(jù)，還有圖像，音頻等應(yīng)用。

模式識(shí)別

模式識(shí)別=機(jī)器學(xué)習(xí)。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來(lái)的概念，后者則主要源自計(jì)算機(jī)學(xué)科。在著名的《Pattern Recognition And Machine Learning》這本書(shū)中，Christopher M. Bishop在開(kāi)頭是這樣說(shuō)的“模式識(shí)別源自工業(yè)界，而機(jī)器學(xué)習(xí)來(lái)自于計(jì)算機(jī)學(xué)科。不過(guò)，它們中的活動(dòng)可以被視為同一個(gè)領(lǐng)域的兩個(gè)方面，同時(shí)在過(guò)去的10年間，它們都有了長(zhǎng)足的發(fā)展”。

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘=機(jī)器學(xué)習(xí)+數(shù)據(jù)庫(kù)。這幾年數(shù)據(jù)挖掘的概念實(shí)在是太耳熟能詳。幾乎等同于炒作。但凡說(shuō)數(shù)據(jù)挖掘都會(huì)吹噓數(shù)據(jù)挖掘如何如何，例如從數(shù)據(jù)中挖出金子，以及將廢棄的數(shù)據(jù)轉(zhuǎn)化為價(jià)值等等。但是，我盡管可能會(huì)挖出金子，但我也可能挖的是“石頭”啊。這個(gè)說(shuō)法的意思是，數(shù)據(jù)挖掘僅僅是一種思考方式，告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識(shí)，但不是每個(gè)數(shù)據(jù)都能挖掘出金子的，所以不要神話它。一個(gè)系統(tǒng)絕對(duì)不會(huì)因?yàn)樯狭艘粋€(gè)數(shù)據(jù)挖掘模塊就變得無(wú)所不能(這是IBM最喜歡吹噓的)，恰恰相反，一個(gè)擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵，而且他還必須對(duì)數(shù)據(jù)有深刻的認(rèn)識(shí)，這樣才可能從數(shù)據(jù)中導(dǎo)出模式指引業(yè)務(wù)的改善。大部分?jǐn)?shù)據(jù)挖掘中的算法是機(jī)器學(xué)習(xí)的算法在數(shù)據(jù)庫(kù)中的優(yōu)化。

統(tǒng)計(jì)學(xué)習(xí)

統(tǒng)計(jì)學(xué)習(xí)近似等于機(jī)器學(xué)習(xí)。統(tǒng)計(jì)學(xué)習(xí)是個(gè)與機(jī)器學(xué)習(xí)高度重疊的學(xué)科。因?yàn)闄C(jī)器學(xué)習(xí)中的大多數(shù)方法來(lái)自統(tǒng)計(jì)學(xué)，甚至可以認(rèn)為，統(tǒng)計(jì)學(xué)的發(fā)展促進(jìn)機(jī)器學(xué)習(xí)的繁榮昌盛。例如著名的支持向量機(jī)算法，就是源自統(tǒng)計(jì)學(xué)科。但是在某種程度上兩者是有分別的，這個(gè)分別在于：統(tǒng)計(jì)學(xué)習(xí)者重點(diǎn)關(guān)注的是統(tǒng)計(jì)模型的發(fā)展與優(yōu)化，偏數(shù)學(xué)，而機(jī)器學(xué)習(xí)者更關(guān)注的是能夠解決問(wèn)題，偏實(shí)踐，因此機(jī)器學(xué)習(xí)研究者會(huì)重點(diǎn)研究學(xué)習(xí)算法在計(jì)算機(jī)上執(zhí)行的效率與準(zhǔn)確性的提升。

計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)=圖像處理+機(jī)器學(xué)習(xí)。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機(jī)器學(xué)習(xí)模型中的輸入，機(jī)器學(xué)習(xí)則負(fù)責(zé)從圖像中識(shí)別出相關(guān)的模式。計(jì)算機(jī)視覺(jué)相關(guān)的應(yīng)用非常的多，例如百度識(shí)圖、手寫(xiě)字符識(shí)別、車(chē)牌識(shí)別等等應(yīng)用。這個(gè)領(lǐng)域是應(yīng)用前景非?；馃岬模瑫r(shí)也是研究的熱門(mén)方向。隨著機(jī)器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展，大大促進(jìn)了計(jì)算機(jī)圖像識(shí)別的效果，因此未來(lái)計(jì)算機(jī)視覺(jué)界的發(fā)展前景不可估量。

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別=語(yǔ)音處理+機(jī)器學(xué)習(xí)。語(yǔ)音識(shí)別就是音頻處理技術(shù)與機(jī)器學(xué)習(xí)的結(jié)合。語(yǔ)音識(shí)別技術(shù)一般不會(huì)單獨(dú)使用，一般會(huì)結(jié)合自然語(yǔ)言處理的相關(guān)技術(shù)。目前的相關(guān)應(yīng)用有蘋(píng)果的語(yǔ)音助手siri等。

自然語(yǔ)言處理

自然語(yǔ)言處理=文本處理+機(jī)器學(xué)習(xí)。自然語(yǔ)言處理技術(shù)主要是讓機(jī)器理解人類(lèi)的語(yǔ)言的一門(mén)領(lǐng)域。在自然語(yǔ)言處理技術(shù)中，大量使用了編譯原理相關(guān)的技術(shù)，例如詞法分析，語(yǔ)法分析等等，除此之外，在理解這個(gè)層面，則使用了語(yǔ)義理解，機(jī)器學(xué)習(xí)等技術(shù)。作為唯一由人類(lèi)自身創(chuàng)造的符號(hào)，自然語(yǔ)言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向。按照百度機(jī)器學(xué)習(xí)專(zhuān)家余凱的說(shuō)法“聽(tīng)與看，說(shuō)白了就是阿貓和阿狗都會(huì)的，而只有語(yǔ)言才是人類(lèi)獨(dú)有的”。如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言的的深度理解，一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)。

機(jī)器學(xué)習(xí)的方法

1、回歸算法

在大部分機(jī)器學(xué)習(xí)課程中，回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè)：一.回歸算法比較簡(jiǎn)單，介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石，如果不理解回歸算法，無(wú)法學(xué)習(xí)那些強(qiáng)大的算法?；貧w算法有兩個(gè)重要的子類(lèi)：即線性回歸和邏輯回歸。

線性回歸就是我們常見(jiàn)的直線函數(shù)。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù) 一般使用“最小二乘法”來(lái)求解。“最小二乘法”的思想是這樣的，假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值，而觀測(cè)到的數(shù)據(jù)代表?yè)碛姓`差的值。為了盡可能減小誤差的影響，需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優(yōu)問(wèn)題轉(zhuǎn)化為求函數(shù)極值問(wèn)題。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計(jì)算機(jī)，可能求解不出來(lái)，也可能計(jì)算量太大。

計(jì)算機(jī)科學(xué)界專(zhuān)門(mén)有一個(gè)學(xué)科叫“數(shù)值計(jì)算”，專(zhuān)門(mén)用來(lái)提升計(jì)算機(jī)進(jìn)行各類(lèi)計(jì)算時(shí)的準(zhǔn)確性和效率問(wèn)題。例如，著名的“梯度下降”以及“牛頓法”就是數(shù)值計(jì)算中的經(jīng)典算法，也非常適合來(lái)處理求解函數(shù)極值的問(wèn)題。梯度下降法是解決回歸模型中最簡(jiǎn)單且有效的方法之一。從嚴(yán)格意義上來(lái)說(shuō)，由于后文中的神經(jīng)網(wǎng)絡(luò)和推薦算法中都有線性回歸的因子，因此梯度下降法在后面的算法實(shí)現(xiàn)中也有應(yīng)用。

邏輯回歸是一種與線性回歸非常類(lèi)似的算法，但是，從本質(zhì)上講，線型回歸處理的問(wèn)題類(lèi)型與邏輯回歸不一致。線性回歸處理的是數(shù)值問(wèn)題，也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字，例如房?jī)r(jià)。而邏輯回歸屬于分類(lèi)算法，也就是說(shuō)，邏輯回歸預(yù)測(cè)結(jié)果是離散的分類(lèi)，例如判斷這封郵件是否是垃圾郵件，以及用戶是否會(huì)點(diǎn)擊此廣告等等。

實(shí)現(xiàn)方面的話，邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù)，將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來(lái)說(shuō)并不直觀，你只需要理解對(duì)數(shù)值越大，函數(shù)越逼近1，數(shù)值越小，函數(shù)越逼近0)，接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè)，例如概率大于0.5，則這封郵件就是垃圾郵件，或者腫瘤是否是惡性的等等。從直觀上來(lái)說(shuō)，邏輯回歸是畫(huà)出了一條分類(lèi)線，見(jiàn)下圖。

假設(shè)我們有一組腫瘤患者的數(shù)據(jù)，這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn))，有些是惡性的(圖中的紅色點(diǎn))。這里腫瘤的紅藍(lán)色可以被稱(chēng)作數(shù)據(jù)的“標(biāo)簽”。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”：患者的年齡與腫瘤的大小。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上，形成了我上圖的數(shù)據(jù)。

當(dāng)我有一個(gè)綠色的點(diǎn)時(shí)，我該判斷這個(gè)腫瘤是惡性的還是良性的呢根據(jù)紅藍(lán)點(diǎn)我們訓(xùn)練出了一個(gè)邏輯回歸模型，也就是圖中的分類(lèi)線。這時(shí)，根據(jù)綠點(diǎn)出現(xiàn)在分類(lèi)線的左側(cè)，因此我們判斷它的標(biāo)簽應(yīng)該是紅色，也就是說(shuō)屬于惡性腫瘤。

邏輯回歸算法劃出的分類(lèi)線基本都是線性的(也有劃出非線性分類(lèi)線的邏輯回歸，不過(guò)那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低)，這意味著當(dāng)兩類(lèi)之間的界線不是線性時(shí)，邏輯回歸的表達(dá)能力就不足。下面的兩個(gè)算法是機(jī)器學(xué)習(xí)界最強(qiáng)大且重要的算法，都可以擬合出非線性的分類(lèi)線。

2、神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)(也稱(chēng)之為人工神經(jīng)網(wǎng)絡(luò)，ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法，不過(guò)在90年代中途衰落。現(xiàn)在，攜著“深度學(xué)習(xí)”之勢(shì)，神經(jīng)網(wǎng)絡(luò)重裝歸來(lái)，重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。

神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來(lái)模擬大腦。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn)，發(fā)現(xiàn)在視覺(jué)與語(yǔ)音的識(shí)別上效果都相當(dāng)好。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程的數(shù)值算法)誕生以后，神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮。BP算法的發(fā)明人之一是前面介紹的機(jī)器學(xué)習(xí)大牛Geoffrey Hinton(圖1中的中間者)。

具體說(shuō)來(lái)，神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理是什么簡(jiǎn)單來(lái)說(shuō)，就是分解與整合。在著名的Hubel-Wiesel試驗(yàn)中，學(xué)者們研究貓的視覺(jué)分析機(jī)理是這樣的。

比方說(shuō)，一個(gè)正方形，分解為四個(gè)折線進(jìn)入視覺(jué)處理的下一層中。四個(gè)神經(jīng)元分別處理一個(gè)折線。每個(gè)折線再繼續(xù)被分解為兩條直線，每條直線再被分解為黑白兩個(gè)面。于是，一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元，神經(jīng)元處理以后再進(jìn)行整合，最后得出了看到的是正方形的結(jié)論。這就是大腦視覺(jué)識(shí)別的機(jī)理，也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理。

讓我們看一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個(gè)網(wǎng)絡(luò)中，分成輸入層，隱藏層，和輸出層。輸入層負(fù)責(zé)接收信號(hào)，隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理，最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元，可以認(rèn)為是模擬了一個(gè)神經(jīng)元，若干個(gè)處理單元組成了一個(gè)層，若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò)，也就是”神經(jīng)網(wǎng)絡(luò)”。

在神經(jīng)網(wǎng)絡(luò)中，每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸模型，邏輯回歸模型接收上層的輸入，把模型的預(yù)測(cè)結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次。通過(guò)這樣的過(guò)程，神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類(lèi)。

下圖會(huì)演示神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的一個(gè)著名應(yīng)用，這個(gè)程序叫做LeNet，是一個(gè)基于多個(gè)隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)。通過(guò)LeNet可以識(shí)別多種手寫(xiě)數(shù)字，并且達(dá)到很高的識(shí)別精度與擁有較好的魯棒性。

右下方的方形中顯示的是輸入計(jì)算機(jī)的圖像，方形上方的紅色字樣“answer”后面顯示的是計(jì)算機(jī)的輸出。左邊的三條豎直的圖像列顯示的是神經(jīng)網(wǎng)絡(luò)中三個(gè)隱藏層的輸出，可以看出，隨著層次的不斷深入，越深的層次處理的細(xì)節(jié)越低，例如層3基本處理的都已經(jīng)是線的細(xì)節(jié)了。LeNet的發(fā)明人就是前文介紹過(guò)的機(jī)器學(xué)習(xí)的大牛Yann LeCun(圖1右者)。

進(jìn)入90年代，神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期。其主要原因是盡管有BP算法的加速，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程仍然很困難。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位。

3、SVM(支持向量機(jī))

支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界，同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。

支持向量機(jī)算法從某種意義上來(lái)說(shuō)是邏輯回歸算法的強(qiáng)化：通過(guò)給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件，支持向量機(jī)算法可以獲得比邏輯回歸更好的分類(lèi)界線。但是如果沒(méi)有某類(lèi)函數(shù)技術(shù)，則支持向量機(jī)算法最多算是一種更好的線性分類(lèi)技術(shù)。

但是，通過(guò)跟高斯“核”的結(jié)合，支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類(lèi)界線，從而達(dá)成很好的的分類(lèi)效果。“核”事實(shí)上就是一種特殊的函數(shù)，最典型的特征就是可以將低維的空間映射到高維的空間。

我們?nèi)绾卧诙S平面劃分出一個(gè)圓形的分類(lèi)界線在二維平面可能會(huì)很困難，但是通過(guò)“核”可以將二維空間映射到三維空間，然后使用一個(gè)線性平面就可以達(dá)成類(lèi)似效果。也就是說(shuō)，二維平面劃分出的非線性分類(lèi)界線可以等價(jià)于三維平面的線性分類(lèi)界線。于是，我們可以通過(guò)在三維空間中進(jìn)行簡(jiǎn)單的線性劃分就可以達(dá)到在二維平面中的非線性劃分效果。

支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法(相對(duì)的，神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)。在算法的核心步驟中，有一步證明，即將數(shù)據(jù)從低維映射到高維不會(huì)帶來(lái)最后計(jì)算復(fù)雜性的提升。于是，通過(guò)支持向量機(jī)算法，既可以保持計(jì)算效率，又可以獲得非常好的分類(lèi)效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位，基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起，兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。

4、聚類(lèi)算法

前面的算法中的一個(gè)顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽，訓(xùn)練出的模型可以對(duì)其他未知數(shù)據(jù)預(yù)測(cè)標(biāo)簽。在下面的算法中，訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的，而算法的目的則是通過(guò)訓(xùn)練，推測(cè)出這些數(shù)據(jù)的標(biāo)簽。這類(lèi)算法有一個(gè)統(tǒng)稱(chēng)，即無(wú)監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無(wú)監(jiān)督算法中最典型的代表就是聚類(lèi)算法。

讓我們還是拿一個(gè)二維的數(shù)據(jù)來(lái)說(shuō)，某一個(gè)數(shù)據(jù)包含兩個(gè)特征。我希望通過(guò)聚類(lèi)算法，給他們中不同的種類(lèi)打上標(biāo)簽，我該怎么做呢簡(jiǎn)單來(lái)說(shuō)，聚類(lèi)算法就是計(jì)算種群中的距離，根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。

聚類(lèi)算法中最典型的代表就是K-Means算法。

5、降維算法

降維算法也是一種無(wú)監(jiān)督學(xué)習(xí)算法，其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里，維度其實(shí)表示的是數(shù)據(jù)的特征量的大小，例如，房?jī)r(jià)包含房子的長(zhǎng)、寬、面積與房間數(shù)量四個(gè)特征，也就是維度為4維的數(shù)據(jù)?？梢钥闯鰜?lái)，長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了，例如面積=長(zhǎng) × 寬。通過(guò)降維算法我們就可以去除冗余信息，將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征，即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維，不僅利于表示，同時(shí)在計(jì)算上也能帶來(lái)加速。

剛才說(shuō)的降維過(guò)程中減少的維度屬于肉眼可視的層次，同時(shí)壓縮也不會(huì)帶來(lái)信息的損失(因?yàn)樾畔⑷哂嗔?。如果肉眼不可視，或者沒(méi)有冗余的特征，降維算法也能工作，不過(guò)這樣會(huì)帶來(lái)一些信息的損失。但是，降維算法可以從數(shù)學(xué)上證明，從高維壓縮到的低維中最大程度地保留了數(shù)據(jù)的信息。因此，使用降維算法仍然有很多的好處。

降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)其他算法的效率。通過(guò)降維算法，可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征。另外，降維算法的另一個(gè)好處是數(shù)據(jù)的可視化，例如將5維的數(shù)據(jù)壓縮至2維，然后可以用二維平面來(lái)可視。降維算法的主要代表是PCA算法(即主成分分析算法)。

6、推薦算法

推薦算法是目前業(yè)界非?；鸬囊环N算法，在電商界，如亞馬遜，天貓，京東等得到了廣泛的運(yùn)用。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西，從而增加購(gòu)買(mǎi)率，提升效益。推薦算法有兩個(gè)主要的類(lèi)別：

一類(lèi)是基于物品內(nèi)容的推薦，是將與用戶購(gòu)買(mǎi)的內(nèi)容近似的物品推薦給用戶，這樣的前提是每個(gè)物品都得有若干個(gè)標(biāo)簽，因此才可以找出與用戶購(gòu)買(mǎi)物品類(lèi)似的物品，這樣推薦的好處是關(guān)聯(lián)程度較大，但是由于每個(gè)物品都需要貼標(biāo)簽，因此工作量較大。

另一類(lèi)是基于用戶相似度的推薦，則是將與目標(biāo)用戶興趣相同的其他用戶購(gòu)買(mǎi)的東西推薦給目標(biāo)用戶，例如小A歷史上買(mǎi)了物品B和C，經(jīng)過(guò)算法分析，發(fā)現(xiàn)另一個(gè)與小A近似的用戶小D購(gòu)買(mǎi)了物品E，于是將物品E推薦給小A。

兩類(lèi)推薦都有各自的優(yōu)缺點(diǎn)，在一般的電商應(yīng)用中，一般是兩類(lèi)混合使用。推薦算法中最有名的算法就是協(xié)同過(guò)濾算法。

7、梯度下降法

梯度下降法是一個(gè)最優(yōu)化算法，通常也稱(chēng)為最速下降法。最速下降法是求解無(wú)約束優(yōu)化問(wèn)題最簡(jiǎn)單和最古老的方法之一，雖然現(xiàn)在已經(jīng)不具有實(shí)用性，但是許多有效算法都是以它為基礎(chǔ)進(jìn)行改進(jìn)和修正而得到的。最速下降法是用負(fù)梯度方向?yàn)樗阉鞣较虻?，最速下降法越接近目?biāo)值，步長(zhǎng)越小，前進(jìn)越慢。好比將函數(shù)比作一座山，我們站在某個(gè)山坡上，往四周看，從哪個(gè)方向向下走一小步，能夠下降的最快;當(dāng)然解決問(wèn)題的方法有很多，梯度下降只是其中一個(gè)，還有一種方法叫Normal Equation

8、牛頓法

牛頓法是一種非線性最小二乘最優(yōu)化方法。其利用了目標(biāo)函數(shù)的泰勒展開(kāi)式把非線性函數(shù)的最小二乘化問(wèn)題化為每次迭代的線性函數(shù)的最小二乘化問(wèn)題。牛頓法的缺點(diǎn)在于：若初始點(diǎn)距離極小值點(diǎn)過(guò)遠(yuǎn)，迭代步長(zhǎng)過(guò)大會(huì)導(dǎo)致迭代下一代的函數(shù)值不一定小于上一代的函數(shù)值。牛頓法在二階導(dǎo)數(shù)的作用下，從函數(shù)的凸性出發(fā)，直接搜索怎樣到達(dá)極值點(diǎn)，也就是說(shuō)在選擇方向時(shí)，不僅考慮當(dāng)前坡度是否夠大，還會(huì)考慮你走了一步之后，坡度是否會(huì)變得更大。

從收斂速度來(lái)看，梯度下降是線性收斂，牛頓法是超線性的，至少二階收斂～，當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí)，梯度下降法的解釋全局最優(yōu)解。一般情況下，其解不保證是全局最優(yōu)解。當(dāng)目標(biāo)函數(shù)不是凸函數(shù)時(shí)，可以將目標(biāo)函數(shù)近似轉(zhuǎn)化成凸函數(shù)?；蛘哂靡恍┲悄軆?yōu)化算法例如模擬退火，以一定的概率跳出局部極值，但是這些算法都不保證能找到最小值。

9、BP算法

BP算法是學(xué)習(xí)過(guò)程由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過(guò)程組成。正向傳播時(shí)，輸入樣本從輸入層傳入，經(jīng)各隱層逐層處理后，傳向輸出層。若輸出層的實(shí)際輸出與期望的輸出(教師信號(hào))不符，則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過(guò)隱層向輸入層逐層反傳，并將誤差分?jǐn)偨o各層的所有單元，從而獲得各層單元的誤差信號(hào)，此誤差信號(hào)即作為修正各單元權(quán)值的依據(jù)。這種信號(hào)正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過(guò)程，是周而復(fù)始地進(jìn)行的。權(quán)值不斷調(diào)整的過(guò)程，也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過(guò)程。此過(guò)程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度，或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。

10、SMO算法

SMO算法是針對(duì)求解SVM問(wèn)題的Lagrange對(duì)偶問(wèn)題，一個(gè)二次規(guī)劃式，開(kāi)發(fā)的高效算法。傳統(tǒng)的二次規(guī)劃算法的計(jì)算開(kāi)銷(xiāo)正比于訓(xùn)練集的規(guī)模，而SMO基于問(wèn)題本身的特性(KKT條件約束)對(duì)這個(gè)特殊的二次規(guī)劃問(wèn)題的求解過(guò)程進(jìn)行優(yōu)化。對(duì)偶問(wèn)題中我們最后求解的變量只有Lagrange乘子α向量，這個(gè)算法的基本思想就是每次都只選取一對(duì) (αi，αj)，固定 α向量其他維度的元素的值，然后進(jìn)行優(yōu)化，直至收斂。

除了以上算法之外，機(jī)器學(xué)習(xí)界還有其他的如高斯判別，樸素貝葉斯，決策樹(shù)等等算法。但是上面列的10個(gè)算法是使用最多，影響最廣，種類(lèi)最全的典型。機(jī)器學(xué)習(xí)界的一個(gè)特色就是算法眾多，發(fā)展百花齊放。

下面做一個(gè)總結(jié)，按照訓(xùn)練的數(shù)據(jù)有無(wú)標(biāo)簽，可以將上面算法分為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法，但推薦算法較為特殊，既不屬于監(jiān)督學(xué)習(xí)，也不屬于非監(jiān)督學(xué)習(xí)，是單獨(dú)的一類(lèi)。

監(jiān)督學(xué)習(xí)算法：

線性回歸，邏輯回歸，神經(jīng)網(wǎng)絡(luò)，SVM

無(wú)監(jiān)督學(xué)習(xí)算法：

聚類(lèi)算法，降維算法

特殊算法：

推薦算法

除了這些算法以外，有一些算法的名字在機(jī)器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)。但他們本身并不算是一個(gè)機(jī)器學(xué)習(xí)算法，而是為了解決某個(gè)子問(wèn)題而誕生的。你可以理解他們?yōu)橐陨纤惴ǖ淖铀惴?，用于大幅度提高?xùn)練過(guò)程。其中的代表有：梯度下降法，主要運(yùn)用在線型回歸，邏輯回歸，神經(jīng)網(wǎng)絡(luò)，推薦算法中;牛頓法，主要運(yùn)用在線型回歸中;BP算法，主要運(yùn)用在神經(jīng)網(wǎng)絡(luò)中;SMO算法，主要運(yùn)用在SVM中。

機(jī)器學(xué)習(xí)與大數(shù)據(jù)的結(jié)合產(chǎn)生了巨大的價(jià)值?；跈C(jī)器學(xué)習(xí)技術(shù)的發(fā)展，數(shù)據(jù)能夠“預(yù)測(cè)”。對(duì)人類(lèi)而言，積累的經(jīng)驗(yàn)越豐富，閱歷也廣泛，對(duì)未來(lái)的判斷越準(zhǔn)確。例如常說(shuō)的“經(jīng)驗(yàn)豐富”的人比“初出茅廬”的小伙子更有工作上的優(yōu)勢(shì)，就在于經(jīng)驗(yàn)豐富的人獲得的規(guī)律比他人更準(zhǔn)確。而在機(jī)器學(xué)習(xí)領(lǐng)域，根據(jù)著名的一個(gè)實(shí)驗(yàn)，有效的證實(shí)了機(jī)器學(xué)習(xí)界一個(gè)理論：即機(jī)器學(xué)習(xí)模型的數(shù)據(jù)越多，機(jī)器學(xué)習(xí)的預(yù)測(cè)的效率就越好。

成功的機(jī)器學(xué)習(xí)應(yīng)用不是擁有最好的算法，而是擁有最多的數(shù)據(jù)!

在大數(shù)據(jù)的時(shí)代，有好多優(yōu)勢(shì)促使機(jī)器學(xué)習(xí)能夠應(yīng)用更廣泛。例如隨著物聯(lián)網(wǎng)和移動(dòng)設(shè)備的發(fā)展，我們擁有的數(shù)據(jù)越來(lái)越多，種類(lèi)也包括圖片、文本、視頻等非結(jié)構(gòu)化數(shù)據(jù)，這使得機(jī)器學(xué)習(xí)模型可以獲得越來(lái)越多的數(shù)據(jù)。同時(shí)大數(shù)據(jù)技術(shù)中的分布式計(jì)算Map-Reduce使得機(jī)器學(xué)習(xí)的速度越來(lái)越快，可以更方便的使用。種種優(yōu)勢(shì)使得在大數(shù)據(jù)時(shí)代，機(jī)器學(xué)習(xí)的優(yōu)勢(shì)可以得到最佳的發(fā)揮。

來(lái)源：36大數(shù)據(jù)

收藏分享

聲明：數(shù)據(jù)猿尊重媒體行業(yè)規(guī)范，相關(guān)內(nèi)容都會(huì)注明來(lái)源與作者；轉(zhuǎn)載我們?cè)瓌?chuàng)內(nèi)容時(shí)，也請(qǐng)務(wù)必注明“來(lái)源：數(shù)據(jù)猿”與作者名稱(chēng)，否則將會(huì)受到數(shù)據(jù)猿追責(zé)。