機(jī)器學(xué)習(xí)實(shí)戰(zhàn)之第一章 機(jī)器學(xué)習(xí)基礎(chǔ)
【數(shù)據(jù)猿導(dǎo)讀】 在90年代初,人們開(kāi)始意識(shí)到一種可以更有效地構(gòu)建模式識(shí)別算法的方法,那就是用數(shù)據(jù)(可以通過(guò)廉價(jià)勞動(dòng)力采集獲得)去替換專(zhuān)家(具有很多圖像方面知識(shí)的人)?!皺C(jī)器學(xué)習(xí)”強(qiáng)調(diào)的是,在給計(jì)算機(jī)程序(或者機(jī)器)輸入一些數(shù)據(jù)后,它必須做一些事情

機(jī)器學(xué)習(xí) 概述
機(jī)器學(xué)習(xí)就是把無(wú)序的數(shù)據(jù)轉(zhuǎn)換成有用的信息。
獲取海量的數(shù)據(jù)
從海量數(shù)據(jù)中獲取有用的信息
我們會(huì)利用計(jì)算機(jī)來(lái)彰顯數(shù)據(jù)背后的真實(shí)含義,這才是機(jī)器學(xué)習(xí)的意義。
機(jī)器學(xué)習(xí) 場(chǎng)景
例如:識(shí)別動(dòng)物貓
模式識(shí)別(官方標(biāo)準(zhǔn)):人們通過(guò)大量的經(jīng)驗(yàn),得到結(jié)論,從而判斷它就是貓。
機(jī)器學(xué)習(xí)(數(shù)據(jù)學(xué)習(xí)):人們通過(guò)閱讀進(jìn)行學(xué)習(xí),觀察它會(huì)叫、小眼睛、兩只耳朵、四條腿、一條尾巴,得到結(jié)論,從而判斷它就是貓。
深度學(xué)習(xí)(深入數(shù)據(jù)):人們通過(guò)深入了解它,發(fā)現(xiàn)它會(huì)’喵喵’的叫、與同類(lèi)的貓科動(dòng)物很類(lèi)似,得到結(jié)論,從而判斷它就是貓。(深度學(xué)習(xí)常用領(lǐng)域:語(yǔ)音識(shí)別、圖像識(shí)別)
模式識(shí)別(pattern recognition): 模式識(shí)別是最古老的(作為一個(gè)術(shù)語(yǔ)而言,可以說(shuō)是很過(guò)時(shí)的)。
我們把環(huán)境與客體統(tǒng)稱(chēng)為“模式”,識(shí)別是對(duì)模式的一種認(rèn)知,是如何讓一個(gè)計(jì)算機(jī)程序去做一些看起來(lái)很“智能”的事情。 通過(guò)融于智慧和直覺(jué)后,通過(guò)構(gòu)建程序,識(shí)別一些事物,而不是人,例如: 識(shí)別數(shù)字。
機(jī)器學(xué)習(xí)(machine learning): 機(jī)器學(xué)習(xí)是最基礎(chǔ)的(當(dāng)下初創(chuàng)公司和研究實(shí)驗(yàn)室的熱點(diǎn)領(lǐng)域之一)。
在90年代初,人們開(kāi)始意識(shí)到一種可以更有效地構(gòu)建模式識(shí)別算法的方法,那就是用數(shù)據(jù)(可以通過(guò)廉價(jià)勞動(dòng)力采集獲得)去替換專(zhuān)家(具有很多圖像方面知識(shí)的人)。
“機(jī)器學(xué)習(xí)”強(qiáng)調(diào)的是,在給計(jì)算機(jī)程序(或者機(jī)器)輸入一些數(shù)據(jù)后,它必須做一些事情,那就是學(xué)習(xí)這些數(shù)據(jù),而這個(gè)學(xué)習(xí)的步驟是明確的。 機(jī)器學(xué)習(xí)(Machine Learning)是一門(mén)專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身性能的學(xué)科。
深度學(xué)習(xí)(deep learning): 深度學(xué)習(xí)是非常嶄新和有影響力的前沿領(lǐng)域,我們甚至不會(huì)去思考-后深度學(xué)習(xí)時(shí)代。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。
參考地址: http://www.csdn.net/article/2015-03-24/2824301 http://baike.baidu.com/link url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q
機(jī)器學(xué)習(xí)已應(yīng)用于多個(gè)領(lǐng)域,遠(yuǎn)遠(yuǎn)超出大多數(shù)人的想象,橫跨:計(jì)算機(jī)科學(xué)、工程技術(shù)和統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科。
搜索引擎: 根據(jù)你的搜索點(diǎn)擊,優(yōu)化你下次的搜索結(jié)果。
垃圾郵件: 會(huì)自動(dòng)的過(guò)濾垃圾廣告郵件到垃圾箱內(nèi)。
超市優(yōu)惠券: 你會(huì)發(fā)現(xiàn),你在購(gòu)買(mǎi)小孩子尿布的時(shí)候,售貨員會(huì)贈(zèng)送你一張優(yōu)惠券可以兌換6罐啤酒。
郵局郵寄: 手寫(xiě)軟件自動(dòng)識(shí)別寄送賀卡的地址。
申請(qǐng)貸款: 通過(guò)你最近的金融活動(dòng)信息進(jìn)行綜合評(píng)定,決定你是否合格。
機(jī)器學(xué)習(xí) 組成
主要任務(wù)
分類(lèi):將實(shí)例數(shù)據(jù)劃分到合適的類(lèi)別中。
回歸:主要用于預(yù)測(cè)數(shù)值型數(shù)據(jù)。(示例:數(shù)據(jù)通過(guò)給定數(shù)據(jù)點(diǎn)來(lái)擬合最優(yōu)曲線)
監(jiān)督學(xué)習(xí)
必須確定目標(biāo)變量的值,以便機(jī)器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標(biāo)變量之間的關(guān)系。 (包括:分類(lèi)和回歸)
樣本集:訓(xùn)練數(shù)據(jù) + 測(cè)試數(shù)據(jù)
訓(xùn)練樣本 = 特征(feature) + 目標(biāo)變量(label: 分類(lèi)-離散值/回歸-連續(xù)值)
特征通常是訓(xùn)練樣本集的列,它們是獨(dú)立測(cè)量得到的。
目標(biāo)變量: 目標(biāo)變量是機(jī)器學(xué)習(xí)預(yù)測(cè)算法的測(cè)試結(jié)果。
在分類(lèi)算法中目標(biāo)變量的類(lèi)型通常是標(biāo)稱(chēng)型(如:真與假),而在回歸算法中通常是連續(xù)型(如:1~100)。
知識(shí)表示:
可以采用規(guī)則集的形式【例如:數(shù)學(xué)成績(jī)大于90分為優(yōu)秀】
可以采用概率分布的形式【例如:通過(guò)統(tǒng)計(jì)分布發(fā)現(xiàn),90%的同學(xué)數(shù)學(xué)成績(jī),在70分以下,那么大于70分定為優(yōu)秀】
可以使用訓(xùn)練樣本集中的一個(gè)實(shí)例【例如:通過(guò)樣本集合,我們訓(xùn)練出一個(gè)模型實(shí)例,得出 年輕,數(shù)學(xué)成績(jī)中高等,談吐優(yōu)雅,我們認(rèn)為是優(yōu)秀】
非監(jiān)督學(xué)習(xí)
數(shù)據(jù)沒(méi)有類(lèi)別信息,也不會(huì)給定目標(biāo)值。
聚類(lèi):在無(wú)監(jiān)督學(xué)習(xí)中,將數(shù)據(jù)集分成由類(lèi)似的對(duì)象組成多個(gè)類(lèi)的過(guò)程稱(chēng)為聚類(lèi)。
密度估計(jì):將尋找描述數(shù)據(jù)統(tǒng)計(jì)值的過(guò)程稱(chēng)之為密度估計(jì)。【就是:根據(jù)訓(xùn)練樣本確定x的概率分布】
此外,無(wú)監(jiān)督學(xué)習(xí)還可以減少數(shù)據(jù)特征的維度,以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。
訓(xùn)練過(guò)程
算法匯總
機(jī)器學(xué)習(xí) 使用
選擇算法需要考慮的兩個(gè)問(wèn)題
算法場(chǎng)景
預(yù)測(cè)明天是否下雨,因?yàn)榭梢杂脷v史的天氣情況做預(yù)測(cè),所以選擇監(jiān)督學(xué)習(xí)算法
給一群陌生的人進(jìn)行分組,但是我們并沒(méi)有這些人的類(lèi)別信息,所以選擇無(wú)監(jiān)督學(xué)習(xí)算法、通過(guò)他們身高、體重等特征進(jìn)行處理。
需要收集或分析的數(shù)據(jù)是什么
機(jī)器學(xué)習(xí) 開(kāi)發(fā)流程
* 收集數(shù)據(jù): 收集樣本數(shù)據(jù)
* 準(zhǔn)備數(shù)據(jù): 注意數(shù)據(jù)的格式
* 分析數(shù)據(jù): 為了確保數(shù)據(jù)集中沒(méi)有垃圾數(shù)據(jù); 如果是算法可以處理的數(shù)據(jù)格式或可信任的數(shù)據(jù)源,則可以跳過(guò)該步驟; 另外該步驟需要人工干預(yù),會(huì)降低自動(dòng)化系統(tǒng)的價(jià)值。
* 訓(xùn)練算法: [機(jī)器學(xué)習(xí)算法核心]如果使用無(wú)監(jiān)督學(xué)習(xí)算法,由于不存在目標(biāo)變量值,則可以跳過(guò)該步驟
* 測(cè)試算法: [機(jī)器學(xué)習(xí)算法核心]評(píng)估算法效果
* 使用算法: 將機(jī)器學(xué)習(xí)算法轉(zhuǎn)為應(yīng)用程序
Python語(yǔ)言 優(yōu)勢(shì)
可執(zhí)行偽代碼
Python比較流行:使用廣泛、代碼范例多、豐富模塊庫(kù),開(kāi)發(fā)周期短
Python語(yǔ)言的特色:清晰簡(jiǎn)練、易于理解
Python語(yǔ)言的缺點(diǎn):唯一不足的是性能問(wèn)題
Python相關(guān)的庫(kù)
科學(xué)函數(shù)庫(kù):SciPy、NumPy(底層語(yǔ)言:C和Fortran)
繪圖工具庫(kù):Matplotlib
來(lái)源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
人物專(zhuān)訪more >
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車(chē)
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新