小白學(xué)數(shù)據(jù):一文看懂機(jī)器學(xué)習(xí)
【數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)絕對(duì)是最熱門的詞匯之一。每一個(gè)人,無論是文科生還是理科生,各行各業(yè)的人士,都或多或少聽說過機(jī)器學(xué)習(xí)這個(gè)詞。簡(jiǎn)單的說,機(jī)器學(xué)習(xí)就是讓電腦程序像人類思維一樣解決問題

大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)絕對(duì)是最熱門的詞匯之一。每一個(gè)人,無論是文科生還是理科生,各行各業(yè)的人士,都或多或少聽說過機(jī)器學(xué)習(xí)這個(gè)詞。簡(jiǎn)單的說,機(jī)器學(xué)習(xí)就是讓電腦程序像人類思維一樣解決問題。小白還是會(huì)問:“好吧,但是機(jī)器學(xué)習(xí)到底是個(gè)啥?生活中哪里可以用到?”這是一個(gè)好問題!接下來我們就通過回答一系列問題來給小白解釋什么是機(jī)器學(xué)習(xí),每個(gè)人都可以看得懂。
幾個(gè)基本問題
小白問:所以機(jī)器學(xué)習(xí)是尖端科技嗎?
答:不是,但是它會(huì)用在尖端科技中。
小白問:那為什么很多人,比如我,都大不敢去嘗試進(jìn)入這個(gè)領(lǐng)域呢?
答:可能這個(gè)事兒聽起來有點(diǎn)不可思議吧。所以好多人誤以為這超出了自己理解和學(xué)習(xí)能力范圍。
小白問:那到底它有多復(fù)雜?
答:干過這個(gè)事兒的人就知道,它就是個(gè)孩子們的游戲。(這個(gè)說法有點(diǎn)夸張,但基本就是這個(gè)意思)。
小白問:那機(jī)器學(xué)習(xí)到底是個(gè)啥?
答:它是個(gè)試圖讓事情更智能的過程。我們大多數(shù)人都聽說類似“人工神經(jīng)網(wǎng)絡(luò)”這類的詞,就是試圖復(fù)制人類大腦工作過程的一種嘗試。即使是這樣的事情都不一定總是復(fù)雜的。說白了,它就是乘法和微分。就是你在學(xué)校里學(xué)的數(shù)學(xué),沒什么不同的
小白問:你說機(jī)器學(xué)習(xí)讓事情更智能,什么是智能?
答:智能就是理解事物背后的概念和模式??梢允抢斫馊说那榫w,弄清楚人類的語言在講什么(例如:漢語,英文,印度語),或者很酷地做些預(yù)測(cè)。
小白問:這可能是個(gè)傻問題,為什么叫機(jī)器學(xué)習(xí)?這名字對(duì)小白來說有些拗口啊。
答:沒有問題是傻問題!機(jī)器學(xué)習(xí)是由英文MachineLearning直接翻譯而來,這里的機(jī)器就是指的計(jì)算機(jī)。人腦之所以可以工作,是因?yàn)樗诓粩辔招畔⒉W(xué)習(xí)。機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)像人腦一樣,也學(xué)習(xí)它接收到的數(shù)據(jù)和信息。拿圖片分類這件事兒來說吧,我們?nèi)四X之所以知道這個(gè)圖片是蘋果,那個(gè)圖片是鴨梨,是通過看了足夠多的蘋果和鴨梨終于學(xué)會(huì)了正確分類。機(jī)器學(xué)習(xí)就是指我們寫一些電腦程序使得計(jì)算機(jī)可以自動(dòng)學(xué)習(xí),最終正確分類。
小白問:機(jī)器學(xué)習(xí)最主要的好處是什么?它為什么這么重要?
答:機(jī)器學(xué)習(xí)可以模擬人腦學(xué)習(xí)。對(duì)于學(xué)習(xí)的過程顯然人腦學(xué)習(xí)容易得多,一個(gè)小孩都可以分清蘋果和鴨梨。機(jī)器學(xué)習(xí)則需要花時(shí)間寫代碼,而且需要提前學(xué)習(xí)大量已知數(shù)據(jù)(比如,要給你的計(jì)算機(jī)看很多很多的蘋果和鴨梨)才能正確作出分類判斷。但是,一旦機(jī)器學(xué)習(xí)的過程完成,自動(dòng)化和大量應(yīng)用就很容易 – 一臺(tái)機(jī)器可以輕而易舉的對(duì)百萬張圖片進(jìn)行很快分類且不會(huì)勞累,人腦可是做不到。所以說,機(jī)器學(xué)習(xí)和大數(shù)據(jù)是完美搭檔!
小白問:那機(jī)器學(xué)習(xí)可以用來做什么?
答:基本上人類可以做什么,機(jī)器學(xué)習(xí)就可以做什么,甚至更多!比如:
1)你在某個(gè)電商網(wǎng)站上買東西,機(jī)器學(xué)習(xí)可以從千萬商品中找出你最想要,最相關(guān)的選項(xiàng)
2)視頻網(wǎng)站用機(jī)器學(xué)習(xí)來猜你今天的心情,然后給你推薦你現(xiàn)在最感興趣的電影。
3)谷歌可以從億萬搜索結(jié)果中找出最相關(guān)的網(wǎng)頁(yè)。
4)醫(yī)學(xué)領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí),在一個(gè)人健康的時(shí)候就預(yù)測(cè)出他是否會(huì)得某種病(比如癌癥)。是不是有點(diǎn)起雞皮疙瘩了?
5)我最喜歡的應(yīng)用是微軟的小娜(Cortana)和蘋果公司的Siri這樣可以理解語言的機(jī)器人。
6)所有的事情幾乎都可以用到機(jī)器學(xué)習(xí)!!^_^
深入聊聊
機(jī)器學(xué)習(xí)在netflix中的應(yīng)用(netflix是美國(guó)著名電影電視劇點(diǎn)播網(wǎng)站)
Netflix中的每一部電影都有一個(gè)標(biāo)簽,注明了這部電影的類型。比如著名的星球大戰(zhàn)系列電影的類型標(biāo)簽就是冒險(xiǎn)型。除了類型標(biāo)簽以外,這些電影還有一些別的標(biāo)簽,比如演員,導(dǎo)演,出產(chǎn)年份等等。
當(dāng)你在netflix上看電影的時(shí)候,系統(tǒng)會(huì)根據(jù)你的行為自動(dòng)地記錄一些其他信息。比如你有沒有看完這部電影,沒有的話看了多少分鐘或者你中間暫停了多少次等等。有了這些信息以后,系統(tǒng)就可以開始找出你行為中的一些規(guī)律,然后就可以給你推薦下一部你可能想看的電影。
比如下面是個(gè)篩選電影的流程:
你喜歡動(dòng)作片 -> 在所有電影里面,有100部電影可以選擇
你喜歡周潤(rùn)發(fā) –> 還剩50部電影
你不喜歡時(shí)間長(zhǎng)的電影 –> 只剩10個(gè)選擇了
現(xiàn)在我們就可以把這10部電影推薦給你,但是系統(tǒng)可以做的遠(yuǎn)遠(yuǎn)不止這些。
你通常在晚上6-10點(diǎn)之間看電影->選擇這個(gè)時(shí)間為你推送影片信息
你通常在睡前看恐怖電影->在晚上10點(diǎn)左右優(yōu)先推薦恐怖片
機(jī)器學(xué)習(xí)在谷歌語言分析中的應(yīng)用
機(jī)器學(xué)習(xí)在谷歌應(yīng)該說無處不在:包括在輸入搜索問題的時(shí)候得到的自動(dòng)提示,還有最后得到的搜索結(jié)果通通用的是機(jī)器學(xué)習(xí)。更確切的說,用的是自然語言處理也叫NLP。所謂的自然語言就是人類互相交流實(shí)用的語言,比如中文和英語。機(jī)器通過自然語言處理可以把這些自然語言中的每一個(gè)詞都轉(zhuǎn)化成向量。你可以把這些向量想成一個(gè)長(zhǎng)度為N,高度為1的矩陣(排成長(zhǎng)方形的一堆數(shù)),通常N的大小取決于所分析語言的復(fù)雜程度,也就是說這個(gè)語言中設(shè)定的規(guī)則的數(shù)目。比如說我們可以推斷英語中大概有300-400個(gè)這些規(guī)則。那么,這個(gè)向量長(zhǎng)度就為300-400。在這矩陣中,每一個(gè)規(guī)則都有一個(gè)矩陣中對(duì)應(yīng)的數(shù)值。
小白問:那有這么多個(gè)規(guī)則,怎么給他們加上數(shù)值呢?
答:我也不知道的說
小白問:啥都不知道為什么還這么激動(dòng)?
答:這就是機(jī)器學(xué)習(xí)的神奇所在!這個(gè)計(jì)算數(shù)值的過程中不需要人的插手,自動(dòng)就可以得到數(shù)值。而且這些向量中的數(shù)值是有確切含義的。
比如下面有這三句話:
1.梅西射門得分了
2.羅納爾多點(diǎn)球沒進(jìn)
3.小剛希望自己的工資多點(diǎn)
傳統(tǒng)的學(xué)習(xí)方法會(huì)認(rèn)為,第二句和第三句話中都有“多點(diǎn)”這部分,別的好像沒有什么字是重合的了。所以結(jié)論是:那第二句和第三句肯定有相同之處吧?
但是任何正常的人類大腦都知道其實(shí)第一句和第二句才是同一個(gè)主題,都是討論足球,所以更有可能同時(shí)出現(xiàn)。機(jī)器學(xué)習(xí)中的向量也明白這個(gè)道理J。經(jīng)過機(jī)器學(xué)習(xí)后,“羅納爾多”的向量和“梅西”的向量更為接近。當(dāng)我們可以比較向量的相似程度的時(shí)候,最后得到的結(jié)果就和我們大腦得到的結(jié)果更加接近。是不是很神奇呀?
小白問:所以你的意思是矩陣中的數(shù)值可以幫助我們理解一句話到底是講的啥了?
答:你真聰明!現(xiàn)在你還覺得機(jī)器學(xué)習(xí)難懂嗎?^_^
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新