數(shù)據(jù)驅(qū)動方法 淺談大數(shù)據(jù)和人工智能
簡書 | 2017-09-13 14:51
【數(shù)據(jù)猿導(dǎo)讀】 數(shù)據(jù)驅(qū)動方法在20世紀(jì)70年代得以起步,在八九十年代得到緩慢穩(wěn)定的發(fā)展。進(jìn)入21世紀(jì)之后,由于互聯(lián)網(wǎng)的出現(xiàn),使得可用的數(shù)據(jù)量劇增,數(shù)據(jù)驅(qū)動方法的人工智能優(yōu)勢越來越明顯,當(dāng)前正在從量變到質(zhì)變的飛躍中。

自去年AlphaGo戰(zhàn)勝李世石以來,AI的熱度一致居高不下,將近期了解知識簡單梳理,供大家學(xué)習(xí)和討論。
什么是大數(shù)據(jù) 大數(shù)據(jù)時代,數(shù)據(jù)不再僅僅指數(shù)字或數(shù)字構(gòu)成的,數(shù)據(jù)的范疇要大的多。包括:互聯(lián)網(wǎng)上的任何內(nèi)容,比如文字、圖片以及視頻;書籍中的文字內(nèi)容;醫(yī)院里包括醫(yī)學(xué)影像在內(nèi)的所有醫(yī)學(xué)檔案資料;公司里的設(shè)計圖紙、設(shè)計文檔等;科學(xué)研究中的各種觀測數(shù)據(jù)以及歷史研究成果;甚至我們?nèi)祟惢顒颖旧?,也可被看成一種特殊的數(shù)據(jù),比如我們在微信朋友圈等社交網(wǎng)絡(luò)的行為,瀏覽網(wǎng)絡(luò)的記錄,我們每天的出行軌跡、活動范圍等。從以上數(shù)據(jù)來源的紛繁復(fù)雜性,大數(shù)據(jù)的“大”的特征是不言而喻的,但大數(shù)據(jù)的特征不僅僅是體量大,還需要具備多維度以及完備性的特點,才足以刻畫出一個立體的事物。
什么是人工智能 學(xué)術(shù)界將人工智能分為傳統(tǒng)人工智能方法和現(xiàn)代人工智能方法。那么傳統(tǒng)人工智能方法是怎樣的呢 其實簡單地講,傳統(tǒng)人工智能的思路是,首先了解人類是如何產(chǎn)生智能的,然后讓機(jī)器按照人的思路去做。這是對人工智能直覺認(rèn)識,早期科學(xué)家也在這個方向上進(jìn)行了很長時間的研究,到20世紀(jì)60年代末實在發(fā)展不下去了。
20世紀(jì)70年代,人類開始嘗試機(jī)器智能的另外一條發(fā)展道路,即采用數(shù)據(jù)驅(qū)動和超級計算的方法。該方法首先被康內(nèi)爾大學(xué)的教授賈里尼克用于研究語音識別,在賈里尼克之前,各個大學(xué)和研究所得專家們在這個問題上已經(jīng)花了近20年的時間,主流的研究方法有兩個特點:一是讓計算機(jī)盡可能地模擬人的發(fā)音特點和聽覺特征,二是利用人工智能的方法理解人所講的完整語句。對于第一項研究,又被稱為特征提取,大家提取特征的方式不一,好壞也不一。對于第二項研究,大家都采用了傳統(tǒng)人工智能方法,基于語法規(guī)則和語義規(guī)則。但賈里尼克不是語言學(xué)專家,而是一位通信專家,在他看來,語音識別其實就是一個通信問題。
圖1 通信過程
典型的通信過程如圖1所示。對端是信息源,將所要表達(dá)的觀點組織成語言然后表達(dá)出來,實際上是信息編碼的過程。信息源發(fā)出的語音通過聲道、空氣等媒介傳播到本端,本端對所接收的信息進(jìn)行解讀,理解對端意思的過程就是信息解碼的過程。既然是通信問題,就采用解決通信問題的方法,為此賈里尼克用兩個數(shù)學(xué)模型分別表示信源和信道,找到數(shù)學(xué)模型后,下一步就是采用統(tǒng)計的方法用大數(shù)據(jù)訓(xùn)練模型的參數(shù),這就是“機(jī)器學(xué)習(xí)”的過程。在這個過程中,需要有大量的數(shù)據(jù)和足夠的計算能力。
圖2 數(shù)據(jù)使用的基本流程
數(shù)據(jù)使用的基本流程如圖2所示。首先獲取大量有效數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行分析,總結(jié)事物的某種規(guī)律,將該規(guī)律固化成模型也就是知識,后續(xù)遇到類似的問題,將其作為該系統(tǒng)的輸入,即可預(yù)測結(jié)果。如果在系統(tǒng)非常復(fù)雜的時候,我們無法直接獲得我們所需要的信息,我們可以將相關(guān)聯(lián)的信息量化,并且找到二者之間的相關(guān)關(guān)系,對這種相關(guān)關(guān)系建立數(shù)學(xué)模型,間接地得到我們所需的信息。也就是說,對于有確定關(guān)系的問題,我們可以通過分析得到固有的模型進(jìn)行描述。但是大千世界,并不是所有的事物都是有確定模型可描述的,對于這類不確定性問題,通過分析數(shù)據(jù)間的相關(guān)性,以數(shù)據(jù)驅(qū)動的方法進(jìn)行研究。詳細(xì)的分析見《大數(shù)據(jù)時代,我們應(yīng)該有怎樣的思維方式》一文。
數(shù)據(jù)驅(qū)動方法在20世紀(jì)70年代得以起步,在八九十年代得到緩慢穩(wěn)定的發(fā)展。進(jìn)入21世紀(jì)之后,由于互聯(lián)網(wǎng)的出現(xiàn),使得可用的數(shù)據(jù)量劇增,數(shù)據(jù)驅(qū)動方法的人工智能優(yōu)勢越來越明顯,當(dāng)前正在從量變到質(zhì)變的飛躍中。
來源:簡書
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新