大數(shù)據(jù)時(shí)代 數(shù)據(jù)科學(xué)中隱藏的“數(shù)據(jù)智慧”
【數(shù)據(jù)猿導(dǎo)讀】 “數(shù)據(jù)智慧“是數(shù)學(xué)、自然科學(xué)和人文主義這三方面能力的融合,是科學(xué)和藝術(shù)的結(jié)合。在缺乏有實(shí)踐經(jīng)驗(yàn)者的指導(dǎo)下,個(gè)人很難僅僅靠從讀書中獲得“數(shù)據(jù)智慧”, 想要學(xué)習(xí)它的最好方法就是和擁有它的人一起共事

在大數(shù)據(jù)時(shí)代,學(xué)術(shù)界和業(yè)界的大量研究都是關(guān)于如何以一種可擴(kuò)展和高效率的方式來對數(shù)據(jù)進(jìn)行儲存,交換和計(jì)算(通過統(tǒng)計(jì)方法和算法)。這些研究領(lǐng)域無疑非常重要,然而,只有當(dāng)我們對數(shù)據(jù)智慧(Data Wisdom)也給予同等程度的重視時(shí),大數(shù)據(jù)(或者小型數(shù)據(jù))才能被轉(zhuǎn)換為真正的知識和有用的,可被采納的信息。換而言之,我們要認(rèn)識到必須擁有足夠數(shù)量的數(shù)據(jù)才有可能對復(fù)雜度較高的問題給出較可靠的答案。“數(shù)據(jù)智慧”對于我們從數(shù)據(jù)中提取有效信息和確保沒有誤用或夸大原始數(shù)據(jù)是至關(guān)重要的。
“數(shù)據(jù)智慧”一詞是我對應(yīng)用統(tǒng)計(jì)學(xué)核心部分的重新定義。這些核心部分在偉大的統(tǒng)計(jì)學(xué)家(或者說是數(shù)據(jù)科學(xué)家)John W. Tukey 和 Geogre Box 的文章中有詳細(xì)闡述。
要讓統(tǒng)計(jì)圈以外的人了解,“數(shù)據(jù)智慧”是非常必要的重命名,因?yàn)樗?ldquo;應(yīng)用統(tǒng)計(jì)學(xué)”這個(gè)術(shù)語能更好概括其核心成分。 這樣一個(gè)有信息量的名稱可以使人們意識到應(yīng)用統(tǒng)計(jì)作為數(shù)據(jù)科學(xué)一部分的重要性。
引用維基百科中對“智慧“這一詞條解釋的第一句話,我想說:
“數(shù)據(jù)智慧“是將領(lǐng)域知識、數(shù)學(xué)和方法論與經(jīng)驗(yàn)、理解、常識、洞察力以及良好的判斷力相結(jié)合,思辨性地理解數(shù)據(jù)和依據(jù)數(shù)據(jù)做決策的一種能力。
“數(shù)據(jù)智慧“是數(shù)學(xué)、自然科學(xué)和人文主義這三方面能力的融合,是科學(xué)和藝術(shù)的結(jié)合。在缺乏有實(shí)踐經(jīng)驗(yàn)者的指導(dǎo)下,個(gè)人很難僅僅靠從讀書中獲得“數(shù)據(jù)智慧”, 想要學(xué)習(xí)它的最好方法就是和擁有它的人一起共事。當(dāng)然,我們也可以通過問答方式來幫助形成和培養(yǎng)“數(shù)據(jù)智慧”的能力。我這里有10個(gè)基本問題,我鼓勵(lì)人們在開始從事數(shù)據(jù)分析項(xiàng)目或者在其過程中可以經(jīng)常問問自己。這些問題剛開始時(shí)是按照一定順序排列的,但是在不斷重復(fù)的數(shù)據(jù)分析過程中,這個(gè)順序完全可以被打亂。
這些問題也許無法詳盡徹底的解釋“數(shù)據(jù)智慧”,但是它們體現(xiàn)了“數(shù)據(jù)智慧”的一些特點(diǎn):
1.要回答的問題
數(shù)據(jù)科學(xué)的問題最開始往往來自于統(tǒng)計(jì)學(xué)或者數(shù)據(jù)科學(xué)以外的學(xué)科。例如,神經(jīng)科學(xué)中的一個(gè)問題:大腦是如何工作的?或銀行業(yè)中的一個(gè)問題:該對哪組顧客推廣新服務(wù)?要解決這些問題,統(tǒng)計(jì)學(xué)家必須要與該領(lǐng)域的專家進(jìn)行合作。這些專家會提供有助于解決問題的領(lǐng)域知識,早期研究成果,更廣闊的視角,甚至可能是對該問題的重新定義。與這些(往往可能很忙)專家建立聯(lián)系需要很強(qiáng)的人際交流技巧。
而這種交流對于數(shù)據(jù)科學(xué)項(xiàng)目的成功是必不可少的。在有充足數(shù)據(jù)來源的情況下,經(jīng)常發(fā)生情況的是在數(shù)據(jù)收集前要回答的問題還沒有被精確定義。正如 Tukey 所說的那樣:“我們在 ‘探索性數(shù)據(jù)分析(Exploratory Data Analysis)’的游戲中。”我們尋找需要回答的問題,然后不斷重復(fù)統(tǒng)計(jì)調(diào)查過程(就像上文提到的 George Box 的文章中所述)。由于誤差的存在,我們謹(jǐn)慎的避免對于數(shù)據(jù)中出現(xiàn)的模式進(jìn)行過度擬合。例如,當(dāng)同一份數(shù)據(jù)既被用于問題的建模又被用于問題的驗(yàn)證時(shí),過度擬合就會發(fā)生。一條黃金準(zhǔn)則就是將數(shù)據(jù)分割,在分割時(shí)考慮到數(shù)據(jù)潛在的結(jié)構(gòu)(如相關(guān)性,聚類性,異質(zhì)性)使分割后的每部分?jǐn)?shù)據(jù)都對原始數(shù)據(jù)具有代表性。用其中一部分來探索問題,而另一部分用來通過預(yù)測或者建模來回答問題。
2.數(shù)據(jù)收集
什么樣的數(shù)據(jù)與(1)中要回答的問題最相關(guān)?
實(shí)驗(yàn)設(shè)計(jì)(統(tǒng)計(jì)學(xué)的一個(gè)分支)和主動學(xué)習(xí)(機(jī)器學(xué)習(xí)的一個(gè)分支)中的方法對解決這個(gè)問題有所幫助。即使是在數(shù)據(jù)已經(jīng)收集好了以后,考慮這個(gè)問題也是很有必要的。因?yàn)閷硐氲臄?shù)據(jù)收集機(jī)制的理解可以暴露出實(shí)際數(shù)據(jù)收集過程的缺陷,能夠指導(dǎo)下一步分析的方向。
下面的問題會有所幫助:
數(shù)據(jù)是如何收集的? 在哪些地點(diǎn)?在什么時(shí)間段?誰收集的?用什么設(shè)備收集的?中途操作人員和設(shè)備被更換過嗎?
總之,試著想象自己親身在數(shù)據(jù)收集現(xiàn)場。
3.數(shù)據(jù)含義
數(shù)據(jù)中的某個(gè)數(shù)值代表了什么含義?它測量了什么?它是否測量要測量的?哪些環(huán)節(jié)可能會出差錯(cuò)?在哪些統(tǒng)計(jì)假設(shè)下可以認(rèn)為數(shù)據(jù)收集沒有問題?(對數(shù)據(jù)收集過程的詳細(xì)了解在這會很有幫助。)
4.相關(guān)性
收集來的數(shù)據(jù)能完全或部分地回答要研究的問題嗎?如果不能,還需要收集什么其他數(shù)據(jù)?第2個(gè)問題中提到的要點(diǎn)在此處同樣受用。
5.問題轉(zhuǎn)化
如何將(1)中的問題轉(zhuǎn)化成一個(gè)數(shù)據(jù)相關(guān)的統(tǒng)計(jì)問題,使之能夠很好回答與原始問題呢?有多種轉(zhuǎn)換方式嗎?比如,我們可以把問題轉(zhuǎn)換成一個(gè)與統(tǒng)計(jì)模型有關(guān)的預(yù)測問題或者統(tǒng)計(jì)推斷問題嗎?在選擇模型前,列出將每一種能解決與實(shí)質(zhì)性問題的轉(zhuǎn)化方式的優(yōu)點(diǎn)和缺點(diǎn)。
6.可比性
各數(shù)據(jù)單元是否是可比的,或經(jīng)過標(biāo)準(zhǔn)化處理而可視為可交換的?蘋果和橘子是否被組合在一起了?數(shù)據(jù)單元是否相互獨(dú)立?兩列數(shù)據(jù)是不是同一個(gè)變量的副本?
7.可視化
觀察數(shù)據(jù)(或其子集),制作一維或二維圖表,并檢驗(yàn)這些的數(shù)據(jù)的統(tǒng)計(jì)量。詢問數(shù)據(jù)范圍是什么?數(shù)據(jù)正常嗎?是否有缺失值?多使用顏色和動態(tài)圖,注意有意料之外的情況記住,我們大腦皮層的30%都是用來處理圖像的,所以可視化在挖掘數(shù)據(jù)模式和特殊情況時(shí)非常有效。通常情況,為了找到大數(shù)據(jù)的模式,可視化在建立某些模型之后使用最有用,比如,計(jì)算殘差并進(jìn)行可視化展示。
8.隨機(jī)性
統(tǒng)計(jì)推斷的概念,比如p值和置信區(qū)間,都依賴于隨機(jī)性。那數(shù)據(jù)中的隨機(jī)性是什么含義呢?我們要對統(tǒng)計(jì)模型的隨機(jī)性盡量明確地定義。哪些所研究的領(lǐng)域中知識支持所用統(tǒng)計(jì)模型中的隨機(jī)性的描述?一個(gè)表現(xiàn)統(tǒng)計(jì)模型中隨機(jī)性的最好例子,就是因果關(guān)系分析中 Neyman-Rubin 的隨機(jī)分組原理(在AB檢驗(yàn)中也有使用)。
9.穩(wěn)定性
你會使用哪些現(xiàn)有的方法?不同的方法會得出同一個(gè)定性的結(jié)論嗎?對數(shù)據(jù)進(jìn)行隨機(jī)擾動,例如,可以通過添加噪聲或二次抽樣實(shí)現(xiàn)(一般來說,應(yīng)確定二層樣本有原樣本的結(jié)構(gòu),如相關(guān)性,聚類特性和異質(zhì)性,這樣二層樣本能較好地代表原始數(shù)據(jù))。結(jié)論依然成立嗎?我們應(yīng)該只相信那些能通過穩(wěn)定性檢驗(yàn)的方法,穩(wěn)定性檢驗(yàn)簡單易行,能夠抗過度擬合和過多假陽性發(fā)現(xiàn),具有可重復(fù)性(要了解關(guān)于穩(wěn)定性重要程度的更多信息,請參看文章)。
可重復(fù)性研究最近在科學(xué)界中吸引了很多注意,請參照《Nature》特刊?!禨cience》的主編 Marcia McNutt 指出“實(shí)驗(yàn)再現(xiàn)是科學(xué)家用以增加結(jié)論信度的一種重要方法”。同樣,商業(yè)和政府實(shí)體也應(yīng)該要求從數(shù)據(jù)分析中得出的結(jié)論,當(dāng)用新的同質(zhì)數(shù)據(jù)檢驗(yàn)時(shí)是可再重復(fù)的。
10.結(jié)果驗(yàn)證
人們怎樣能知道數(shù)據(jù)分析是不是做的好呢?衡量標(biāo)準(zhǔn)是什么?可以考慮用其他類型的數(shù)據(jù)或者先驗(yàn)知識來衡量有效性,不過可能需要收集新的數(shù)據(jù)以確認(rèn)結(jié)果的有效程度。
在數(shù)據(jù)分析時(shí)還有許多其他問題要考慮,但我希望上面的這些問題能使你對如何獲取“數(shù)據(jù)智慧”產(chǎn)生一點(diǎn)感覺。作為一個(gè)統(tǒng)計(jì)學(xué)家,這些問題的答案需要在統(tǒng)計(jì)學(xué)之外獲取。要找到可靠的答案,有效的信息源包括“死的”(如科學(xué)文獻(xiàn)、報(bào)告和書籍)和“活的”(如人)。出色的人際交流技能使得尋找正確信息源的過程簡單了許多,即使是在尋求“死的”信息源的過程中也是這樣。因此,為了獲取充足的信息,人際交流技能將更加重要,因?yàn)樵谖业慕?jīng)驗(yàn)中,知識淵博的人通常是你最好的指路。
來源:金融投資智庫
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重