谷歌 Ngrams :大數(shù)據(jù)如何創(chuàng)造錯覺?
【數(shù)據(jù)猿導(dǎo)讀】 現(xiàn)實(shí)存在這樣一個問題:在驚人數(shù)量的數(shù)據(jù)的支持下,基于大數(shù)據(jù)的研究是不可能出錯的。然而,數(shù)據(jù)的海量特征會給結(jié)果灌注一種錯誤的確定感。許多結(jié)果都是不真實(shí)的——而其原因會讓我們重新思考那些盲目信任大數(shù)據(jù)的研究

如果我說美國人現(xiàn)在開始越來越以自我為中心了,你也許會想這個老家伙肯定又要嘟囔些“過去才是好日子”之類的。
但是,如果我說我有著對1500億個文本詞語的分析來支持這個結(jié)論呢?
在幾十年前,這樣規(guī)模的論據(jù)簡直是天方夜譚。而在今天,1500億個數(shù)據(jù)已經(jīng)過時了。大數(shù)據(jù)分析的熱潮已經(jīng)卷過了生物學(xué)、語義學(xué)、金融學(xué)以及其相間的各種領(lǐng)域。
盡管沒有人能夠在如何定義“大數(shù)據(jù)”上取得一致,但大致概念是找到足夠大的數(shù)據(jù)庫,這樣就可以發(fā)現(xiàn)傳統(tǒng)調(diào)查中無法發(fā)現(xiàn)的規(guī)律。這些數(shù)據(jù)來源于數(shù)百萬個現(xiàn)實(shí)用戶的行為,例如,發(fā)推特或信用卡消費(fèi),并且這些行為需要上千臺計(jì)算機(jī)來收集、存儲與分析。
而對于許多計(jì)算機(jī)研究者來說,這個投資是值得的,因?yàn)閿?shù)據(jù)中的規(guī)律可以解鎖從基因序列到明日股票價格的一切信息。
但是有一個問題:我們不禁認(rèn)為在如此驚人數(shù)量的數(shù)據(jù)的支持下,基于大數(shù)據(jù)的研究是不可能出錯的。然而,數(shù)據(jù)的海量特征會給結(jié)果灌注一種錯誤的確定感。許多結(jié)果都是不真實(shí)的——而其原因會讓我們重新思考那些盲目信任大數(shù)據(jù)的研究。
在語言和文化中,大數(shù)據(jù)在 2011 年隆重出場,那時谷歌發(fā)布了它的 Ngrams 工具。
谷歌在《Science》雜志中發(fā)表的文章大張旗鼓地宣布,Ngrams 可以讓用戶在谷歌掃描書籍?dāng)?shù)據(jù)庫中尋找特定短語——這個數(shù)據(jù)庫囊括了幾乎 4%出版過的書籍!——并獲知這些短語的頻率如何隨著時間而變化。
這篇論文的作者預(yù)言了“文化經(jīng)濟(jì)學(xué)”的降臨,一個基于大量數(shù)據(jù)的對文化的研究。并且自此以后,谷歌Ngrams變成了一個幾乎無限的娛樂來源——但也是語義學(xué)、心理學(xué)和社會學(xué)的一座金礦。
例如,他們搜羅了數(shù)百萬書籍去展示,是的,美國正在變得愈來愈個人主義,我們正在“每一年都在加速忘記我們的過去”,道德理想正在從我們的文化意識中消失。
我們正在失去希望:網(wǎng)絡(luò)漫畫《xkcd》的作者 Randal Munroe 所創(chuàng)造的許多有趣的小漫畫之一是一個關(guān)于希望的 Ngrams 表格。
如果Ngrams 真的反射出了我們的文化,我們也許正在前往一個黑暗的未來。
問題開始于 Ngrams 語料庫建立的方式。
在去年十月發(fā)表的一篇研究中,三位來自佛蒙特大學(xué)(University of
Vermont,UVM)的研究者指出,總體來說,Google Books 收納了每
一本書的復(fù)印版。這與它的最初目標(biāo)完美相符:讓這些書本的內(nèi)容完全呈現(xiàn)于谷歌強(qiáng)大的檢索技術(shù)中。盡管從社會學(xué)研究的角度來說,它讓語料庫有了危險的歪曲。
舉個例子,一些書籍淪落到了低于它們真正文化重量的境地:《指環(huán)王》的影響力還沒有《巴伐利亞的巫術(shù)迫害》多。
而相反的,一些作家則開始變得十分凸顯。從英文小說的數(shù)據(jù)來看,你可以總結(jié)出在上世紀(jì)初期的20年里,每個角色的兄弟都叫做
Lanny。實(shí)際上這個數(shù)據(jù)甚至反映了一位(并不一定是受歡迎的)作家 Upton Sinclair 有多么多產(chǎn):他寫出了11部有著同一個“LannyBudd”的小說。
到底誰是 Lanny ?:“Lanny”與其他英文小說中常見名字相對比的谷歌 Ngrams 圖標(biāo)
更加糟糕的是 ,Ngrams 并不是已出版書籍的一種連續(xù)的、平衡的縮影。同一份 UVM的研究證明,在許多發(fā)生的創(chuàng)作變化之中,值得注意的是開始于上世紀(jì)60年代的科幻小說的增多。所有這些都讓我們很難相信谷歌的 Ngrams能夠準(zhǔn)確地反映出文字文化主流隨著時間的變化。
FIGURE圖表:主要用于標(biāo)題的大寫字母F開頭的“Figure”使用頻率在20世紀(jì)大幅上升,意味著語料庫中科技文章開始增加。這也許解釋了一些關(guān)于社會的問題,但是并沒有更多解釋大多數(shù)社會是如何用這些詞語的。
即使通過了數(shù)據(jù)來源的檢驗(yàn),在理解這一關(guān)依然存在尖銳的問題。的確,像“性格“和”尊嚴(yán)“這樣的用詞在過去幾十年的使用也許下降了。但是這意味著人們對于道德的關(guān)注就減少了嗎?伊利諾伊斯大學(xué)香檳分校的英文學(xué)教授 Ted Underwood 警告說,不要這么快下定義。他指出,我們現(xiàn)在關(guān)于道德的理解也許與在19、20世紀(jì)之交時的概念有著巨大出入,并且“尊嚴(yán)”也許因?yàn)榉堑赖碌脑蜃兊弥饾u普及化。因此任何我們從將眼下的關(guān)聯(lián)投射到過去所總結(jié)的結(jié)論都是可疑的。
當(dāng)然了,這些對于統(tǒng)計(jì)學(xué)和語義學(xué)來說都不是新鮮事。數(shù)據(jù)與表征是他們的面包與黃油。而谷歌 Ngrams不同的是,它有著讓純粹的數(shù)據(jù)遮蔽了我們的雙眼并導(dǎo)致人們誤入歧途的危險。這種傾向不僅僅出現(xiàn)在對于 Ngrams 的研究中。相似的錯誤也損害著各種大數(shù)據(jù)項(xiàng)目。
例如,谷歌的 Google Flu Trends(GFT)項(xiàng)目。誕生于2008 年的 GFT項(xiàng)目會計(jì)算數(shù)百萬的谷歌檢索中“發(fā)燒”與“咳嗽”等詞語出現(xiàn)的數(shù)量,利用它們?nèi)?ldquo;預(yù)測”多少人得了流感。有了這些估測,公眾健康機(jī)構(gòu)就能夠在疾疫控制中心從醫(yī)生報告中得出真正數(shù)量的兩周前就采取行動。當(dāng)大數(shù)據(jù)不再被看成一個萬金油的時候,它才會真正有顛覆性。
最初,GFT 宣稱自己有 97% 的準(zhǔn)確度。但是根據(jù)西北大學(xué)文檔的研究,這種準(zhǔn)確度僅僅是一個僥幸。首先,GFT 完全忽視了 2009年春天和夏天“豬流感”的蔓延(最后證實(shí) GFT 大部分預(yù)測的是冬天)。接著,系統(tǒng)開始去過度預(yù)測流感。實(shí)際上,它在 2013年的峰值預(yù)測是真實(shí)的140%。最終,谷歌直接停了整個項(xiàng)目。
那么,到底是哪里錯了呢?
有了Ngrams,人們會不再仔細(xì)考慮他們手中數(shù)據(jù)的來源和詮釋。
谷歌檢索中的數(shù)據(jù)資源并不是一個靜止的野獸。當(dāng)谷歌開始自動補(bǔ)充檢索內(nèi)容時,用戶們開始習(xí)慣于接受提供的關(guān)鍵詞,扭曲
GFT 所看到的搜索。在理解方面,GFT 的工程師在最開始讓 GFT 采用面值數(shù)據(jù);幾乎每一個檢索術(shù)語都被當(dāng)成潛在的流感指示。有了數(shù)百萬個檢索術(shù)語后,GFT
毫無疑問的開始過度詮釋一些季節(jié)性的詞語,例如把“雪”來當(dāng)做流感的證據(jù)。
但是,當(dāng)大數(shù)據(jù)不再被看做是萬金油時,它才真正具有了顛覆性。哥倫比亞大學(xué)的研究者 Jeffrey Shaman 和其他許多團(tuán)隊(duì)在流感預(yù)測上利用 CDC去補(bǔ)償 GFT 的誤差,其結(jié)果比 CDC 和 GFT 兩者都要好。根據(jù) CDC 來看,Shaman的團(tuán)隊(duì)測試了這個季節(jié)已經(jīng)出現(xiàn)的實(shí)際流感的模型。通過將過去的短時間情況納入到考慮當(dāng)中,Shaman和他的團(tuán)隊(duì)精確調(diào)整了他們的數(shù)學(xué)模型,去更好地預(yù)測未來。團(tuán)隊(duì)所需要的就是去嚴(yán)格地評估關(guān)于數(shù)據(jù)的假設(shè)。
為了不讓我自己聽起來像一個反谷歌斗士,我不得不再說下,谷歌絕對不是唯一的一個犯錯者。
我的妻子,一位經(jīng)濟(jì)學(xué)家,曾在一家統(tǒng)計(jì)整個互聯(lián)網(wǎng)的職位發(fā)布,并收集整合成為國家勞動部門的統(tǒng)計(jì)數(shù)據(jù)的公司工作。公司的經(jīng)理曾經(jīng)夸口他們分析了整個國家80%
的職位,數(shù)據(jù)的數(shù)量致使他們盲目走向了誤解的方向。
舉例來說,一家當(dāng)?shù)氐奈譅柆斠苍S會發(fā)布一個銷售助理職位,而它實(shí)際上想要招十個,或者它也許會讓這個發(fā)布一直在掛在那里幾周,直至人滿為止。
因此,相比于屈服在“大數(shù)據(jù)廢墟”下,我們最好在心里保持我們的質(zhì)疑——即使在有人提到海量文字支持的時候。
來源:nautilus
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重