從“百度醫(yī)療競(jìng)價(jià)”說(shuō)起,大數(shù)據(jù)需要科學(xué)和正直的品格
傅一平 | 2016-05-03 19:22
【數(shù)據(jù)猿導(dǎo)讀】 經(jīng)過(guò)百度賣白血病友吧風(fēng)波之后,近幾天,一位大學(xué)生的離世再度把百度推上了輿論的風(fēng)口浪尖,百度的而醫(yī)療競(jìng)價(jià)引起了國(guó)人的強(qiáng)烈不滿。大數(shù)據(jù)是新出現(xiàn)的事物,作為一門深刻洞察社會(huì)規(guī)律的新工具和手段,本身無(wú)所謂對(duì)與錯(cuò),好與壞,其實(shí)全賴于使用者。在這個(gè)大數(shù)據(jù)普及和大發(fā)展的新時(shí)代,筆...

最近幾天,一篇“一個(gè)死在百度和部門醫(yī)院之手的年輕人”的新聞刷爆網(wǎng)絡(luò),又一次將百度的醫(yī)療競(jìng)價(jià)排名推到了風(fēng)口浪尖。
大數(shù)據(jù)是新出現(xiàn)的事物,作為一門深刻洞察社會(huì)規(guī)律的新工具和手段,本身無(wú)所謂對(duì)與錯(cuò),好與壞,其實(shí)全賴于使用者。在這個(gè)大數(shù)據(jù)普及和大發(fā)展的新時(shí)代,筆者認(rèn)為我們不僅需要關(guān)注大數(shù)據(jù)技術(shù)和商業(yè),更應(yīng)該讓大數(shù)據(jù)擁有正直的品格,同時(shí)以科學(xué)的態(tài)度去處理它,大數(shù)據(jù)作為人類發(fā)展的一個(gè)趨勢(shì),我們已經(jīng)不能僅停留在以前玩和看的心態(tài)上去對(duì)待它,因?yàn)樗趲?lái)規(guī)模價(jià)值的同時(shí),也具有了很大的消極或負(fù)面作用,玩的心態(tài)已經(jīng)不可取。
這里,筆者談四點(diǎn)看法:
一、大數(shù)據(jù)造成了新的互聯(lián)網(wǎng)特權(quán)
互聯(lián)網(wǎng)解決了基本連接的問(wèn)題,它讓人與人之間的溝通變得毫無(wú)障礙,這個(gè)世界也變得越來(lái)越扁平,我們現(xiàn)在可以輕易的接觸到大量的信息,信息不對(duì)稱的影響越來(lái)越小,比如,我們已經(jīng)很容易從網(wǎng)上獲得足夠的信息,來(lái)駁斥一些所謂的偽專家。
但當(dāng)前獲取的自由信息,僅僅是表面層次的,它并不是人類的終極目標(biāo),事實(shí)上,信息如何分析產(chǎn)生的過(guò)程我們并不清楚,大數(shù)據(jù)時(shí)代到來(lái)后,大量的信息基于大數(shù)據(jù)分析而來(lái),未來(lái)我們實(shí)際是依賴于大數(shù)據(jù)分析創(chuàng)造的新的互聯(lián)網(wǎng)世界而存活,大數(shù)據(jù)想讓你看到怎樣的世界,你就只能看到怎樣的世界,特別在數(shù)據(jù)“寡頭”出現(xiàn)后,比如在搜索的時(shí)候,搜素引擎想讓你看什么就只能看什么,電商網(wǎng)站想讓你買什么就會(huì)給你看什么,真實(shí)的情況如何,只有數(shù)據(jù)運(yùn)營(yíng)者才真正知道,這是比較可怕的,前面的案例一定程度已經(jīng)說(shuō)明,事實(shí)上,你沒(méi)有選擇,在互聯(lián)網(wǎng)時(shí)代,我們好不容易有了更多選擇的機(jī)會(huì),但一旦出現(xiàn)大數(shù)據(jù)壟斷,未來(lái)它卻可能讓你只有1個(gè)選項(xiàng),這是新的知識(shí)壟斷。
工業(yè)時(shí)代產(chǎn)生了企業(yè)寡頭,它侵占了大量的資源,肆意操作市場(chǎng),大數(shù)據(jù)時(shí)代,是否會(huì)產(chǎn)生大數(shù)據(jù)寡頭?黑客帝國(guó)大家都看過(guò),這種更深層次的知識(shí)壟斷何嘗不是一種表現(xiàn)形式。
二、大數(shù)據(jù)還原世界的過(guò)程不太透明
“ 男人比女人孝順”這類所謂大數(shù)據(jù)分析的結(jié)論,筆者找遍了網(wǎng)絡(luò),沒(méi)有機(jī)構(gòu)可以監(jiān)管,沒(méi)有任何關(guān)于其分析過(guò)程的說(shuō)明,包括從哪個(gè)具體數(shù)據(jù)源,具體是哪些關(guān)鍵字,每個(gè)關(guān)鍵字的數(shù)據(jù)量是多少?是否取得足夠隨機(jī)?所用的算法或規(guī)則是什么?是否被認(rèn)為剔除或加工過(guò)?當(dāng)前大數(shù)據(jù)的信息發(fā)布游離在任何體系外,沒(méi)法去證明分析的過(guò)程是科學(xué)的還是錯(cuò)誤的,沒(méi)人為這個(gè)信息的準(zhǔn)確性進(jìn)行負(fù)責(zé)或解釋,但如果的確是錯(cuò)誤的結(jié)論,其影響的惡劣程度,有時(shí)卻并不比虛假?gòu)V告輕。
這種信息不透明,缺乏監(jiān)管的行為,特別容易被一些無(wú)知媒體或無(wú)良企業(yè)用來(lái)獲取噱頭或博取眼球。
前段時(shí)間今日頭條和艾瑞咨詢關(guān)于統(tǒng)計(jì)數(shù)據(jù)的爭(zhēng)執(zhí)一定程度說(shuō)明了這一點(diǎn),要不是今日頭條創(chuàng)始人兼CEO張一鳴炮轟艾瑞數(shù)據(jù)提供的報(bào)告內(nèi)容失實(shí),有誰(shuí)會(huì)質(zhì)疑這個(gè)數(shù)據(jù)而為自己維權(quán),那對(duì)于廣大網(wǎng)民,對(duì)于一條誤導(dǎo)的大數(shù)據(jù)分析結(jié)論,誰(shuí)該為其負(fù)責(zé)?
三、大數(shù)據(jù)的使用有時(shí)缺乏基本的科學(xué)方法
在大數(shù)據(jù)時(shí)代,傳統(tǒng)的統(tǒng)計(jì)學(xué)和概率論沒(méi)有因?yàn)榇髷?shù)據(jù)的大而失去意義,雖然,基于大數(shù)據(jù)的全面性可以一定程度上減少對(duì)于樣本統(tǒng)計(jì)的依賴,但從實(shí)踐的角度看,所謂大數(shù)據(jù)全面性在一定程度上是假命題,統(tǒng)計(jì)學(xué)作為一門數(shù)據(jù)科學(xué),其理論在新的大數(shù)據(jù)時(shí)代將發(fā)揮出更大的作用。我們使用大數(shù)據(jù),正確的方法始終是第一位,數(shù)據(jù)才是第二位,用錯(cuò)了方法再多的數(shù)據(jù)也沒(méi)有價(jià)值,當(dāng)下,一個(gè)企業(yè)要用好大數(shù)據(jù),首先要有科學(xué)的思想,這樣你的數(shù)據(jù)運(yùn)營(yíng)才有價(jià)值,這是不會(huì)變的。
再來(lái)談?wù)?ldquo;男人比女人孝順”這個(gè)話題,起碼它犯了三個(gè)錯(cuò)誤:
1、問(wèn)題與結(jié)論不一致
按照過(guò)程的描述和百度的數(shù)據(jù),媒體其實(shí)能夠給出的回答僅僅是“30多歲的男人比女人在春節(jié)期間表現(xiàn)得更孝順”,無(wú)法推斷出“男人比女人更孝順”這個(gè)規(guī)律,將一些所謂數(shù)據(jù)分析的結(jié)論隨便擴(kuò)大是數(shù)據(jù)分析中常犯的毛病,比如30多歲的男人能代表全體男人?20歲的大學(xué)生調(diào)研一下是否就不是這個(gè)結(jié)論?
2、缺乏統(tǒng)計(jì)學(xué)的常識(shí)
違背了統(tǒng)計(jì)學(xué)中最基本的原則,比對(duì)的樣本的選擇要隨機(jī),不能有傾向性,也就是樣本要公平,大家都知道,當(dāng)前實(shí)際上由于中國(guó)的傳統(tǒng)等因素,男人和女人在過(guò)年回家上的很多行為并非隨機(jī),很多行為體現(xiàn)的并非“真心”,甚至是“假”的數(shù)據(jù),我們期望基于假數(shù)據(jù)得出真心的結(jié)論,這是可笑的事情,但在數(shù)據(jù)領(lǐng)域,太多的案例體現(xiàn)了這種“假數(shù)據(jù),真分析”的行為,比如移動(dòng)公司通過(guò)促銷給你贈(zèng)送了10G流量,被贈(zèng)送流量的用戶與真實(shí)自己訂購(gòu)10G用戶性質(zhì)是完全不同的,一個(gè)是被動(dòng),一個(gè)是主動(dòng),特別是后續(xù)你還想通過(guò)訂購(gòu)10G流量的用戶去預(yù)測(cè)未來(lái)的潛在用戶,那被你贈(zèng)送流量的用戶就是假數(shù)據(jù),如果你還堅(jiān)持用這些數(shù)據(jù)去做預(yù)測(cè),就是“假數(shù)據(jù),真分析”。
3、缺乏客觀的業(yè)務(wù)解讀
任何數(shù)據(jù)分析的結(jié)果,都需要懂業(yè)務(wù)的人去解答其體現(xiàn)的規(guī)律和價(jià)值,我不知道關(guān)于孝順的分析數(shù)據(jù)結(jié)果出來(lái)后,是誰(shuí)負(fù)責(zé)去解答業(yè)務(wù)上的含義,起碼,當(dāng)前的解讀帶有較大的功利主義色彩,這不是客觀的分析師應(yīng)該擁有的品格,有常識(shí)的人都知道這個(gè)結(jié)論會(huì)很片面,解讀的人會(huì)不知道嗎?
下面給出一個(gè)對(duì)比的案例,數(shù)據(jù)是門嚴(yán)謹(jǐn)?shù)目茖W(xué),大數(shù)據(jù)不是不講任何規(guī)矩的亂說(shuō):
在政府有關(guān)部門大力支持與北京美蘭德信息集團(tuán)公司(原國(guó)家統(tǒng)計(jì)局信息中心)實(shí)施入戶訪談的積極配合下,北京大學(xué)老齡健康與家庭研究中心/中國(guó)經(jīng)濟(jì)研究中心對(duì)全國(guó)22省、市隨機(jī)抽取的一半縣(市)合計(jì)近6萬(wàn)老年人/次,分別在1998、2000、2002、2005年進(jìn)行了“中國(guó)老年健康長(zhǎng)壽影響因素跟蹤調(diào)查研究”。其中一項(xiàng)研究對(duì)“養(yǎng)育女兒在晚年所得回報(bào)是否比兒子差?”的問(wèn)題給出了以下幾方面的科學(xué)答案。
一、農(nóng)村與城鎮(zhèn)老人(包括高齡與中低齡老人)的成年女兒的孝敬父母觀念指數(shù)平均比成年兒子分別高出35%與18%。80歲以上高齡老人與65-79歲中低齡老人的成年女兒的孝敬父母觀念指數(shù)比成年兒子分別高出29%與18%。其中孝敬父母觀念指數(shù)是根據(jù)4364位老人中每人隨機(jī)抽取一位35歲以上成年子女,共4364位成年子女對(duì)9個(gè)關(guān)于成年子女是否應(yīng)該及如何對(duì)老年父母盡子女孝敬之責(zé)陳述的評(píng)估得分而構(gòu)建的綜合指數(shù)(最高分45分,最低分9分)。
二、成年女兒與老年父母的情感關(guān)系顯著優(yōu)于兒子,女優(yōu)于兒差異高達(dá)28-29%。
三、主要照料者為女兒/女婿的高齡與中低齡老年人對(duì)日常生活(包括生病時(shí))所獲照料的滿意度比主要照料者為兒子/兒媳的高齡與中低齡老年人分別高出45%與13%。
四、農(nóng)村與城鎮(zhèn)平時(shí)與女兒/女婿交談最多的老人三年后認(rèn)知能力顯著下降的風(fēng)險(xiǎn)分別比農(nóng)村與城鎮(zhèn)平時(shí)與兒子/兒媳交談最多的老人低33%與16%。
五、農(nóng)村與城鎮(zhèn)只有女兒的老人七年(1998-2005)觀測(cè)期內(nèi)死亡風(fēng)險(xiǎn)分別比只有兒子的老人低25%與10%;與只有兒子相比,只有女兒的老年父母死亡率較低的優(yōu)勢(shì)在高齡老人中(18%)比中低齡老人(6%)更為顯著。農(nóng)村與城鎮(zhèn)只有女兒的老人七年觀測(cè)期內(nèi)死亡風(fēng)險(xiǎn)分別比既有兒子又有女兒的老人低25%與13%。
以上五方面的調(diào)研分析結(jié)果都是在控制其他相關(guān)因素前提下運(yùn)用先進(jìn)的多元統(tǒng)計(jì)分析方法與大樣本數(shù)據(jù)得到的。通俗地講,以上闡述的養(yǎng)育女兒與養(yǎng)育兒子在老年所得回報(bào)差異是指在年齡、性別、城鄉(xiāng)居住地類型、民族、受教育程度、婚姻狀況、現(xiàn)有子女?dāng)?shù)與子女鄰近程度、煙酒與鍛煉習(xí)慣等人口、社會(huì)、經(jīng)濟(jì)狀況基本相同的老人們之間的比較;成年女兒與兒子孝敬父母觀念及其與老年父母的情感差異也是指在年齡、城鄉(xiāng)居住地類型、民族、受教育程度、婚姻狀況等基本相同的成年女兒們與兒子們之間的比較,是經(jīng)過(guò)多元統(tǒng)計(jì)理論與模型嚴(yán)格檢驗(yàn)的科學(xué)結(jié)果。
四、正直是持久運(yùn)營(yíng)大數(shù)據(jù)的前提
很多人都在談大數(shù)據(jù)的開(kāi)采挖掘極其巨大的商業(yè)前景,在道德層面更多的強(qiáng)調(diào)的可能是個(gè)人隱私的侵犯,但實(shí)際上,正直的品格也許更為重要,在一個(gè)正直的人手里,個(gè)人隱私數(shù)據(jù)可以得到有效的保護(hù),即使他擁有你的數(shù)據(jù),也不會(huì)作惡,所謂“舉頭三尺有神明”,但正直的品格對(duì)于大數(shù)據(jù)的意義還遠(yuǎn)遠(yuǎn)不限于此,有時(shí)候,不正直的大數(shù)據(jù)行為造成的傷害遠(yuǎn)大于隱私的侵犯,影響企業(yè)的基業(yè)長(zhǎng)青。
從百度的醫(yī)療貼吧事件到現(xiàn)在的搜索競(jìng)價(jià)排名,其反應(yīng)了很多的問(wèn)題,但這個(gè)問(wèn)題肯定不是技術(shù)問(wèn)題,大家先看看Google的搜索排名算法, 這是眾所周知的,搜索算法其實(shí)沒(méi)有什么更多的秘密:
(1) 對(duì)網(wǎng)頁(yè)質(zhì)量的度量:主要依賴于pagerank算法,即鏈接到該網(wǎng)頁(yè)的數(shù)量認(rèn)為是主要的質(zhì)量排名依據(jù)
(2) 網(wǎng)頁(yè)和搜索關(guān)鍵字的相關(guān)性:主要依賴于TF-IDF算法,也就是關(guān)鍵詞在文本中出現(xiàn)的詞頻及關(guān)鍵詞的逆文本頻率指數(shù),前面的詞頻好理解,但逆文本頻率指數(shù)其實(shí)是一個(gè)權(quán)重,通常的理解就是這個(gè)關(guān)鍵詞越通用,權(quán)重越小,關(guān)鍵詞越少見(jiàn),權(quán)重越大,因此,輸入關(guān)鍵詞組合,每個(gè)關(guān)鍵詞的搜索權(quán)重是不一樣的
(3) 網(wǎng)頁(yè)權(quán)威性算法:由于當(dāng)前很多查到的信息雖然多,但不權(quán)威,因此會(huì)通過(guò)網(wǎng)頁(yè)文本中的提及等專業(yè)關(guān)鍵詞來(lái)進(jìn)行主題網(wǎng)站的優(yōu)化搜索
這個(gè)算法相信大多數(shù)搜索引擎都會(huì)參考或使用,國(guó)內(nèi)的搜索企業(yè)也毫不例外,因此說(shuō)某搜索引擎的能力有差距導(dǎo)致搜索的問(wèn)題,這個(gè)其實(shí)是站不住腳的。
事實(shí)上,大數(shù)據(jù)由于其較高的門檻,造成了新的信息層面的不對(duì)稱,在缺乏足夠監(jiān)管的前提下,在相關(guān)法規(guī)有漏洞的情況下,任何從事大數(shù)據(jù)的企業(yè)或個(gè)人,更加應(yīng)該自律,秉承正直的品格?,F(xiàn)在大數(shù)據(jù)的很多問(wèn)題暴露的其實(shí)是商業(yè)利益和道德的博弈問(wèn)題,在一切向錢看的市場(chǎng)下,給出用戶需要的搜索結(jié)果和搜素引擎希望給你的搜索結(jié)果之間,往往會(huì)選擇前者,但正如我以前撰文所說(shuō)的,大數(shù)據(jù)要運(yùn)營(yíng)好,客戶為第一位,這是企業(yè)做百年老店的基礎(chǔ),但要運(yùn)營(yíng)好客戶是一件持久的事情,錢也來(lái)得遠(yuǎn)沒(méi)那么容易。
當(dāng)然,幾次事故可能不會(huì)對(duì)某些企業(yè)當(dāng)前帶來(lái)實(shí)質(zhì)性影響,但怒氣總是一點(diǎn)點(diǎn)積累起來(lái)的,該還的時(shí)候,總是要還的。
結(jié)語(yǔ)
因?yàn)樽罱诰W(wǎng)上接連看到跟大數(shù)據(jù)相關(guān)的問(wèn)題發(fā)生,筆者覺(jué)得在當(dāng)下,探討下如何以科學(xué)的精神使用大數(shù)據(jù)、如果用正直的品格去運(yùn)營(yíng)大數(shù)據(jù)、如何讓大數(shù)據(jù)分析過(guò)程變得更為透明,是件有意義的事情,當(dāng)然,我也沒(méi)法給出很好的解決方法,但起碼政府應(yīng)建立起碼的大數(shù)據(jù)監(jiān)管機(jī)制,同時(shí)借鑒下國(guó)外GOOGLE等的經(jīng)驗(yàn)做法,是有利于問(wèn)題的解決的。
作者介紹:
傅一平,浙江移動(dòng)大數(shù)據(jù)中心數(shù)據(jù)管理部經(jīng)理,中國(guó)移動(dòng)經(jīng)營(yíng)分析專家,中國(guó)信息通信大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟專家委員,浙江大學(xué)信電系博士,在大數(shù)據(jù)系統(tǒng)、大數(shù)據(jù)建模、大數(shù)據(jù)營(yíng)銷、大數(shù)據(jù)行業(yè)研究、運(yùn)營(yíng)商大數(shù)據(jù)挖掘及商業(yè)變現(xiàn)上具有豐富的經(jīng)驗(yàn),也是中國(guó)統(tǒng)計(jì)網(wǎng)等雜志與媒體的專欄作家。
注:傅一平是數(shù)據(jù)猿特約專欄專家
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書(shū)》重