臧雷振:政治學(xué)研究中的數(shù)據(jù) 不深刻的理解與困境消解
【數(shù)據(jù)猿導(dǎo)讀】 20世紀(jì)中后期以來,數(shù)據(jù)采集工具不斷豐富,從傳統(tǒng)的調(diào)查問卷到信件,從電話到互聯(lián)網(wǎng),從人工操作到計算機輔助,社會科學(xué)數(shù)據(jù)收集方式更加多元。除了數(shù)據(jù)采集工具的多樣化以外,數(shù)據(jù)抽樣的精度和準(zhǔn)確度也在不斷提高。

一、內(nèi)容提要:數(shù)據(jù)在政治學(xué)研究中的應(yīng)用日漸廣泛。本文通過比較當(dāng)前政治學(xué)研究中不同數(shù)據(jù)采集方式的優(yōu)劣,并剖析跨國數(shù)據(jù)采集及其標(biāo)準(zhǔn)化實踐的困境,指出政治學(xué)研究中數(shù)據(jù)分析面臨的危機;同時,分析了大數(shù)據(jù)時代所帶來的定量研究變革機遇,也對大數(shù)據(jù)背景中數(shù)據(jù)分析認知偏差進行客觀解讀;最后,通過對模型與理論、數(shù)據(jù)與模型關(guān)系的分析,闡述未來政治學(xué)學(xué)科發(fā)展的支撐點。本文目的不是要貶低數(shù)據(jù)的價值或放棄量化的方法,而是為推動學(xué)者未來進行更為可靠、更深思熟慮和更具創(chuàng)造性的政治學(xué)分析提出警醒,改善目前對數(shù)據(jù)或模型的盲目崇拜,消解數(shù)據(jù)和模型應(yīng)用中的認知偏差。
隨著信息技術(shù)的不斷發(fā)展,以及國家與不同組織機構(gòu)對數(shù)據(jù)采集的重視,政治學(xué)者在數(shù)據(jù)采集方面享有更多的便利,數(shù)據(jù)收集能力也逐漸提高。同時,國家和各類組織機構(gòu)的信息公開范圍逐步擴展,數(shù)據(jù)透明度日漸提升,使研究者可更容易地獲取各類數(shù)據(jù)。信息技術(shù)和計算機統(tǒng)計軟件的發(fā)展使得對海量數(shù)據(jù)分析更為便利,而大數(shù)據(jù)時代的來臨,讓今日政治學(xué)研究的數(shù)據(jù)運用更為流行。然而,喧囂背后總是隱藏著諸多值得深刻思考的內(nèi)在病理。比如,對于數(shù)據(jù)不深刻的理解帶來諸多誤解,對于純粹依靠計算機軟件的分析帶來諸多知識的懈怠,對于理論知識的割裂帶來數(shù)據(jù)分析價值的脆弱性。這類現(xiàn)象使得前美國賓州大學(xué)教授,現(xiàn)佩魯斯分析統(tǒng)計咨詢公司資深研究員菲利普·施羅特直言不諱地批評道:“當(dāng)前政治學(xué)定量分析中積累了一系列惡習(xí),使得政治研究變得越來越?jīng)]有意義,不同的惡習(xí)可以歸納為定量分析七宗罪。”
國外學(xué)者對定量研究中數(shù)據(jù)使用的詰難,也伴隨著國內(nèi)學(xué)者的反思,如學(xué)者通過對已發(fā)表的以定量分析方法為主的論文進行再驗證,來破解其研究中所存在的數(shù)據(jù)分析問題。這一點在定量分析和數(shù)據(jù)應(yīng)用較為頻繁的經(jīng)濟學(xué)、社會學(xué)領(lǐng)域已經(jīng)屢見不鮮。學(xué)者再驗證也發(fā)現(xiàn),已有研究中存在各類數(shù)據(jù)應(yīng)用的錯誤并導(dǎo)致不正確的解釋統(tǒng)計結(jié)果。
由于政治學(xué)中定量分析和數(shù)據(jù)應(yīng)用起步較晚,對這一領(lǐng)域的文獻再評估一直匱乏,本文基于筆者研究實踐,結(jié)合中國政治學(xué)發(fā)展現(xiàn)狀,嘗試初步探索政治學(xué)研究中數(shù)據(jù)采集方式及其所存在的問題,指出大數(shù)據(jù)時代數(shù)據(jù)運用與研究中存在的機遇以及諸多誤解,進而闡述數(shù)據(jù)與理論、數(shù)據(jù)與模型的關(guān)系。當(dāng)然,對這些問題的分析并不意味著要貶低數(shù)據(jù)的價值或放棄量化的方法,而是為學(xué)者未來進行更加可靠的、更深思熟慮的和更有創(chuàng)造性思想的研究提供理論警醒,以改善目前對數(shù)據(jù)的盲目崇拜。
二、數(shù)據(jù)采集的困境
20世紀(jì)中后期以來,數(shù)據(jù)采集工具不斷豐富,從傳統(tǒng)的調(diào)查問卷到信件,從電話到互聯(lián)網(wǎng),從人工操作到計算機輔助,社會科學(xué)數(shù)據(jù)收集方式更加多元。除了數(shù)據(jù)采集工具的多樣化以外,數(shù)據(jù)抽樣的精度和準(zhǔn)確度也在不斷提高。
盡管如此,對所采集數(shù)據(jù)的分析結(jié)果依然受抽樣誤差(樣本個體體現(xiàn)目標(biāo)總體的精度)以及覆蓋誤差(總體中的某一部分包括在樣本中的概率)、無回應(yīng)誤差(受訪者的回應(yīng)與研究目的無關(guān)或沒有回應(yīng))、測量誤差(通常是出于提問措辭不當(dāng),調(diào)查方式問題或受訪者特性導(dǎo)致得到錯誤的回答),還有數(shù)據(jù)整理誤差(編碼錯誤和數(shù)據(jù)錄入時產(chǎn)生的錯誤)等其他誤差的影響。在中國的政治學(xué)研究中,數(shù)據(jù)采集的困境主要體現(xiàn)在如下兩方面:一是不同數(shù)據(jù)采集方式的優(yōu)劣比較和新技術(shù)的適用性;二是跨國數(shù)據(jù)采集及其標(biāo)準(zhǔn)化。
回答第一個問題前,首先要回顧一下20世紀(jì)以來數(shù)據(jù)收集方式的發(fā)展。在早期,面對面的訪談是最主要的數(shù)據(jù)收集方式,隨著封閉社區(qū)數(shù)量的增加和人們對面對面訪談的冷淡,再加上成本過高,這種方法存在諸多的困難,因此信件和電話訪談逐步代替了面對面的訪談。當(dāng)前,伴隨計算機的發(fā)展,各種計算機輔助的自助或半自助數(shù)據(jù)采集、電子郵件、網(wǎng)絡(luò)數(shù)據(jù)收集也在急速發(fā)展,現(xiàn)在也并沒有一個被普遍接受且占主導(dǎo)地位的調(diào)查方法。已有大量研究也指出,任何單一的數(shù)據(jù)采集方法均會存在精度、準(zhǔn)確度、成本、效度等方面的不足,所以,過度糾結(jié)于不同調(diào)查方法的優(yōu)劣選擇,并不能改善數(shù)據(jù)采集結(jié)果的質(zhì)量。越來越多的研究傾向于通過不同數(shù)據(jù)采集方式的混合來實現(xiàn)效果最大化。研究表明,僅用網(wǎng)絡(luò)調(diào)查手段可能會削弱一些群體的代表性,但如果在信件調(diào)查之后,再進行網(wǎng)絡(luò)調(diào)查,則與那些僅通過信件的調(diào)查結(jié)果應(yīng)答率相差不多。④將現(xiàn)代信息技術(shù)發(fā)展帶來的新方法與傳統(tǒng)數(shù)據(jù)采集模式混合,將改善網(wǎng)絡(luò)調(diào)查的代表性。
此外,新技術(shù)的逐漸采用,使得人們把注意力主要集中到技術(shù)的更新?lián)Q代上,而對數(shù)據(jù)采集中新技術(shù)帶來的問卷設(shè)計視覺問題、措辭問題等過于忽略了。如學(xué)者謝弗和戴克馬指出,“不同調(diào)查需求差異與調(diào)查技術(shù)的發(fā)展,使得問卷設(shè)計變得更為復(fù)雜?,F(xiàn)今移動設(shè)備的數(shù)量不斷增長,取代了早先的臺式機與筆記本電腦等連接網(wǎng)絡(luò)的主要方式。然而,這并非切合人口統(tǒng)計學(xué)的步伐”。所以,針對中國政治學(xué)數(shù)據(jù)收集,存在兩個顯而易見的學(xué)術(shù)懈?。阂皇菃我桓袷降膯柧碓诩堎|(zhì)、電話、網(wǎng)絡(luò)等不同形式數(shù)據(jù)采集中重復(fù)運用;二是不同調(diào)研機構(gòu)或綜合調(diào)查機構(gòu),其問卷設(shè)置也大同小異,無法體現(xiàn)出不同調(diào)研機構(gòu)的偏好和調(diào)查目的性。所以,未來新的問卷設(shè)計方向應(yīng)當(dāng)基于不同的被調(diào)查群體、被調(diào)查設(shè)備、方式以及調(diào)查目的做出相應(yīng)改變,才能更好地改善數(shù)據(jù)采集工作。
第二個問題則是伴隨近年來中國國際地位和影響力的提升,以及國家外交戰(zhàn)略需求的背景,部分學(xué)者開始協(xié)調(diào)大型跨國調(diào)查或與國際跨國調(diào)查機構(gòu)合作,但“政治學(xué)數(shù)據(jù)跨國采集要比經(jīng)濟數(shù)據(jù)復(fù)雜得多”。首先,將政治活動數(shù)據(jù)化已絕非易事,而保證這些數(shù)據(jù)能被其他國家理解就更難了。在市場經(jīng)濟中,貨幣作為普遍的交換媒介,為“無生命物品”的生產(chǎn)提供了通行的測量標(biāo)準(zhǔn),國際匯率制度也為各國提供了穩(wěn)定的價值衡量標(biāo)準(zhǔn)。一些國際經(jīng)濟組織在數(shù)據(jù)規(guī)制和收集過程中扮演核心角色,比如國際貨幣基金組織和世界銀行。它們制定標(biāo)準(zhǔn)化的測量方法,定期收集國家經(jīng)濟和社會相關(guān)數(shù)據(jù),并按照時間序列整理覆蓋全球的多國數(shù)據(jù)。而政治領(lǐng)域缺乏這樣的普遍衡量與換算標(biāo)準(zhǔn),要想將國家政治事件、結(jié)構(gòu)和輸出數(shù)據(jù)化,就需要在量化方式上投入大量精力。對他國的數(shù)據(jù)采集,正如鮑曼等人在衡量政治民主時所強調(diào)的:外部觀察往往依靠的是不完整、不準(zhǔn)確乃至互相矛盾的信息。“數(shù)據(jù)誘發(fā)的測量錯誤”可能影響到跨國測量的質(zhì)量,畢竟這些測量有賴于對復(fù)雜政治現(xiàn)實的抽象判斷。所以,當(dāng)前跨國數(shù)據(jù)收集中往往難以滿足以下條件:可清晰界定觀察結(jié)果的概念性框架;完整、精確、統(tǒng)一的編碼規(guī)則;對重復(fù)測量行為進行持續(xù)監(jiān)察;有觀察能力和遵守規(guī)則的編碼員。此外還存在若干數(shù)據(jù)不兼容不協(xié)調(diào)、重復(fù)收集等問題,造成大量寶貴研究資源的浪費。未來,國內(nèi)學(xué)者在開展同類數(shù)據(jù)采集中,如何建立一個更高水平的監(jiān)管機構(gòu),如何完成數(shù)據(jù)采集的頂層設(shè)計,以促進在跨國數(shù)據(jù)收集匯總中的協(xié)同和協(xié)調(diào)則是亟需思考的問題。
三、數(shù)據(jù)公開和研究再驗證
在通過可靠的數(shù)據(jù)采集保證數(shù)據(jù)的代表性和效度之外,對數(shù)據(jù)、研究乃至理論本身的檢驗該通過何種有效手段來進行呢 近幾十年來,政治學(xué)實證研究成果數(shù)量持續(xù)增長,特別是使用數(shù)據(jù)的成果不斷增加,學(xué)術(shù)界也展開了若干辯論,其核心內(nèi)容主要圍繞:如何確保數(shù)據(jù)使用的論文發(fā)表質(zhì)量,保證高標(biāo)準(zhǔn)的研究實踐以及最大化地利用現(xiàn)有知識推動學(xué)科的未來發(fā)展,而這場辯論的解決方法則是重復(fù)驗證。⑧重復(fù)驗證是評價一篇論文質(zhì)量高低的必要環(huán)節(jié),它亦是后續(xù)研究進一步發(fā)展現(xiàn)有分析途徑或?qū)で笮路治龇椒ǖ幕A(chǔ),重復(fù)驗證還可以提升研究方法的標(biāo)準(zhǔn)、促進學(xué)術(shù)辯論的發(fā)展以及營造一種使得共享相似方法和數(shù)據(jù)的學(xué)者們可以形成廣泛研究共同體的氛圍。所以,定量研究成果中的數(shù)據(jù)獲取及其可得性公開變得愈發(fā)重要,這將是重復(fù)驗證及科學(xué)發(fā)展的先決條件。
而2012年美國政治學(xué)會將數(shù)據(jù)分析透明度寫入學(xué)術(shù)倫理指南之后,代表重復(fù)驗證獲得學(xué)界普遍共識,如2014年多家期刊主編簽發(fā)了《期刊透明度主編宣言》并逐漸演化為《數(shù)據(jù)公開和研究透明度宣言》。這一宣言主旨則是要求期刊所刊論文在發(fā)表時,作者需要保證自己數(shù)據(jù)的可信性和研究方法研究過程的透明度,要對文章所使用數(shù)據(jù)予以公開,以供他者重復(fù)驗證。早在2008年就有學(xué)者統(tǒng)計,政治學(xué)排名前25位的雜志發(fā)現(xiàn),只有7家雜志(28%)在投稿指南里包括“嚴格的”數(shù)據(jù)公開要求,將公開數(shù)據(jù)定為一項期刊論文發(fā)表的義務(wù)。另外4家(16%)制定了“溫和的”要求,希望作者公開他們的數(shù)據(jù),但不強制。其余14家(56%)雜志在這方面沒有要求。截至2016年1月,已有28家期刊共同簽署了《數(shù)據(jù)公開和研究透明度宣言》。⑩與2008年相比,無論是要求數(shù)據(jù)公開的期刊影響因子還是數(shù)量都有顯著的提高。
越來越多的政治學(xué)期刊通過公開數(shù)據(jù),提高了學(xué)科內(nèi)整體重復(fù)驗證標(biāo)準(zhǔn)。當(dāng)然,一些頂尖刊物的文獻也在不斷地重復(fù)驗證中顯露出若干學(xué)術(shù)問題或規(guī)范化問題。誠如前文述及,目前政治學(xué)領(lǐng)域的重復(fù)驗證工作還比較少見,在英文世界,同樣也僅有的如哥倫比亞大學(xué)學(xué)者亞歷山大·科波克和唐納德·格林曾開展對已有實驗室與田野背景下實驗結(jié)果一致性進行再考察,以及阿什在社會規(guī)范服從研究中,對許多不同實驗對象群體的重復(fù)實驗。未來伴隨政治重復(fù)驗證的興起和引起重視,將會使大量經(jīng)不起經(jīng)驗的研究成果或已有理論處于顛覆的境地,政治學(xué)界應(yīng)該對此有心理預(yù)期,繼而對當(dāng)前的理論和數(shù)據(jù)結(jié)果保持足夠的警醒,而非盲目的迷信。
四、大數(shù)據(jù)時代與互聯(lián)網(wǎng)數(shù)據(jù)
(一)大數(shù)據(jù)的機遇及其對傳統(tǒng)數(shù)據(jù)研究困境的部分化解
所謂的大數(shù)據(jù),是由巨型數(shù)據(jù)集所組成的數(shù)據(jù)集合。與傳統(tǒng)的對大量樣本的統(tǒng)計研究中所采用的抽樣分析不同,大數(shù)據(jù)有顯而易見的優(yōu)點,諸多學(xué)者相信其能夠助力對政治學(xué)中傳統(tǒng)定量研究的突破。甚至有研究斷言“大數(shù)據(jù)帶來的革命將顛覆我們傳統(tǒng)的認知和生活方式”。如社交網(wǎng)絡(luò)蓬勃發(fā)展所帶來的大數(shù)據(jù),在日常生活和社會科學(xué)研究應(yīng)用中確實帶來明顯的影響,學(xué)者通過收集網(wǎng)絡(luò)使用者在社交媒體上的瀏覽和交流記錄等數(shù)據(jù),分析使用者特定的行為模式、政治偏好、交往方式,為實現(xiàn)特定目的提供幫助。如在2012年美國總統(tǒng)競選中,奧巴馬恰是通過對社交網(wǎng)絡(luò)的大數(shù)據(jù)分析,有針對性地修正競選策略獲取社交媒體使用者的支持并為連任成功提供有力的支持;隨后奧巴馬政府也發(fā)出了大數(shù)據(jù)研究和發(fā)展倡議,指出好的決策離不開好的數(shù)據(jù),要讓大數(shù)據(jù)為各國政府國土安全、公共政策、社會保障等領(lǐng)域服務(wù),讓大數(shù)據(jù)成為新一輪生產(chǎn)力提升、發(fā)展創(chuàng)新等競爭的基礎(chǔ)。如,美國零售業(yè)通過大數(shù)據(jù)能提升60%的毛利;美國衛(wèi)生保健系統(tǒng)、歐洲政府機構(gòu)通過對大數(shù)據(jù)創(chuàng)造性的高效使用,有效地提升了政府公共財政的使用效能。
作為政治學(xué)研究對象的大數(shù)據(jù)有以下特征:數(shù)據(jù)量大(Volume),類型繁多(Variety),價值密度低(Value),以及速度快時效高(Velocity),即所謂的“4V”特征。在某種程度上,大數(shù)據(jù)的這些特征一定程度上化解了傳統(tǒng)數(shù)據(jù)采集中的不足之處。在數(shù)據(jù)分析層面,大數(shù)據(jù)通過分析較大的樣本規(guī)模,允許對理論開展低成本的、更廣泛的實驗驗證,允許對理論開展持續(xù)的評估。在數(shù)據(jù)采集層面,以網(wǎng)絡(luò)數(shù)據(jù)采集為例,一方面是實現(xiàn)完整采集網(wǎng)絡(luò)中的音、視、文、字等;另一方面是通過諸如網(wǎng)絡(luò)爬蟲等采集系統(tǒng)日志等歷史記錄。由于這類數(shù)據(jù)往往通過軟件來提取,適用于結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化等不同類型數(shù)據(jù)的混合處理,可以實現(xiàn)最大限度保留更多的數(shù)據(jù)信息,為定量和定性研究方法的不同運用打下基礎(chǔ),符合當(dāng)前混合研究興起的趨勢;此外,由于系統(tǒng)化的軟件提取,其對數(shù)據(jù)的一致性要求不高,使得所獲得的數(shù)據(jù)具有可擴展性,進一步擴大數(shù)據(jù)研究議題的范圍和空間。最后,大數(shù)據(jù)雖然數(shù)量龐大,但獲得時效卻在不斷縮短,這不但使學(xué)者更加及時和敏銳地捕捉社會發(fā)展變遷的證據(jù),還有利于通過歷時性比較來進一步驗證數(shù)據(jù)的效度,特別是信息技術(shù)的進一步發(fā)展還使得前述政治學(xué)研究中的數(shù)據(jù)公開和驗證等困境得到相當(dāng)程度的緩解。
當(dāng)然,正如科學(xué)哲學(xué)家波普爾所說,有科學(xué)證明的邏輯,但不存在科學(xué)發(fā)現(xiàn)的邏輯。大數(shù)據(jù)為發(fā)現(xiàn)社會科學(xué)發(fā)展規(guī)律和現(xiàn)實提供驗證和支撐,如果脫離數(shù)據(jù)收集背景,大數(shù)據(jù)沒有任何意義。特別是,更多的可接觸的數(shù)據(jù)并不意味著是符合學(xué)術(shù)倫理道德的數(shù)據(jù)。即使和政治學(xué)相臨近的學(xué)科——社會學(xué)——沉迷于追求數(shù)據(jù)科學(xué)的目標(biāo),也一直未成功。圍繞大數(shù)據(jù)神話產(chǎn)生的爭論如同人們對各類烏托邦和反烏托邦言論的爭執(zhí)一樣多??梢姡髷?shù)據(jù)并不總是好的數(shù)據(jù),這就需要我們客觀看待大數(shù)據(jù)所存在的問題。
(二)大數(shù)據(jù)亦有大問題
數(shù)據(jù)采集的困境和數(shù)據(jù)公開再驗證所存在的問題,在很多人看來,都將被大數(shù)據(jù)迎刃而解。事實真的如此嗎 本文在此需要澄清學(xué)界兩個常見的認知誤區(qū):一是關(guān)于大數(shù)據(jù)能解決抽樣偏差問題,或者說大數(shù)據(jù)是否等同于全樣本數(shù)據(jù);二是互聯(lián)網(wǎng)大數(shù)據(jù)效用問題。
首先,對于上述誤區(qū)的解釋,可以通過例子來更加直觀的認識。當(dāng)前,社交媒體用戶出現(xiàn)爆發(fā)性的增長,越來越多的學(xué)者希望通過對社交媒體數(shù)據(jù)的搜集來調(diào)查或測量相關(guān)政治議題發(fā)展變化的主要趨勢,并認為這種海量的社交數(shù)據(jù)將有效地解決傳統(tǒng)抽樣中的偏差問題。然而,這存在諸多挑戰(zhàn),第一,盡管這方面的數(shù)據(jù)驚人,但嚴謹?shù)难芯空吆苌贂J為社交媒體的用戶能代表某國的全體公民。就中國而言,其在2016年初互聯(lián)網(wǎng)普及率剛超過50%,尚有巨大的體量的公眾無法接觸互聯(lián)網(wǎng),如果僅僅依靠社交媒體數(shù)據(jù)也就難以測量這部分群體的行為特征。第二,社交媒體用戶群體對外界來說不是可用的抽樣框架。研究社交媒體用戶只能使用各種非概率方法如滾雪球抽樣。第三,社交媒體用戶隱私意識增強,他們可以用層出不窮的新工具控制他人可訪問內(nèi)容。這使得數(shù)據(jù)被動收集的范圍從全部用戶縮小到了一部分愿意公開分享信息的用戶,而且這個群體的規(guī)模會日益縮小。抽樣調(diào)查數(shù)據(jù)的說服力是建立在精心設(shè)計的抽樣框和抽樣技術(shù)上的。盡管大數(shù)據(jù)時代帶來數(shù)據(jù)量級上的增加,然而,其并不是全樣本數(shù)據(jù),所以,“來自社交網(wǎng)絡(luò)的豐富大數(shù)據(jù)能增加我們對特定政治議題的理解,但近幾年內(nèi)都不會取代其他調(diào)查方式”。
其次,互聯(lián)網(wǎng)數(shù)據(jù)并不總是具有較高效用。如互聯(lián)網(wǎng)問卷的應(yīng)答者多是學(xué)生以及為了獲得報酬而多參與調(diào)查的無固定職業(yè)者等。當(dāng)獲得回報成為人們填寫問卷的驅(qū)動因素時,人們在調(diào)查中給出“積極”回答的動機就值得懷疑了。特別是當(dāng)前的互聯(lián)網(wǎng)數(shù)據(jù)采集并不遵循隨機的策略,所以必須考慮非隨機選擇帶來的偏差。有學(xué)者對此給出技術(shù)性處理方法,如考慮到數(shù)據(jù)采集中的選擇性與概率性因素,就必須知道并非每一個處在調(diào)查范圍內(nèi)的個體都有相等的可能性納入到研究當(dāng)中。最近進行的一些對原始數(shù)據(jù)進行調(diào)整的嘗試,例如通過加權(quán)與調(diào)整采樣策略,意圖抵消數(shù)據(jù)中的非隨機傾向,并試圖找出在線調(diào)查與其他方式的不同(例如絕對平均誤差、最大絕對誤差、顯著差異的數(shù)量等)。雖然有調(diào)查表明,一些事后的分層策略——包括人口統(tǒng)計學(xué)方法與傾向性加權(quán),并運用不同的樣本選擇方案——可能會抵消一些差異,但這不足以應(yīng)對所有的情況。
此外,大數(shù)據(jù)的興起及其帶來的“數(shù)據(jù)驅(qū)動的科學(xué)”鼓勵人們進行被動的數(shù)據(jù)收集,而不是主動的實驗與測試,也誘使人們搞“數(shù)據(jù)欺瞞”(hornswoggling,即缺乏統(tǒng)計學(xué)依據(jù)的數(shù)據(jù)欺詐)。加之,大數(shù)據(jù)更多是原始數(shù)據(jù),如何分析和數(shù)據(jù)挖掘則受到學(xué)者參差不齊研究水平影響。所以,在對上述問題保持足夠的警醒前,很多學(xué)者無法有效避免大數(shù)據(jù)或互聯(lián)網(wǎng)數(shù)據(jù)所帶來的各種偏差,從而導(dǎo)致后續(xù)的定量分析結(jié)果并不具有可信度和可靠性。所以,筆者認為,大數(shù)據(jù)或互聯(lián)網(wǎng)數(shù)據(jù)之所以往往是補充,而不是替代現(xiàn)有的抽樣數(shù)據(jù),部分原因就在于,即使它們能解決一些問題(如改善測量,減少成本),但依然有其他問題(例如覆蓋率、無應(yīng)答)還是無法解決。
五、政治學(xué)科發(fā)展的支撐:數(shù)據(jù)、模型,還是理論
自20世紀(jì)行為主義及后行為主義思潮興起以來,有關(guān)政治學(xué)研究中數(shù)據(jù)、模型與理論的作用及沖突一直爭執(zhí)不斷。隨著互聯(lián)網(wǎng)在政治學(xué)研究的參與度日漸增加,不僅之前的理論和方法應(yīng)當(dāng)加以跟進,還要進一步地重新思考政治學(xué)科發(fā)展支撐點在哪里。通過采用新證據(jù)對舊有理論和研究的重新驗證,一些問題被逐漸澄清,當(dāng)然也有一些存在缺陷和不合時宜的理論被推翻重建。這使得政治學(xué)未來發(fā)展創(chuàng)新更為必要,但究竟要依靠何種創(chuàng)新 數(shù)據(jù)、模型和理論在政治學(xué)中的地位各自如何 對于這些問題的不同回答構(gòu)成爭議的核心。前文已經(jīng)指出,當(dāng)前數(shù)據(jù)采集、處理、使用過程中存在諸多問題,還有待進一步改善,而與數(shù)據(jù)密切相關(guān)的模型呢 對此,本文認為其涉及如下三個問題需要進一步探討。
一是模型與數(shù)據(jù)的關(guān)系。有學(xué)者指出,在當(dāng)前涉及模型和數(shù)據(jù)的論文中,通常前十分之九的篇幅都是詳細論述模型的生成、發(fā)展,而最后十分之一的篇幅中卻加入一份無關(guān)緊要的數(shù)據(jù)分析,這樣做毫無疑問只是為了滿足審稿人。但只將數(shù)據(jù)分析看作研究的終點,是過于關(guān)注模型檢驗的不幸結(jié)果。模型本可以吸納和解釋新的實證發(fā)現(xiàn),但為了表明模型主要的預(yù)測是“確證的”或“證實的”,卻犧牲了模型原本的優(yōu)勢。這種研究策略不能被視作模型和數(shù)據(jù)的整合,所以如何選擇適合數(shù)據(jù)的貼切模型,恰當(dāng)?shù)貙?shù)據(jù)和模型完美的結(jié)合始終成為研究者心頭縈繞的焦點。
二是模型與理論的關(guān)系。20世紀(jì)七八十年代,模型主要用于擴張概念,提高概念的適應(yīng)性,但檢驗?zāi)P图僭O(shè)或預(yù)測的結(jié)果并不理想。如莫伊認為理性選擇模型缺乏實證性內(nèi)容,阿肯則警告說數(shù)學(xué)模型“只是工具,不是信奉的對象”。本來,數(shù)據(jù)建模和理論分析有時會互相啟發(fā)互相支撐,但當(dāng)前的政治學(xué)領(lǐng)域卻被劃分為理論分析和實證探索兩大陣營。這種割裂既帶來研究者的彼此輕視或忽視,也使得學(xué)科的發(fā)展受到阻礙。比如,諸多已發(fā)表文獻的研究動機多為數(shù)據(jù)驅(qū)動、模型驅(qū)動,而非研究議題驅(qū)動的研究結(jié)果,忽略學(xué)科理論創(chuàng)新和知識有效積累。
三是簡單模型和復(fù)雜模型的關(guān)系。首先有必要回顧一下托馬斯·謝林的經(jīng)典論述:“一個模型可視作對一系列相互關(guān)系的精確而簡潔描述,這些關(guān)系足以產(chǎn)生所討論的現(xiàn)象?;蛘?,一個模型可視作實際的生物、機械或社會系統(tǒng),以特別清晰的形式具體呈現(xiàn)必然產(chǎn)生特定現(xiàn)象的關(guān)系。這兩種‘模型’的含義并無多大區(qū)別。”一方面,當(dāng)回顧過去30年量化研究的主流期刊,就會發(fā)現(xiàn)統(tǒng)計模式的單一性:幾乎所有的分析都運用了線性回歸和邏輯斯蒂回歸模型。學(xué)者批評道:“大量來自社會心理學(xué)、社會學(xué)或僅僅是任意經(jīng)驗主義(casual empiricism)的自變量,被匆忙地套用垃圾桶般的線性回歸模型方法。”而線性模型可能存在變量選擇偏差、共線性及結(jié)果的不穩(wěn)定等問題;另一方面,復(fù)雜的技術(shù)模型也不是總是那么有效,當(dāng)前諸多的研究成果存在“為復(fù)雜性而復(fù)雜”,期望運用最新的技術(shù)會有利于將相當(dāng)平庸的分析發(fā)表到頂級期刊。但如何在簡單模型應(yīng)用和復(fù)雜模型選擇間“找到正確的平衡是有挑戰(zhàn)的”
當(dāng)然,在實用主義盛行的背景下,在科研成果要么發(fā)表要么死亡的范圍中,可以預(yù)見的未來,數(shù)據(jù)和模型依然會占據(jù)重要的地位,理論的式微并不會因為諸多學(xué)者的呼吁而有所減輕。如哈佛政治學(xué)教授帕特南和斯考切波均無不表示對當(dāng)前學(xué)者逃避政治研究“宏大主題”的擔(dān)憂。此外,對數(shù)據(jù)和模型的追求還造成大學(xué)的研究者和思想者“邊緣化了自己”。這種排外文化在學(xué)者蔑視影響力和受眾的同時,還美化了神秘的晦澀難懂的學(xué)術(shù)化表述。
學(xué)者都有一種潛在的欲望,在未完全理解數(shù)據(jù)、模型和理論的情況下,就運用相應(yīng)的數(shù)據(jù)、模型或理論來包裝自己的研究成果。這種長久以來的學(xué)術(shù)追求的惰性如此根深蒂固,在政治學(xué)領(lǐng)域表現(xiàn)得尤為明顯,這也使得政治學(xué)領(lǐng)域的學(xué)術(shù)創(chuàng)新在20世紀(jì)末期以來變得尤為艱難,也令政治學(xué)研究難以形成有效的政策建議,不斷拉大研究者和實踐者需求之間的鴻溝。但什么是研究者和實踐者建立強有力的伙伴關(guān)系所必不可少的催化劑,以實現(xiàn)研究者團體的社會價值
政治學(xué)科未來的發(fā)展,筆者認為,一些研究所指出的降低定量課程難度等方法并不可取,而資深研究者所呼吁的回歸“宏大理論”在短期內(nèi)也難以實現(xiàn)。一方面,當(dāng)前對數(shù)據(jù)和模型的諸多誤解和誤用恰恰是由于方法論訓(xùn)練的不足而導(dǎo)致;另一方面,回溯政治學(xué)發(fā)展史,自亞里士多德以來,相關(guān)宏大的政治學(xué)理論也是屈指可數(shù)。未來學(xué)科內(nèi)部的方法論融合和借鑒吸收其他學(xué)科的方法論,避免對單一方法或單一數(shù)據(jù)的盲目崇拜,客觀看待新信息技術(shù)及大數(shù)據(jù)的優(yōu)劣,進而建構(gòu)政治學(xué)數(shù)據(jù)采集標(biāo)準(zhǔn)同樣也是消解目前困境的重要手段之一。此外,還需客觀認知理論、數(shù)據(jù)與模型之間的關(guān)系,簡單模型與復(fù)雜模型之間的關(guān)系等,避免由于對理論、數(shù)據(jù)和模型的不深刻理解帶來應(yīng)用的誤解。
來源:馬克思主義與現(xiàn)實
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新