一個優(yōu)雅地探索相關(guān)性的新可視化方法
【數(shù)據(jù)猿導(dǎo)讀】 一個古老的詛咒一直縈繞著數(shù)據(jù)分析:我們用來改進模型的變量越多,那么我們需要的數(shù)據(jù)就會出現(xiàn)指數(shù)級的增長。不過,我們通過關(guān)注重要的變量就可以避免欠擬合以及降低收集大量數(shù)據(jù)的需求。

一個古老的詛咒一直縈繞著數(shù)據(jù)分析:我們用來改進模型的變量越多,那么我們需要的數(shù)據(jù)就會出現(xiàn)指數(shù)級的增長。不過,我們通過關(guān)注重要的變量就可以避免欠擬合以及降低收集大量數(shù)據(jù)的需求。減少輸入變量的一種方法是鑒別其對輸出變量的影響。變量的相關(guān)性有助于這種鑒別:如果相關(guān)性較強,那么輸入變量的一個顯著變化將會導(dǎo)致輸出變量同等程度的變化。我們要選擇跟模型的輸出變量強相關(guān)的輸入變量,而不是使用所有的可用變量。
然而當(dāng)輸入變量之間存在強相關(guān)性時,這里就會出現(xiàn)一個陷阱。假設(shè)想預(yù)測一下父母的教育水平,我們發(fā)現(xiàn)在我們的數(shù)據(jù)集中的鄉(xiāng)間俱樂部會員資格、家庭汽車數(shù)量以及度假費用之間有很強的相關(guān)性。擁有所有這些奢侈品的家庭都有相同的特征:家庭富有。所以真正的根本關(guān)聯(lián)是受過高等教育的父母通常有較高的收入。我們可以使用家庭收入來預(yù)測父母的教育水平,或者使用上面的變量數(shù)組。我們稱這種相關(guān)為“組間相關(guān)”
組間相關(guān)是解釋性變量之間的相關(guān)性。添加足夠多的變量時,會引起維度災(zāi)難并需要大量的數(shù)據(jù)。所以有時從一組組間相關(guān)的輸入變量中選擇一個代表變量是有好處的。在本文中我們會利用新創(chuàng)造的可視化方法“太陽系相關(guān)圖”來探討相關(guān)性和組間相關(guān)性,并展示如何輕松地創(chuàng)建一個你自己的太陽系相關(guān)圖。
把太陽系相關(guān)圖應(yīng)用于房價數(shù)據(jù)
我們可以使用協(xié)方差和系數(shù)矩陣將太陽系相關(guān)圖應(yīng)用于房價數(shù)據(jù)。盡管這些工具同樣有效,但很難理解。幸運的是這些矩陣可以通過精美簡潔的可視化展示來探索相關(guān)性。
太陽系相關(guān)圖是為了解決以下兩個需求而設(shè)計的:
每個輸入變量與輸出變量的相關(guān)性的可視化展示
輸入變量的組間相關(guān)性
我們來探索一個標(biāo)準(zhǔn)數(shù)據(jù)集并生成其太陽系相關(guān)圖??▋?nèi)基梅隆大學(xué)收集了上世紀(jì)九十年代的波士頓房價數(shù)據(jù),它是UCI(加利福尼亞大學(xué)爾灣分校)機器學(xué)習(xí)資源庫中可免費訪問的數(shù)據(jù)集之一。我們使用這個數(shù)據(jù)集的目標(biāo)是利用數(shù)據(jù)集中的幾個輸入變量來預(yù)測輸出變量——房屋價值(MEDV)。
首先我們生成一個相關(guān)矩陣:
圖1 來源:Stefan Zapf和Christopher Kraushaar
你可以通過搜索MEDV行和TAX列交叉的單元格得到輸出變量(房屋價值)和輸入變量(稅收)的相關(guān)性。為了探討組間相關(guān)性,你需要找到絕對值大于某個值(比如0.8)的所有單元格。在復(fù)雜的數(shù)據(jù)集中,搞懂大量的單元格數(shù)值需要很長的時間。而太陽系相關(guān)圖可以幫助你理解這些數(shù)值。我們會先從輸入變量與輸出變量的相關(guān)性開始。以下是用太陽系相關(guān)圖表示的房價信息概要:
圖2 來源:Stefan Zapf和Christopher Kraushaar
輸出變量MEDV(波士頓的房價)是太陽系中心的太陽。太陽周圍的每一圈都是軌道。行星是輸入變量,衛(wèi)星是與它圍繞旋轉(zhuǎn)的行星有相互關(guān)聯(lián)的輸入變量。軌道越近的行星跟太陽的相關(guān)性越強。例如第二個軌道是代表較低收入鄰居(LSTAT)的行星、第三個軌道的行星代表房屋房間的數(shù)量(RM)、第四個軌道的行星代表了房屋的大小(PTRATIO)。房屋面積、房間數(shù)量以及居民的潛在購買力很大程度上決定了房屋的價值。我們并不是想選一個會讓你吃驚的例子。恰恰相反,變量的常識分析會有助于我們認識到太陽系相關(guān)圖的有效性。
相關(guān)性的強度取決于Pearson相關(guān)系數(shù)的絕對值大小。第一個軌道行星的相關(guān)系數(shù)絕對值為0.9-1.0。第二軌道行星的相關(guān)系數(shù)絕對值為0.8-0.9,依此類推。另一個指示是行星的顏色和大小。太陽是一個大圓圈,行星是中等大小的圓圈而衛(wèi)星是小圓圈。
探索組間相關(guān)的輸入變量
你可能注意到太陽系里沒有太多行星有衛(wèi)星。我們將多變量組間相關(guān)的閾值設(shè)置為默認值,即Pearson相關(guān)系數(shù)必須大于0.8。通常強相關(guān)性要Pearson系數(shù)高于0.5。設(shè)置默認值是非常謹慎的,但您可以在相關(guān)性分析中調(diào)整該數(shù)字。如果我們有相互關(guān)聯(lián)的變量,那么跟輸出變量最相關(guān)的輸入變量作為行星,而其他變量則是它的衛(wèi)星。這是為了確保行星是最能解釋輸出變量的輸入變量。
在我們的例子中,只有兩個變量是強烈地相關(guān)以至于幾乎相同。并不是每個太陽系里都只有很少的衛(wèi)星。在大數(shù)據(jù)環(huán)境中,太陽系相關(guān)圖中通常有更多的變量(且附帶有許多衛(wèi)星)。隨著變量數(shù)量的增加,太陽系相關(guān)圖會變得更加重要。
現(xiàn)在我們來看一下輸入變量之間的相互關(guān)聯(lián)問題。在第六個綠色的軌道上有一個行星附帶一個衛(wèi)星。行星代表的變量是房地產(chǎn)稅率(TAX),衛(wèi)星代表的是到達高速公路的便利性(RAD)。由于住宅和商業(yè)地產(chǎn)的稅率不同,行星變量可能是個區(qū)分商業(yè)區(qū)和住宅區(qū)的指標(biāo)。企業(yè)通常希望能快速進入高速公路,而私人住宅房主通常希望避免高速公路的噪音和空氣污染。一個街區(qū)的商業(yè)或住宅性質(zhì)很可能是這些變量相互關(guān)聯(lián)的根本原因。如果是這種情況,那么就需要保留其中一個最能解釋對房價影響的變量。
謹慎的意思是符合程序的。數(shù)據(jù)分析不是機械性或確定性的過程。例如即使是富裕的家庭可能也不會購買跑車,因為他們關(guān)心環(huán)境污染。因此當(dāng)我們試圖預(yù)測家庭財富時,我們可能會觀測到跑車變量在一個偏遠的軌道上,這表明跑車不是財富的良好指標(biāo)。但是我們知道擁有跑車是財富的一個很好的指標(biāo)。沒有選擇跑車作為財富的指標(biāo)是因為它是一個偏遠的行星,這肯定是錯誤的策略,因為一個復(fù)雜的模型可以調(diào)節(jié)其關(guān)于家庭對環(huán)境的態(tài)度的影響。相關(guān)性是一個很有用的工具,但常常需要權(quán)衡結(jié)果和你的常識,并相信你的直覺,這其中包含大量的假設(shè)檢驗和貝葉斯分析。
在探索性數(shù)據(jù)分析(EDA)和建模時,太陽系相關(guān)圖可以幫助我們通過視覺方式理解相關(guān)性。對相關(guān)性的理解可以作為我們選擇建模變量優(yōu)先級的基礎(chǔ):低軌道的行星是最好的候選項,下一個是衛(wèi)星,最后是最外面軌道的行星。
正面和負面的標(biāo)簽
到目前為止,我們已經(jīng)解釋了相關(guān)性的強度和重要性。然而,我們也想知道一個相關(guān)是正相關(guān)還是負相關(guān) 正相關(guān)意味著一個變量增加時另一個也增加。這是“越多越好”的相關(guān)性。我們先來看一下變量RM,它是房間的平均數(shù)量。房子的房間越多房價就越高,這表明房子更大以及房子空間更容易分隔。當(dāng)我們有十個房間而不是兩個房間時,房子可能會有更高的價格。這是正相關(guān)的本質(zhì)。你可以看到MEDV和RM之間的為相關(guān)性為正,因為標(biāo)簽RM為綠色。
負相關(guān)意味著一個變量增加時另一個變量會降低:“有時少即是多”變量。犯罪率越低,我們的房子的價格會越高,所以我們猜想犯罪的標(biāo)簽是紅色的。我們的猜想在太陽系相關(guān)圖中被證明是正確的。
通過太陽系相關(guān)圖,我們可以一目了然地看到強度、相關(guān)性和相關(guān)性的類型。
如何簡單地創(chuàng)建一個太陽系相關(guān)圖
太陽系相關(guān)圖的創(chuàng)建跟烘烤冷凍曲奇餅面團一樣簡單。 它是一個可以使用pip安裝的Python模塊:pip install solar-correlation-map。 然后,嘗試從我們的GitHub資源上下載jedi.csv文件。這個文件是自帶表頭的標(biāo)準(zhǔn)csv文件:
圖3 來源:Stefan Zapf和Christopher Kraushaar
這個數(shù)據(jù)集是關(guān)于絕地武士的變量數(shù)據(jù):
JEDI:變量越大,絕地武士就越靠近光明面
GRAMMAR:越高的值表示一個絕地武士有越好的語法
GREENESS:變量越高,皮膚越綠
IMPLANTS:體內(nèi)植入物的數(shù)量
ELEGEN:原力者可以通過的電能的兆焦耳量
MIDI-CHLORIANS:血液中的纖原體數(shù)量
FRIENDS:朋友的數(shù)量
請注意在這個名單中的所有人的纖原體數(shù)量都是相同的??磥砦覀冞x擇了相當(dāng)強大的原力使用者。
然后使用以下命令在你下載的jedi-csv文件所在的目錄中運行太陽系相關(guān)圖:
winterfell:solar-correlation-map daebwae$ python -m solar_correlation_map jedi.csv JEDI
此時在你的屏幕上,會出現(xiàn)一個包含太陽系相關(guān)圖的窗口:
圖4 來源:Stefan Zapf和Christopher Kraushaar
語法(GRAMMAR)在一個很近的軌道上且標(biāo)簽是紅色的,所以語法(GRAMMAR)和絕地武士(Jedi)之間有很強的負相關(guān)關(guān)系。語法越好這個人就越不可能是個絕地武士。 另外綠色(GREENESS)與不良語法(GRAMMA)相關(guān)聯(lián),所以兩者都可能跟潛在的相同因素相關(guān)聯(lián)。記住所有人都有非常相似的纖原體數(shù)量(MIDI-CHLORIANS)。因此它不可能告訴我們有關(guān)原力者是否是絕地戰(zhàn)士的任何事情。這就是為什么纖原體數(shù)量(MIDI-CHLORIANS)在最外面的軌道。
三個步驟實現(xiàn)一個新的可視化
我們已經(jīng)介紹了太陽系相關(guān)圖,讓我們回顧一下這張圖。我們從數(shù)據(jù)分析問題出發(fā),找出對輸出變量影響最大的輸入變量。我們可以用相關(guān)矩陣的工具來分析這個問題。通過視覺總結(jié)這個問題有助于找到相互關(guān)聯(lián)和最有影響力的輸入變量。由于可視化跟信息傳達是息息相關(guān)的,所以我們選擇了廣大讀者都熟悉的太陽系做類比。
以下是實現(xiàn)一個新的可視化的三個步驟:
識別數(shù)據(jù)分析中的問題
找到解決這個問題的分析工具
使用視覺類比來探索和展現(xiàn)你的結(jié)果
古往今來講故事的人都具有創(chuàng)造性和勇氣,數(shù)據(jù)分析往往就像講故事一樣。同樣地,數(shù)據(jù)科學(xué)家可以追隨過去講故事的人的足跡,大膽地探索新的方式來向讀者傳達數(shù)據(jù)的故事。
在探索性數(shù)據(jù)分析中,我們的可視化工具箱在溝通和說服方面發(fā)揮著重要的作用。本文介紹了太陽系相關(guān)圖,并把它作為對這個過程的一個高級抽象,來創(chuàng)建可以解決實際探索性數(shù)據(jù)分析問題的新型可視化方法。當(dāng)你在講述數(shù)據(jù)的故事時,你可以探索讀者未曾看過的新奇的可視化世界。讓你的新奇創(chuàng)意吸引讀者并幫助擴展數(shù)據(jù)科學(xué)家的視覺類比方法。
來源:搜狐科技
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新