全球頂級的5個數(shù)據(jù)可視化案例及分析
【數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)對企業(yè)那么有用是因為它可以給企業(yè)的許多問題提供答案,而這些問題他們先前甚至都不知道。但如果大數(shù)據(jù)對企業(yè)來說只是一堆零散的數(shù)字的話,企業(yè)無法洞察其中蘊藏的巨大價值。數(shù)據(jù)可視化可以讓企業(yè)在數(shù)據(jù)中發(fā)現(xiàn)趨勢。本文重點給大家分享全球頂級的5個數(shù)據(jù)可視化案例及分析

美國Kimberly-Clark公司的全球總監(jiān)Robert Abate說道:“ 每個人都認為其他所有人都在研究大數(shù)據(jù),所以都說自己也在研究。 ”
一些人知道大數(shù)據(jù)的真正含義,然而其他人聲稱自己懂大數(shù)據(jù),只是為了讓他們看起來并不低人一等。盡管大數(shù)據(jù)是一個熱門話題,但是對許多企業(yè)和數(shù)據(jù)專業(yè)人員來說,它仍然很難理解。不清楚其價值所在,就更談不上該如何利用了。
大數(shù)據(jù)對企業(yè)那么有用是因為它可以給企業(yè)的許多問題提供答案,而這些問題他們先前甚至都不知道。換句話說就是它提供了參考點。有了這樣大的信息量,公司可以用各種它們認為合適的方法重新處理數(shù)據(jù)或進行測試。這樣,就能用一種更容易理解的方式查明問題。收集大量數(shù)據(jù),并在數(shù)據(jù)中發(fā)現(xiàn)趨勢,使企業(yè)能夠更快、更平穩(wěn)、更有效地發(fā)展。這也可以讓它們在利益和名聲受損之前排除一些問題。
尤其是跟信息圖表和可視元素用在一起時,能夠更快地得到問題的答案。
舉個銷售類的例子, Abate 的團隊幫助他們的客戶整理數(shù)據(jù)。他們從數(shù)據(jù)集中刪除了任何不相關(guān)的或離群的數(shù)據(jù),從而縮小到一個關(guān)鍵問題或用戶信息統(tǒng)計。這樣,他們就能分辨出哪一類產(chǎn)品出售的多,哪一類產(chǎn)品沒有出售,因此可能要被淘汰。他們關(guān)注4個主要的數(shù)據(jù):收入、頻率、價值、年期。Abate先生強調(diào),同一時間,在任何給予的可視化范圍內(nèi),超過4個數(shù)據(jù)就會讓人更難跟蹤。通過淘汰沒有出售的產(chǎn)品,他們正在減少浪費來增加未來的收入。但是沒有數(shù)據(jù)可視化,他們不可能完成這項工作。
接下來,我們就看一下,全球頂級的5個數(shù)據(jù)可視化案例。
一、航線星云
關(guān)于洞察
截止到2012年1月,開源網(wǎng)站OPENFLIGHTS.ORG上記載了大約6萬條直飛航班信息,這些航班穿梭在3000多個機場間,覆蓋了500多條航線。
通過高級分析技術(shù),我們可以看到世界上各家不同的航空公司看起來就像是一個美麗的星云(國際星云的組成部分)。同種顏色的圓點和粗線提供了見解,它們代表提供相同航線的航空公司,顯示出它們之間的競爭以及在不同區(qū)域間的潛在合作。
這張基于數(shù)據(jù)可視化的Sigma圖表顯示了服務(wù)城市相似的不同航空公司。圖中的圓點或圓圈代表航空公司,連線的粗細和遠近則反映兩個航空公司之間的相似性;連線越粗或越短則代表兩家航司服務(wù)的城市越相似。圖表中有幾組航空公司,直觀地表現(xiàn)了它們所服務(wù)的地理區(qū)域。
這張圖表中的關(guān)鍵洞察當(dāng)然地是航空公司之間的相似性甚至是重疊,它們是中國的南航和東航、阿聯(lián)酋航空和卡塔爾航空、英航和漢莎航空、美航和達美航空;我們可以從中看出這些公司之間的競爭關(guān)系。瑞安航空則通過服務(wù)與漢莎航空和英航存在潛在協(xié)力的城市占據(jù)了一個利基市場;比起意大利或漢莎等其他的歐洲航司,法國航空則與美國聯(lián)航等美國航空公司更為相似,這也許可以解釋為聯(lián)合品牌效應(yīng)。本質(zhì)上說,這是一張多維的韋恩圖,用一種簡明扼要的方式揭示了不同主體間的復(fù)雜關(guān)系。
總的來說,這張圖表揭示了不同航司之間的相似性和競爭情況,有利于發(fā)掘潛在的合作關(guān)系、增加市場份額和市場覆蓋面。這項技術(shù)可以通過不同參與者之間的相同變量,用于分析任何生態(tài)系統(tǒng)。
分析技術(shù)
這張可視化圖表通過Aster App中心生成,運用到了關(guān)聯(lián)挖掘的分析技術(shù),研究上下文中各條目的共現(xiàn)關(guān)系。其中關(guān)聯(lián)挖掘的算法是協(xié)同過濾,它作用于航線和城市數(shù)據(jù),并將數(shù)據(jù)當(dāng)做零售籃子數(shù)據(jù)。也就是說,籃子代表城市,而航空公司則是條目。兩個航司之間的相似性由相似性得分確定,計分的原則是比較各個航司獨有的航線以及同時運營的航線。之后再將這些成對的相似性得分當(dāng)做連線的權(quán)重,再把各個航司當(dāng)做節(jié)點,共同輸入可視化儀器當(dāng)中,運用具有模塊上色技術(shù)的force-atlas算法,最終生成出這張美麗的圖表。
二、Calling Circles
關(guān)于洞察
我們無論何時何地都在使用手機并且產(chǎn)生出非常大量的資料,這些資料代表了我們每天的行為及活動。我們與其他人的每通電話及簡訊都對應(yīng)到我們的社會關(guān)系、商業(yè)活動以及更廣泛的社群互動并且形成了許多復(fù)雜互相聯(lián)結(jié)的通話圈。
這個資料視覺化圖表是從行動電話使用者的通話模式資料所制作的。每個點都代表一個使用者撥出的手機號碼,愈大的點就代表這個號碼被撥打愈多次。每條兩點之間的線都代表著從一個號碼撥打到另一個號碼。
每個行動電話使用者都會有一種獨特的通話模式,這種模式可以用來發(fā)展適合的話費方案并且可以用來定義或預(yù)測他/她的行為。舉例來說,當(dāng)一個使用者正要從現(xiàn)在的行動電話服務(wù)商轉(zhuǎn)換到另一個服務(wù)商時,我們可以從網(wǎng)內(nèi)及網(wǎng)外發(fā)現(xiàn)兩個類似的通話模式。
這張?zhí)貏e的圖表是在前期由一連串的分析產(chǎn)生用來過濾第一層的通話模式。這里使用到的資料只從在幾秒鐘的時間取得。從圖表的左上角可以看到許多大回圈,這些回圈表示短時間內(nèi)這些號碼被撥打了許多次。可以推測這些號碼有可能是機器,像是自動答錄機、互動式語音應(yīng)答(IVR) 系統(tǒng)、安全系統(tǒng)或警報。人類不可能在短時間撥出這么多電話。這些電話會先放置在一個分開的群組,后續(xù)的分析就可以集中在個人使用者的通話模式上。
分析技術(shù)
我們利用圖表來達成資料視覺化,雖然在調(diào)整版面格式的參數(shù)與傳統(tǒng)展示圖表不同。有一個常見的問題就是這些互連的圖表通常在短時間就會變成非常巨大且因為龐大的互動次數(shù)導(dǎo)致幾乎不可能被視覺化。從一個高度連結(jié)的圖表里選出一段范例是一個困難的問題,因為我們需要決定忽略哪些連結(jié)。在這個例子里,我們?nèi)∮脕碜苑浅6痰臅r間的資料來達到一個可以呈現(xiàn)的資料范圍。
資料格式就相對簡單,撥話號碼、收話號碼、撥話時間、通話時間。我們先利用機器學(xué)習(xí)(machine-learning) 來對資料作分群然后再利用Aster Lens 來展示圖表。
三、互聯(lián)網(wǎng)絡(luò)
關(guān)于洞察
這一匿名可視化報告用于支持一家Telco運營商分析住宅Telco線路。該項目旨在確定線路與網(wǎng)絡(luò)硬件性能之間的關(guān)聯(lián),此類關(guān)聯(lián)可能影響到客戶體驗。
點(節(jié)點)代表Telco網(wǎng)絡(luò)上的DSLAM(數(shù)字用戶線接入復(fù)用器)。DSLAM提供了一項重要服務(wù),能夠影響客戶呼叫體驗;它們可將客戶線路連接到主網(wǎng)絡(luò)。
DSLAM服務(wù)級別有多項測量指標(biāo),例如衰減、比特率、噪聲容限和輸出功率,并可針對每條線路整合至三個性能類別。紫色節(jié)點顯示具備卓越性能的DSLAM,橙色顯示具備出色性能的DSLAM,白色顯示性能較差的DSLAM。
在圖表中,僅少數(shù)DSLAM體驗到了高質(zhì)量服務(wù)(紫色)。這些 DSLAM 在同一建筑中與主網(wǎng)絡(luò)基礎(chǔ)設(shè)施共置,由于靠近中央網(wǎng)絡(luò)中樞,從而帶來了優(yōu)質(zhì)服務(wù)。大多數(shù)客戶實現(xiàn)了出色體驗(橙色),同時我們發(fā)現(xiàn)城市郊區(qū)存在服務(wù)較差(白色)的DSLAM。
當(dāng)客戶獲得可變網(wǎng)絡(luò)質(zhì)量時,客戶體驗和滿意度會受到很大影響。Telco的主要目標(biāo)是確保客戶獲得一致的體驗,即使是那些身處主城市外部的用戶也不例外。此圖表確定了每個提供可變服務(wù)級別的 DSALM;以出色(橙色)和較差(白色)簇之間共享的節(jié)點表示。借助這一數(shù)據(jù),Telco現(xiàn)在能夠調(diào)查和優(yōu)化可變DSLAM。
分析方法
這一西格瑪可視化報告使用內(nèi)建分析和在Teradata Aster平臺內(nèi)發(fā)現(xiàn)的可視化創(chuàng)建而成。
收到的數(shù)據(jù)來自整個城市的住宅線路,其屬性包括衰減、比特率等。我們對這些屬性進行了整合,以確定表明客戶網(wǎng)絡(luò)體驗的性能等級。
這些簇構(gòu)成了關(guān)性和回歸分析的基礎(chǔ),以確定在不同因素下網(wǎng)絡(luò)性能的變化,這些因素包括:線路技術(shù)和長度、調(diào)制解調(diào)器類型和配置、DSLAM、卡技術(shù)、地理位置等。
該西格馬可視化圖表僅顯示了整體分析的一部分,即DSLAM與網(wǎng)絡(luò)性能間的聯(lián)系。
四 、綜合數(shù)據(jù)庫(IDW)淘金熱
關(guān)于洞察
歡迎來到“中介大數(shù)據(jù)”的世界。在這個世界里,諷刺地是,大數(shù)據(jù)將被用于降低成本和優(yōu)化大數(shù)據(jù)本身。
如果你可以看到一個大型的綜合數(shù)據(jù)庫(IDW)里面,你會發(fā)現(xiàn)那是一個由數(shù)百萬相互關(guān)聯(lián)的數(shù)據(jù)元素和對象交織成的巨大網(wǎng)絡(luò)。在一個綜合數(shù)據(jù)庫每天加載數(shù)據(jù)時,成百上千的對象將在一個微小卻精心設(shè)計的處理鏈上相互作用,并將越加相互關(guān)聯(lián)緊密。在此過程中,數(shù)據(jù)被轉(zhuǎn)化、整合,并生成出最終的用戶視圖和報告。
那很棒,但是,如果你想要縮減數(shù)據(jù)庫加載時間,優(yōu)化分析生態(tài)系統(tǒng)中的數(shù)據(jù)存儲,或者想轉(zhuǎn)到一個雙活性系統(tǒng)時,那該怎么辦呢?
首創(chuàng)“元數(shù)據(jù)科學(xué)家”保羅.丹瑟提出了這一無名的可視化方法。在Teradata 數(shù)據(jù)庫一個很大的產(chǎn)品持續(xù)近20年的發(fā)展歷史中,這個可視化第一次顯示出數(shù)據(jù)對象網(wǎng)絡(luò)的完全復(fù)雜性。金點(節(jié)點)顯示數(shù)據(jù)庫對象,灰線(邊緣)顯示他們相互的依賴性,因此我們可以看見那些微小而相互關(guān)聯(lián)的過程鏈。大塊密集群體是核心的、整合的數(shù)據(jù)結(jié)構(gòu),外側(cè)疏散的島嶼則是集市。
可視化讓我們能夠看到,所有微小的過程鏈都是相互依賴,且按順序排列的。因此,它就是優(yōu)化IDW最好的工具。其圖表可以被用來決定雙活性選擇,并能在沒有依賴風(fēng)險下,針對數(shù)據(jù)庫對象順序進行細節(jié)設(shè)計和部署。該可視化還可以揭露出大量各種各樣的非正式遺產(chǎn)“提取轉(zhuǎn)換與加載”模式(ETL),這些模式對優(yōu)化新的加載和轉(zhuǎn)換程序十分的異常與危險。
分析方法
預(yù)定的Java應(yīng)用曾通過獲取圖形進行可視化,遞歸式地從每個對象中提取“數(shù)據(jù)定義語言”(DDL)。其對象均起始于Teradata數(shù)據(jù)庫層次結(jié)構(gòu)中的一個根。每個定義作為候補參考對象被搜索,并匹配一個模式,然后在內(nèi)存中依據(jù)一個完整的數(shù)據(jù)庫對象進行驗證。一旦確定有效,“頂點”或者“節(jié)點”與“邊緣”關(guān)系將會被加入“有向非循環(huán)圖”對象中。
另外,一個對象列表也會輸出指定一個有效的順序部署。順序是通過“拓補排序法”在圖上決定的。有效的順序部署有很多種。
Teradata系統(tǒng)配置的加載最小化,利用Java應(yīng)用在客戶端進行文本模型匹配和圖形處理。
五、Branch社區(qū)之樹
關(guān)于洞察
這張可視化圖表被用于幫助開發(fā)和分析Qlik的開源程序員社區(qū)Branch,這個社區(qū)被設(shè)計成為一個互動性開放式的探索導(dǎo)航平臺,而這個新的應(yīng)用使得訪客得以發(fā)現(xiàn)關(guān)于網(wǎng)站中用戶、項目和它們之間關(guān)系的新含義。這張圖表可以用來理解這個網(wǎng)絡(luò)社區(qū)的社會動態(tài),也能了解每個個體用戶的行為。為了加深理解、獲取洞察,關(guān)于相似性、類目、瀏覽量、評論和公司的元數(shù)據(jù)都被反映在這張圖表中。
圖中的圓點代表不同的項目,其大小代表瀏覽量的多少,這使得我們可以方便快速地發(fā)現(xiàn)那些最受歡迎的項目。節(jié)點還反映了項目的參與者及評論的多少,使我們能夠直觀地看到不同項目中合作程度的高低。圖中的圓點按照產(chǎn)品類目進行聚合并著色;圓點之間的連線則代表項目之間就相似程度和用戶群的聯(lián)系。
圖中最大的兩個點集標(biāo)識了Qlik社區(qū)對于可視化拓展的關(guān)注;此外還有七個中等大小、五個小型的點集,向我們展示了這個社區(qū)的發(fā)展空間。淺藍色的線條連接著每個類目中的相似項目以及Qlik的兩個主要可視化類目;綠色的連線給出了一個令人驚訝的信息:大多數(shù)貢獻者傾向于跨越整個產(chǎn)品譜系開發(fā)項目,這也印證了Qlik分析平臺的威力。
分析方法
這張網(wǎng)絡(luò)可視圖利用Qlik Sense生成。圖中數(shù)據(jù)利用Kimono APIs從Qlik Branch網(wǎng)站中收集,并被存到Sense的儲存器中。圖中的分析主要關(guān)注哪些是已經(jīng)公開的信息,之后也許會整合其他的網(wǎng)絡(luò)分析技術(shù)。
這張可視化圖表利用到了HTML, Javascript, CSS和高人氣的D3.js數(shù)據(jù)驅(qū)動可視化庫。最初的圖層基于把相似項目拉到一起的力導(dǎo)向圖;為了按類目進行項目分類,之后又增強了聚合力圖層;最后再利用Danny Holten的分層邊緣捆綁算法畫出連線。我們將來計劃開始利用Teradata Aster的K最近鄰聚類、樸素貝葉斯分類器等功能,創(chuàng)造更多關(guān)于這個數(shù)據(jù)集的洞察。這張圖表依然保持著與新用戶活動的互動,并每天進行更新。
來源:物聯(lián)網(wǎng)智庫
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
9#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會丨《云MSP發(fā)展白皮書》重