大數(shù)據(jù)就在你身邊 | 生活中大數(shù)據(jù)分析案例以及背后的技術原理
Stephen Cui | 2017-07-04 15:39
【數(shù)據(jù)猿導讀】 由于大數(shù)據(jù)模型對成本要求極高,業(yè)內人士認為,大數(shù)據(jù)將成為共享平臺化的服務,數(shù)據(jù)和技術相當于食材和鍋,基金經(jīng)理和分析師可以通過平臺制作自己的策略。

一、大數(shù)據(jù)分析在商業(yè)上的應用
1、體育賽事預測
世界杯期間,谷歌、百度、微軟和高盛等公司都推出了比賽結果預測平臺。百度預測結果最為亮眼,預測全程64場比賽,準確率為67%,進入淘汰賽后準確率為94%。現(xiàn)在互聯(lián)網(wǎng)公司取代章魚保羅試水賽事預測也意味著未來的體育賽事會被大數(shù)據(jù)預測所掌控。
“在百度對世界杯的預測中,我們一共考慮了團隊實力、主場優(yōu)勢、最近表現(xiàn)、世界杯整體表現(xiàn)和博彩公司的賠率等五個因素,這些數(shù)據(jù)的來源基本都是互聯(lián)網(wǎng),隨后我們再利用一個由搜索專家設計的機器學習模型來對這些數(shù)據(jù)進行匯總和分析,進而做出預測結果。”—百度北京大數(shù)據(jù)實驗室的負責人張桐
2、股票市場預測
去年英國華威商學院和美國波士頓大學物理系的研究發(fā)現(xiàn),用戶通過谷歌搜索的金融關鍵詞或許可以金融市場的走向,相應的投資戰(zhàn)略收益高達326%。此前則有專家嘗試通過Twitter博文情緒來預測股市波動。
理論上來講股市預測更加適合美國。中國股票市場無法做到雙向盈利,只有股票漲才能盈利,這會吸引一些游資利用信息不對稱等情況人為改變股票市場規(guī)律,因此中國股市沒有相對穩(wěn)定的規(guī)律則很難被預測,且一些對結果產生決定性影響的變量數(shù)據(jù)根本無法被監(jiān)控。
目前,美國已經(jīng)有許多對沖基金采用大數(shù)據(jù)技術進行投資,并且收獲甚豐。中國的中證廣發(fā)百度百發(fā)100指數(shù)基金(下稱百發(fā)100),上線四個多月以來已上漲68%。
和傳統(tǒng)量化投資類似,大數(shù)據(jù)投資也是依靠模型,但模型里的數(shù)據(jù)變量幾何倍地增加了,在原有的金融結構化數(shù)據(jù)基礎上,增加了社交言論、地理信息、衛(wèi)星監(jiān)測等非結構化數(shù)據(jù),并且將這些非結構化數(shù)據(jù)進行量化,從而讓模型可以吸收。
由于大數(shù)據(jù)模型對成本要求極高,業(yè)內人士認為,大數(shù)據(jù)將成為共享平臺化的服務,數(shù)據(jù)和技術相當于食材和鍋,基金經(jīng)理和分析師可以通過平臺制作自己的策略。
http://v.youku.com/v_show/id_XMzU0ODIxNjg0.html
3、市場物價預測
CPI表征已經(jīng)發(fā)生的物價浮動情況,但統(tǒng)計局數(shù)據(jù)并不權威。但大數(shù)據(jù)則可能幫助人們了解未來物價走向,提前預知通貨膨脹或經(jīng)濟危機。最典型的案例莫過于馬云通過阿里B2B大數(shù)據(jù)提前知曉亞洲金融危機,當然這是阿里數(shù)據(jù)團隊的功勞。
4、用戶行為預測
基于用戶搜索行為、瀏覽行為、評論歷史和個人資料等數(shù)據(jù),互聯(lián)網(wǎng)業(yè)務可以洞察消費者的整體需求,進而進行針對性的產品生產、改進和營銷。《紙牌屋》選擇演員和劇情、百度基于用戶喜好進行精準廣告營銷、阿里根據(jù)天貓用戶特征包下生產線定制產品、亞馬遜預測用戶點擊行為提前發(fā)貨均是受益于互聯(lián)網(wǎng)用戶行為預測。
購買前的行為信息,可以深度地反映出潛在客戶的購買心理和購買意向:例如,客戶 A 連續(xù)瀏覽了 5 款電視機,其中 4 款來自國內品牌 S,1 款來自國外品牌 T;4 款為 LED 技術,1 款為 LCD 技術;5 款的價格分別為 4599 元、5199 元、5499 元、5999 元、7999 元;這些行為某種程度上反映了客戶 A 對品牌認可度及傾向性,如偏向國產品牌、中等價位的 LED 電視。而客戶 B 連續(xù)瀏覽了 6 款電視機,其中 2 款是國外品牌 T,2 款是另一國外品牌 V,2 款是國產品牌 S;4 款為 LED 技術,2 款為 LCD 技術;6 款的價格分別為 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元;類似地,這些行為某種程度上反映了客戶 B 對品牌認可度及傾向性,如偏向進口品牌、高價位的 LED 電視等。
http://36kr.com/p/205901.html
5、人體健康預測
中醫(yī)可以通過望聞問切手段發(fā)現(xiàn)一些人體內隱藏的慢性病,甚至看體質便可知曉一個人將來可能會出現(xiàn)什么癥狀。人體體征變化有一定規(guī)律,而慢性病發(fā)生前人體已經(jīng)會有一些持續(xù)性異常。理論上來說,如果大數(shù)據(jù)掌握了這樣的異常情況,便可以進行慢性病預測。
6、疾病疫情預測
基于人們的搜索情況、購物行為預測大面積疫情爆發(fā)的可能性,最經(jīng)典的“流感預測”便屬于此類。如果來自某個區(qū)域的“流感”、“板藍根”搜索需求越來越多,自然可以推測該處有流感趨勢。
Google成功預測冬季流感:
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行比較,并建立一個特定的數(shù)學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。
7、災害災難預測
氣象預測是最典型的災難災害預測。地震、洪澇、高溫、暴雨這些自然災害如果可以利用大數(shù)據(jù)能力進行更加提前的預測和告知便有助于減災防災救災賑災。與過往不同的是,過去的數(shù)據(jù)收集方式存在著死角、成本高等問題,物聯(lián)網(wǎng)時代可以借助廉價的傳感器攝像頭和無線通信網(wǎng)絡,進行實時的數(shù)據(jù)監(jiān)控收集,再利用大數(shù)據(jù)預測分析,做到更精準的自然災害預測。
8、環(huán)境變遷預測
除了進行短時間微觀的天氣、災害預測之外,還可以進行更加長期和宏觀的環(huán)境和生態(tài)變遷預測。森林和農田面積縮小、野生動物植物瀕危、海岸線上升,溫室效應這些問題是地球面臨的“慢性問題“。如果人類知道越多地球生態(tài)系統(tǒng)以及天氣形態(tài)變化數(shù)據(jù),就越容易模型化未來環(huán)境的變遷,進而阻止不好的轉變發(fā)生。而大數(shù)據(jù)幫助人類收集、儲存和挖掘更多的地球數(shù)據(jù),同時還提供了預測的工具。
9、交通行為預測
基于用戶和車輛的LBS定位數(shù)據(jù),分析人車出行的個體和群體特征,進行交通行為的預測。交通部門可預測不同時點不同道路的車流量進行智能的車輛調度,或應用潮汐車道;用戶則可以根據(jù)預測結果選擇擁堵幾率更低的道路。
百度基于地圖應用的LBS預測涵蓋范圍更廣。春運期間預測人們的遷徙趨勢指導火車線路和航線的設置,節(jié)假日預測景點的人流量指導人們的景區(qū)選擇,平時還有百度熱力圖來告訴用戶城市商圈、動物園等地點的人流情況,指導用戶出行選擇和商家的選點選址。
多爾戈夫的團隊利用機器學習算法來創(chuàng)造路上行人的模型。無人駕駛汽車行駛的每一英里路程的情況都會被記錄下來,汽車電腦就會保持這些數(shù)據(jù),并分析各種不同的對象在不同的環(huán)境中如何表現(xiàn)。有些司機的行為可能會被設置為固定變量(如“綠燈亮,汽車行”),但是汽車電腦不會死搬硬套這種邏輯,而是從實際的司機行為中進行學習。
這樣一來,跟在一輛垃圾運輸卡車后面行駛的汽車,如果卡車停止行進,那么汽車可能會選擇變道繞過去,而不是也跟著停下來。谷歌已建立了70萬英里的行駛數(shù)據(jù),這有助于谷歌汽車根據(jù)自己的學習經(jīng)驗來調整自己的行為。
10、能源消耗預測
加州電網(wǎng)系統(tǒng)運營中心管理著加州超過80%的電網(wǎng),向3500萬用戶每年輸送2.89億兆瓦電力,電力線長度超過25000英里。該中心采用了Space-Time Insight的軟件進行智能管理,綜合分析來自包括天氣、傳感器、計量設備等各種數(shù)據(jù)源的海量數(shù)據(jù),預測各地的能源需求變化,進行智能電能調度,平衡全網(wǎng)的電力供應和需求,并對潛在危機做出快速響應。中國智能電網(wǎng)業(yè)已在嘗試類似大數(shù)據(jù)預測應用。
二、大數(shù)據(jù)分析種類
按照數(shù)據(jù)分析的實時性,分為實時數(shù)據(jù)分析和離線數(shù)據(jù)分析兩種。
實時數(shù)據(jù)分析一般用于金融、移動和互聯(lián)網(wǎng)B2C等產品,往往要求在數(shù)秒內返回上億行數(shù)據(jù)的分析,從而達到不影響用戶體驗的目的。要滿足這樣的需求,可以采用精心設計的傳統(tǒng)關系型數(shù)據(jù)庫組成并行處理集群,或者采用一些內存計算平臺,或者采用HDD的架構,這些無疑都需要比較高的軟硬件成本。目前比較新的海量數(shù)據(jù)實時分析工具有EMC的Greenplum、SAP的HANA等。
對于大多數(shù)反饋時間要求不是那么嚴苛的應用,比如離線統(tǒng)計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等,應采用離線分析的方式,通過數(shù)據(jù)采集工具將日志數(shù)據(jù)導入專用的分析平臺。但面對海量數(shù)據(jù),傳統(tǒng)的ETL工具往往徹底失效,主要原因是數(shù)據(jù)格式轉換的開銷太大,在性能上無法滿足海量數(shù)據(jù)的采集需求。互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等,均可以滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求,并將這些數(shù)據(jù)上載到Hadoop中央系統(tǒng)上。
按照大數(shù)據(jù)的數(shù)據(jù)量,分為內存級別、BI級別、海量級別三種。
這里的內存級別指的是數(shù)據(jù)量不超過集群的內存最大值。不要小看今天內存的容量,F(xiàn)acebook緩存在內存的Memcached中的數(shù)據(jù)高達320TB,而目前的PC服務器,內存也可以超過百GB。因此可以采用一些內存數(shù)據(jù)庫,將熱點數(shù)據(jù)常駐內存之中,從而取得非??焖俚姆治瞿芰?,非常適合實時分析業(yè)務。圖1是一種實際可行的MongoDB分析架構。
圖1 用于實時分析的MongoDB架構
MongoDB大集群目前存在一些穩(wěn)定性問題,會發(fā)生周期性的寫堵塞和主從同步失效,但仍不失為一種潛力十足的可以用于高速數(shù)據(jù)分析的NoSQL。
此外,目前大多數(shù)服務廠商都已經(jīng)推出了帶4GB以上SSD的解決方案,利用內存+SSD,也可以輕易達到內存分析的性能。隨著SSD的發(fā)展,內存數(shù)據(jù)分析必然能得到更加廣泛的應用。
BI級別指的是那些對于內存來說太大的數(shù)據(jù)量,但一般可以將其放入傳統(tǒng)的BI產品和專門設計的BI數(shù)據(jù)庫之中進行分析。目前主流的BI產品都有支持TB級以上的數(shù)據(jù)分析方案。種類繁多。
海量級別指的是對于數(shù)據(jù)庫和BI產品已經(jīng)完全失效或者成本過高的數(shù)據(jù)量。海量數(shù)據(jù)級別的優(yōu)秀企業(yè)級產品也有很多,但基于軟硬件的成本原因,目前大多數(shù)互聯(lián)網(wǎng)企業(yè)采用Hadoop的HDFS分布式文件系統(tǒng)來存儲數(shù)據(jù),并使用MapReduce進行分析。本文稍后將主要介紹Hadoop上基于MapReduce的一個多維數(shù)據(jù)分析平臺。
三、大數(shù)據(jù)分析一般過程
3.1 采集
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的 數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除 此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶 來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間 進行負載均衡和分片的確是需要深入的思考和設計。
3.2 導入/預處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這 些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使 用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務的實時計算需求。
導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。
3.3 統(tǒng)計/分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內的海量數(shù)據(jù)進行普通 的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
3.4 挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù) 據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于 統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并 且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
四、大數(shù)據(jù)分析工具
4.1 Hadoop
Hadoop 是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數(shù)據(jù)。此外,Hadoop 依賴于社區(qū)服務器,因此它的成本比較低,任何人都可以使用。
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。它主要有以下幾個優(yōu)點:
高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。
高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。
Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。
4.2 HPCC
HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯(lián)邦協(xié)調理事會向國會提交了“重大挑戰(zhàn)項目:高性能計算與 通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統(tǒng)科學戰(zhàn)略項目,其目的是通過加強研究與開發(fā)解決一批重要的科學與技術挑戰(zhàn)問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發(fā)可擴展的計算系統(tǒng)及相關軟件,以支持太位級網(wǎng)絡傳輸性能,開發(fā)千兆 比特網(wǎng)絡技術,擴展研究和教育機構及網(wǎng)絡連接能力。
該項目主要由五部分組成:
高性能計算機系統(tǒng)(HPCS),內容包括今后幾代計算機系統(tǒng)的研究、系統(tǒng)設計工具、先進的典型系統(tǒng)及原有系統(tǒng)的評價等;
先進軟件技術與算法(ASTA),內容有巨大挑戰(zhàn)問題的軟件支撐、新算法設計、軟件分支與工具、計算計算及高性能計算研究中心等;
國家科研與教育網(wǎng)格(NREN),內容有中接站及10億位級傳輸?shù)难芯颗c開發(fā);
基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期 的調查在可升級的高性能計算中來增加創(chuàng)新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯(lián)營,和來提供必需的基礎架構來支 持這些調查和研究活動;
信息基礎結構技術和應用(IITA ),目的在于保證美國在先進信息技術開發(fā)方面的領先地位。
4.3 Storm
Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統(tǒng)。Storm可以非??煽康奶幚睚嫶蟮臄?shù)據(jù)流,用于處理Hadoop的批量數(shù)據(jù)。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
Storm有許多應用領域:實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調用協(xié)議,一種通過網(wǎng)絡從遠程計算機程序上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即數(shù)據(jù)抽取、轉換和加載)等等。Storm的處理速度驚人:經(jīng)測 試,每個節(jié)點每秒鐘可以處理100萬個數(shù)據(jù)元組。Storm是可擴展、容錯,很容易設置和操作。
4.4 Apache Drill
為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會近日發(fā)起了一項名為“Drill”的開源項目。Apache Drill 實現(xiàn)了 Google’s Dremel.
據(jù)Hadoop廠商MapR Technologies公司產品經(jīng)理Tomer Shiran介紹,“Drill”已經(jīng)作為Apache孵化器項目來運作,將面向全球軟件工程師持續(xù)推廣。
該項目將會創(chuàng)建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應用提速)。而“Drill”將有助于Hadoop用戶實現(xiàn)更快查詢海量數(shù)據(jù)集的目的。
“Drill”項目其實也是從谷歌的Dremel項目中獲得靈感:該項目幫助谷歌實現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構建系統(tǒng)上的測試結果等等。
通過開發(fā)“Drill”Apache開源項目,組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構,從而幫助支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語言。
4.5 RapidMiner
RapidMiner是世界領先的數(shù)據(jù)挖掘解決方案,在一個非常大的程度上有著先進技術。它數(shù)據(jù)挖掘任務涉及范圍廣泛,包括各種數(shù)據(jù)藝術,能簡化數(shù)據(jù)挖掘過程的設計和評價。
功能和特點
免費提供數(shù)據(jù)挖掘技術和庫
100%用Java代碼(可運行在操作系統(tǒng))
數(shù)據(jù)挖掘過程簡單,強大和直觀
內部XML保證了標準化的格式來表示交換數(shù)據(jù)挖掘過程
可以用簡單腳本語言自動進行大規(guī)模進程
多層次的數(shù)據(jù)視圖,確保有效和透明的數(shù)據(jù)
圖形用戶界面的互動原型
命令行(批處理模式)自動大規(guī)模應用
Java API(應用編程接口)
簡單的插件和推廣機制
強大的可視化引擎,許多尖端的高維數(shù)據(jù)的可視化建模
400多個數(shù)據(jù)挖掘運營商支持
耶魯大學已成功地應用在許多不同的應用領域,包括文本挖掘,多媒體挖掘,功能設計,數(shù)據(jù)流挖掘,集成開發(fā)的方法和分布式數(shù)據(jù)挖掘。
4.6 Pentaho BI
Pentaho BI 平臺不同于傳統(tǒng)的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發(fā)。它的出現(xiàn),使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
Pentaho BI 平臺,Pentaho Open BI 套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執(zhí)行的商業(yè)智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平臺包含組件和報表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報表生成、分析、數(shù)據(jù)挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。 Pentaho的發(fā)行,主要以Pentaho SDK的形式進行。
Pentaho SDK共包含五個部分:Pentaho平臺、Pentaho示例數(shù)據(jù)庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和一個預先配制好的 Pentaho網(wǎng)絡服務器。其中Pentaho平臺是Pentaho平臺最主要的部分,囊括了Pentaho平臺源代碼的主體;Pentaho數(shù)據(jù)庫為 Pentaho平臺的正常運行提供的數(shù)據(jù)服務,包括配置信息、Solution相關的信息等等,對于Pentaho平臺來說它不是必須的,通過配置是可以用其它數(shù)據(jù)庫服務取代的;可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例,它演示了如何使Pentaho平臺在沒有應用服務器支持的情況下獨立運行;
Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平臺開發(fā)相關的商業(yè)智能解決方案。
Pentaho BI 平臺構建于服務器,引擎和組件的基礎之上。這些提供了系統(tǒng)的J2EE 服務器,安全,portal,工作流,規(guī)則引擎,圖表,協(xié)作,內容管理,數(shù)據(jù)集成,分析和建模功能。這些組件的大部分是基于標準的,可使用其他產品替換之。
4.7 SAS Enterprise Miner
§ 支持整個數(shù)據(jù)挖掘過程的完備工具集
§ 易用的圖形界面,適合不同類型的用戶快速建模
§ 強大的模型管理和評估功能
§ 快速便捷的模型發(fā)布機制, 促進業(yè)務閉環(huán)形成
五、數(shù)據(jù)分析算法
大數(shù)據(jù)分析主要依靠機器學習和大規(guī)模計算。機器學習包括監(jiān)督學習、非監(jiān)督學習、強化學習等,而監(jiān)督學習又包括分類學習、回歸學習、排序學習、匹配學習等(見圖1)。分類是最常見的機器學習應用問題,比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網(wǎng)頁歸類等,本質上都是分類問題。分類學習也是機器學習領域,研究最徹底、使用最廣泛的一個分支。
最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,機器學習頂級期刊)雜志發(fā)表了一篇有趣的論文。他們讓179種不同的分類學習方法(分類學習算法)在UCI 121個數(shù)據(jù)集上進行了“大比武”(UCI是機器學習公用數(shù)據(jù)集,每個數(shù)據(jù)集的規(guī)模都不大)。結果發(fā)現(xiàn)Random Forest(隨機森林)和SVM(支持向量機)名列第一、第二名,但兩者差異不大。在84.3%的數(shù)據(jù)上、Random Forest壓倒了其它90%的方法。也就是說,在大多數(shù)情況下,只用Random Forest 或 SVM事情就搞定了。
https://github.com/linyiqun/DataMiningAlgorithm
KNN
K最近鄰算法。給定一些已經(jīng)訓練好的數(shù)據(jù),輸入一個新的測試數(shù)據(jù)點,計算包含于此測試數(shù)據(jù)點的最近的點的分類情況,哪個分類的類型占多數(shù),則此測試點的分類與此相同,所以在這里,有的時候可以復制不同的分類點不同的權重。近的點的權重大點,遠的點自然就小點。詳細介紹鏈接
Naive Bayes
樸素貝葉斯算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡單的分類算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉換推導。詳細介紹鏈接
樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。通俗來說,就好比這么個道理,你在街上看到一個黑人,我問你你猜這哥們哪里來的,你十有八九猜非洲。為什么呢 因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。
SVM
支持向量機算法。支持向量機算法是一種對線性和非線性數(shù)據(jù)進行分類的方法,非線性數(shù)據(jù)進行分類的時候可以通過核函數(shù)轉為線性的情況再處理。其中的一個關鍵的步驟是搜索最大邊緣超平面。詳細介紹鏈接
Apriori
Apriori算法是關聯(lián)規(guī)則挖掘算法,通過連接和剪枝運算挖掘出頻繁項集,然后根據(jù)頻繁項集得到關聯(lián)規(guī)則,關聯(lián)規(guī)則的導出需要滿足最小置信度的要求。詳細介紹鏈接
PageRank
網(wǎng)頁重要性/排名算法。PageRank算法最早產生于Google,核心思想是通過網(wǎng)頁的入鏈數(shù)作為一個網(wǎng)頁好快的判定標準,如果1個網(wǎng)頁內部包含了多個指向外部的鏈接,則PR值將會被均分,PageRank算法也會遭到LinkSpan攻擊。詳細介紹鏈接
RandomForest
隨機森林算法。算法思想是決策樹+boosting.決策樹采用的是CART分類回歸數(shù),通過組合各個決策樹的弱分類器,構成一個最終的強分類器,在構造決策樹的時候采取隨機數(shù)量的樣本數(shù)和隨機的部分屬性進行子決策樹的構建,避免了過分擬合的現(xiàn)象發(fā)生。詳細介紹鏈接
Artificial Neural Network
“神經(jīng)網(wǎng)絡”這個詞實際是來自于生物學,而我們所指的神經(jīng)網(wǎng)絡正確的名稱應該是“人工神經(jīng)網(wǎng)絡(ANNs)”。
人工神經(jīng)網(wǎng)絡也具有初步的自適應與自組織能力。在學習或訓練過程中改變突觸權重值,以適應周圍環(huán)境的要求。同一網(wǎng)絡因學習方式及內容不同可具有不同的功能。人工神經(jīng)網(wǎng)絡是一個具有學習能力的系統(tǒng),可以發(fā)展知識,以致超過設計者原有的知識水平。通常,它的學習訓練方式可分為兩種,一種是有監(jiān)督或稱有導師的學習,這時利用給定的樣本標準進行分類或模仿;另一種是無監(jiān)督學習或稱無為導師學習,這時,只規(guī)定學習方式或某些規(guī)則,則具體的學習內容隨系統(tǒng)所處環(huán)境 (即輸入信號情況)而異,系統(tǒng)可以自動發(fā)現(xiàn)環(huán)境特征和規(guī)律性,具有更近似人腦的功能。
六、 案例
6.1 啤酒與尿布
“啤酒與尿布”的故事產生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯(lián)關系的關聯(lián)算法,并根據(jù)商品之間的關系,找出客戶的購買行為。艾格拉沃從數(shù)學及計算機算法角度提 出了商品關聯(lián)關系的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior算法引入到 POS機數(shù)據(jù)分析中,并獲得了成功,于是產生了“啤酒與尿布”的故事。
6.2 數(shù)據(jù)分析幫助辛辛那提動物園提高客戶滿意度
辛辛那提動植物園成立于1873年,是世界上著名的動植物園之一,以其物種保護和保存以及高成活率繁殖飼養(yǎng)計劃享有極高聲譽。它占地面積71英畝,園內有500種動物和3000多種植物,是國內游客人數(shù)最多的動植物園之一,曾榮獲Zagat十佳動物園,并被《父母》(Parent)雜志評為最受兒童喜歡的動物園,每年接待游客130多萬人。
辛辛那提動植物園是一個非營利性組織,是俄亥州同時也是美國國內享受公共補貼最低的動植物園,除去政府補貼,2600萬美元年度預算中,自籌資金部分達到三分之二以上。為此,需要不斷地尋求增加收入。而要做到這一點,最好辦法是為工作人員和游客提供更好的服務,提高游覽率。從而實現(xiàn)動植物園與客戶和納稅人的雙贏。
借助于該方案強大的收集和處理能力、互聯(lián)能力、分析能力以及隨之帶來的洞察力,在部署后,企業(yè)實現(xiàn)了以下各方面的受益:
幫助動植物園了解每個客戶瀏覽、使用和消費模式,根據(jù)時間和地理分布情況采取相應的措施改善游客體驗,同時實現(xiàn)營業(yè)收入最大化。
根據(jù)消費和游覽行為對動植物園游客進行細分,針對每一類細分游客開展營銷和促銷活動,顯著提高忠誠度和客戶保有量。.
識別消費支出低的游客,針對他們發(fā)送具有戰(zhàn)略性的直寄廣告,同時通過具有創(chuàng)意性的營銷和激勵計劃獎勵忠誠客戶。
360度全方位了解客戶行為,優(yōu)化營銷決策,實施解決方案后頭一年節(jié)省40,000多美元營銷成本,同時強化了可測量的結果。
采用地理分析顯示大量未實現(xiàn)預期結果的促銷和折扣計劃,重新部署資源支持產出率更高的業(yè)務活動,動植物園每年節(jié)省100,000多美元。
通過強化營銷提高整體游覽率,2011年至少新增50,000人次“游覽”。
提供洞察結果強化運營管理。例如,即將關門前冰激淋銷售出現(xiàn)高潮,動植物園決定延長冰激淋攤位營業(yè)時間,直到關門為止。這一措施夏季每天可增加2,000美元收入。
與上年相比,餐飲銷售增加30.7%,零售銷售增加5.9%。
動植物園高層管理團隊可以制定更好的決策,不需要 IT 介入或提供支持。
將分析引入會議室,利用直觀工具幫助業(yè)務人員掌握數(shù)據(jù)。
6.3 云南昭通警察打中學生事件輿情分析
起因:
5月20日,有網(wǎng)友在微博上爆料稱:云南昭通魯?shù)槎谐醵W生孔德政,對著3名到該校出警并準備上車返回的警察說了一句“打電話那個,下來”,車內的兩名警員聽到動靜后下來,追到該學生后就是一頓拳打腳踢。
5月26日,昭通市魯?shù)榭h公安局新聞辦回應此事:魯?shù)榭h公安局已對當事民警停止執(zhí)行職務,對毆打學生的兩名協(xié)警作出辭退處理,并將根據(jù)調查情況依法依規(guī)作進一步處理。同時,魯?shù)榭h公安局將加大隊伍教育管理力度,堅決防止此類事件的再次發(fā)生。
經(jīng)過:
5月26日,事件的輿情熱度急劇上升,媒體報道內容側重于“班主任稱此學生平時愛起哄學習成績差”“被打學生的同學去派出所討說法”“學校要求學生刪除照片”等方面,而學校要求刪除圖片等行為的曝光讓事件輿情有擴大化趨勢。
5月26日晚間,新華網(wǎng)發(fā)布新聞《警方回應“云南一學生遭2名警察暴打”:民警停職協(xié)警辭退》,中央主流網(wǎng)絡媒體公布官方處置結果,網(wǎng)易、新浪、騰訊等門戶網(wǎng)站予以轉發(fā),從而讓官方的處置得以較大范圍傳播。
昭通警察打中學生事件輿論關注度走勢(抽樣條數(shù):290條)
總結:
“警察打學生,而且有圖有真相,在事發(fā)5天后,昭通市魯?shù)榭h警方最終還是站在了輿論的風口浪尖。事發(fā)后當?shù)毓俜椒e極回應,并于5月26日將涉事人予以處理,果斷的責任切割較為有效地撫平了輿論情緒,從而較好地化解了此次輿論危機。
從事件的傳播來看,事發(fā)時間是5月20日,輿論熱議則出現(xiàn)在25日,4天的平靜期讓魯?shù)榫较氘斎坏匾詾槭录痛肆私Y,或許當事人都已淡忘此事。如果不是云南當?shù)鼗钴S網(wǎng)友“直播云南”于5月25日發(fā)布關于此事的消息,并被當?shù)貍鹘y(tǒng)媒體《生活新報》關注的話,事情或許真的就此結束,然而輿情發(fā)展不允許假設的存在。這一點,至少給我們以警示,對微博等自媒體平臺上的負面信息要實時監(jiān)測,對普通草根要監(jiān)測,對本地實名認證的活躍網(wǎng)友更需監(jiān)測。從某種角度看,本地實名認證的網(wǎng)友是更為強大的“輿論發(fā)動機”,負面消息一旦經(jīng)他們發(fā)布或者轉發(fā),所帶來的傳播和形成的輿論壓力更大。
在此事件中,校方也扮演著極為重要的角色。無論是被打學生的班主任,還是學校層面,面對此事件的回應都欠妥當。學校層面的“刪除照片”等指示極易招致網(wǎng)友和學生的反感,在此反感情緒下,只會加劇學生傳播事件的沖動。班主任口中該學生“學習不好、愛起哄”等負面印象被理解成“該學生活該被打”,在教師整體形象不佳的背景下,班主任的這些言論是責任感缺失的一種體現(xiàn)。校方和班主任的不恰當行為讓事件處置難度和輿論引導難度明顯增加,實在不該。“ — 人民網(wǎng)輿情監(jiān)測室主任輿情分析師 朱明剛
七、大數(shù)據(jù)云圖展示
來源:36大數(shù)據(jù)
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關于醫(yī)
-
2數(shù)據(jù)軟件產品和服務商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
7#榜樣的力量#內蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構建工業(yè)互聯(lián)網(wǎng)新