如何避免大數(shù)據(jù)分析失敗
【數(shù)據(jù)猿導讀】 大數(shù)據(jù)和分析方案也可能產(chǎn)生巨大的錯誤,導致浪費大量資金和時間,更不必說會流失一些有才華的技術(shù)專家,他們已經(jīng)厭倦了在這種管理不善的環(huán)境中工作,令他們沮喪。

遵照以下6種最佳方法,可以打破競爭,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
大數(shù)據(jù)和分析方案可以改變游戲規(guī)則,為您提供洞察力,幫助您打破競爭,創(chuàng)造新的收入來源,更好地為客戶服務(wù)。
大數(shù)據(jù)和分析方案也可能產(chǎn)生巨大的錯誤,導致浪費大量資金和時間,更不必說會流失一些有才華的技術(shù)專家,他們已經(jīng)厭倦了在這種管理不善的環(huán)境中工作,令他們沮喪。
如何避免大數(shù)據(jù)分析失敗呢 從基本的業(yè)務(wù)管理角度來看,有一些最佳做法是顯而易見的:一定要有公司最高層管理人員的支持,確保所需的全部技術(shù)投資獲得足夠的資金,并引入具有專業(yè)知識的人才和/或提供良好的培訓。如果你沒有先解決這些基礎(chǔ)問題,那么沒有什么比這更重要了。
假設(shè)您已經(jīng)解決了這些基礎(chǔ)問題,大數(shù)據(jù)分析的成功與失敗之間的區(qū)別在于如何處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。 您可以做以下幾點來確保大數(shù)據(jù)分析的成功。
1. 慎重選擇您的大數(shù)據(jù)分析工具
許多技術(shù)上的失敗源于公司購買和實施的產(chǎn)品,這些產(chǎn)品經(jīng)過實踐證明是非常糟糕的,完全不適合公司想要實現(xiàn)的目標。任何供應(yīng)商都會用“大數(shù)據(jù)”或“高級分析方法”這些詞來描述他們的產(chǎn)品,試圖利用這些術(shù)語來大肆宣傳。
但產(chǎn)品的質(zhì)量和效率以及側(cè)重點,都有很大的不同。因此,即使你選擇了一種技術(shù)上很強的產(chǎn)品,但它可能不是你真正需要的產(chǎn)品。
幾乎所有大數(shù)據(jù)分析工具都需要具有的一些基本功能,例如數(shù)據(jù)轉(zhuǎn)換和存儲架構(gòu)(如hadoop和Apache Spark)。但是,在大數(shù)據(jù)分析領(lǐng)域也有多個細分領(lǐng)域,所以您必須為您的技術(shù)戰(zhàn)略實際涉及的這些細分領(lǐng)域購買產(chǎn)品。這些細分領(lǐng)域包括流程挖掘、預(yù)測分析、實時解決方案、人工智能和商業(yè)智能控制面板。
在決定購買任何大數(shù)據(jù)分析產(chǎn)品或存儲平臺之前,您需要先了解真正的業(yè)務(wù)需求和問題,然后選擇那些能有效解決這些具體問題的產(chǎn)品。
例如,由于編譯龐大的數(shù)據(jù)集很復雜,您會選擇認知大數(shù)據(jù)產(chǎn)品,例如采用人工智能分析方法來分析非結(jié)構(gòu)化數(shù)據(jù)。但是,您不會將認知工具用于分析結(jié)構(gòu)化和標準化數(shù)據(jù),因此您可以選擇眾多分析產(chǎn)品中的一個來實施,以更合理的價格產(chǎn)生實時高質(zhì)量的洞察力,電信公司(沃達豐)大數(shù)據(jù)的全球流程負責人,來自以色列的埃斯波西托(Exposito)說道。
埃斯波西托說,在為您的生產(chǎn)環(huán)境選擇產(chǎn)品之前,至少要使用兩種產(chǎn)品來運行驗證其設(shè)計概念,這是明智的。該產(chǎn)品還應(yīng)該能夠與您的企業(yè)相關(guān)平臺進行交互。
每個大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)數(shù)據(jù)模型。這是項目最重要的部分。因此,您需要確保系統(tǒng)集成商和業(yè)務(wù)主題專家能夠攜手合作?;ㄐr間,第一次就把該項工作做好。
一定要記住,這很重要,正確的數(shù)據(jù)應(yīng)該始終可以使用并轉(zhuǎn)換為商業(yè)語言,因此用戶會完全理解輸出的結(jié)果,從而可以使用它來尋找商機或進行流程改善。
2.確保工具易于使用
大數(shù)據(jù)和高級分析方法很復雜,但是商業(yè)用戶用于訪問和理解數(shù)據(jù)的產(chǎn)品則不需要很復雜。
為商業(yè)分析團隊提供簡單有效的工具,用于數(shù)據(jù)發(fā)現(xiàn)以及分析和使數(shù)據(jù)可視化。
莎倫·格拉芙(Sharon Graves)說,對于域名注冊商GoDaddy來說,找到適合的組合工具并不容易,該公司使用商業(yè)智能工具—evangelist進行企業(yè)數(shù)據(jù)分析。該工具必須可以方便快速地進行可視化,而且可以進行深入數(shù)據(jù)分析。GoDaddy公司能夠找到一些產(chǎn)品,可以讓商業(yè)用戶輕松獲取適當?shù)臄?shù)據(jù),然后自行生成可視化數(shù)據(jù)。這樣就可以使分析團隊解放出來,進行更高級的分析工作。
最重要的是,不要向非技術(shù)性商業(yè)用戶提供程序員級別的工具。他們會由此變得沮喪,可能會使用以前的工具,而這些工具是無法勝任工作要求的(否則,你不會有大數(shù)據(jù)分析項目)。
3.使項目和數(shù)據(jù)與實際業(yè)務(wù)需求吻合
大數(shù)據(jù)分析工作可能失敗的另一個原因是分析工作最終用來搜索并不存在的問題。信息服務(wù)供應(yīng)商益博睿(Experian)的全球數(shù)據(jù)實驗室(Global Data Labs)首席科學家Shanji Xiong說,這就是為什么你必須將想解決的商業(yè)難題或需求建立在正確的分析問題上。
關(guān)鍵是在項目的初期讓具有很強數(shù)據(jù)分析背景的主題專家與數(shù)據(jù)科學家合作來界定問題。
以下是益博睿公司的大數(shù)據(jù)分析方案的一個例子。當制定分析解決方案來打擊身份欺詐時,所面臨的挑戰(zhàn)可能是評估各項個人身份信息(PII)是否合法,例如姓名、地址和社會保險號碼等?;蛘呙媾R的另一個挑戰(zhàn)可能是當一個客戶使用一組身份信息申請貸款,評估該客戶是否是那些身份信息的合法所有者?;蛘哌@兩種挑戰(zhàn)可能同時存在。
第一個挑戰(zhàn)是“偽造身份”問題,這需要建立一個分析模型來評估在客戶或個人身份信息級別開發(fā)的偽造身份的風險,Xiong說道。第二個挑戰(zhàn)是申請欺詐問題,欺詐風險評估分數(shù)需要在應(yīng)用程序?qū)用骈_發(fā)出來。益博睿公司不得不將這些問題理解為不同的問題,盡管這些問題可能在最初被看作是同一個問題,只是以不同方式陳述,然后創(chuàng)建正確的模型,進行分析來解決這些問題。
當一組個人身份信息提交給兩家金融機構(gòu)來申請貸款時,通常是返回兩個相同的綜合風險分數(shù),但通常這不是申請欺詐評分的必要特征,Xiong說道。
正確的算法必須應(yīng)用于正確的數(shù)據(jù),以獲取商業(yè)智能并進行準確的預(yù)測。在建模過程中收集和包含相關(guān)數(shù)據(jù)集幾乎總是比微調(diào)機器學習算法更重要,因此數(shù)據(jù)工作應(yīng)該被視為首要任務(wù)。
4.建立一個數(shù)據(jù)湖,不要吝嗇帶寬
正如大數(shù)據(jù)的含義,其涉及海量的數(shù)據(jù)。在過去,很少有組織可以存儲這么多的數(shù)據(jù),更不用說來整理和分析數(shù)據(jù)了。但當今,高性能存儲技術(shù)和大規(guī)模并行處理在云端和通過組織內(nèi)部系統(tǒng)來部署得到廣泛使用。
但是,存儲本身還是不夠的。您需要一種方法來處理不同類型的數(shù)據(jù),將這些數(shù)據(jù)輸入給大數(shù)據(jù)分析工具。這就是Apache Hadoop的卓越功能,它允許對海量的不同類型的數(shù)據(jù)集進行存儲和映射。這些存儲庫通常被稱為數(shù)據(jù)湖。一個真正的湖泊通常是由多條溪流匯聚形成,它包含許多種植物、魚類和其他動物。而一個數(shù)據(jù)湖通常由多個數(shù)據(jù)源提供數(shù)據(jù),并且包含許多類型的數(shù)據(jù)。
但數(shù)據(jù)湖不應(yīng)該是數(shù)據(jù)的垃圾場。亞利桑那州立大學研究計算主管Jay Etchings說,您需要考慮如何聚合數(shù)據(jù),以有意義的方式擴展屬性。數(shù)據(jù)可能是不同的,但是如何使用可靠的數(shù)據(jù)架構(gòu)來利用MapReduce和Apache Spark等工具對數(shù)據(jù)進行轉(zhuǎn)換用于分析。
創(chuàng)建一個數(shù)據(jù)湖,在數(shù)據(jù)湖中進行數(shù)據(jù)獲取,數(shù)據(jù)索引和數(shù)據(jù)規(guī)范化,這些都是大數(shù)據(jù)策略的精心規(guī)劃的組件。Etchings表示,如果沒有清晰明確的藍圖,大多數(shù)數(shù)據(jù)密集型方案將注定失敗。
同樣,擁有足夠的帶寬至關(guān)重要,否則數(shù)據(jù)將不會從各種來源匯聚到數(shù)據(jù)湖中,并且商業(yè)用戶擁有足夠的帶寬是非常有益的。Etchings說,為了實現(xiàn)擁有海量數(shù)據(jù)資源的承諾,不僅需要配備可實現(xiàn)每秒讀取數(shù)百萬次(IOPS)的快速磁盤,而且還需要配備可以在數(shù)據(jù)生成時輕松訪問數(shù)據(jù)的互連節(jié)點和處理引擎。
從社交媒體趨勢到流量路由,速度對于實時分析尤其重要。所以在最快速的互聯(lián)網(wǎng)絡(luò)中創(chuàng)建你的數(shù)據(jù)湖。
5.在大數(shù)據(jù)的各個方面規(guī)劃安全措施
計算基礎(chǔ)設(shè)施組件的高度異質(zhì)性大大增加了組織機構(gòu)從數(shù)據(jù)中獲取洞察力的能力。但是有一個缺點:Etchings說,系統(tǒng)的管理和安全性變得更加復雜。伴隨著海量的數(shù)據(jù)和多數(shù)大數(shù)據(jù)分析系統(tǒng)上運行的任務(wù)日益重要,在保護系統(tǒng)和數(shù)據(jù)方面未能采取足夠的預(yù)防措施,這在很大程度上是在自找麻煩。
公司收集、存儲、分析和共享的大部分數(shù)據(jù)都是客戶信息,其中一些是個人身份信息和可識別的信息。如果這些數(shù)據(jù)落入不法分子的手中,結(jié)果是可預(yù)測的:法律訴訟導致金錢損失和可能引發(fā)的監(jiān)管處罰,引起品牌和聲譽受損,以及客戶的不滿。
您的安全措施應(yīng)包括部署基本的企業(yè)工具:盡可能實行數(shù)據(jù)加密,身份和訪問管理以及網(wǎng)絡(luò)安全。但是,您的安全措施還應(yīng)包括策略執(zhí)行以及有關(guān)正確訪問和使用數(shù)據(jù)的培訓。
6.把數(shù)據(jù)管理和質(zhì)量列為頭等大事
確保良好的數(shù)據(jù)管理和質(zhì)量應(yīng)該是所有大數(shù)據(jù)分析項目的特征,否則失敗的可能性就會更大。
您需要對其進行控制,以確保數(shù)據(jù)及時更新、并能準確且及時地傳送。作為GoDaddy公司大數(shù)據(jù)方案的一部分,當數(shù)據(jù)更新失敗或運行遲緩時,該公司預(yù)警機制會通知管理員。此外,GoDaddy公司已經(jīng)開始對關(guān)鍵指標進行了數(shù)據(jù)質(zhì)量檢查,當這些指標不符合預(yù)期時會發(fā)出警報。
確保數(shù)據(jù)質(zhì)量和管理的重要組成部分是雇用熟練的數(shù)據(jù)管理專業(yè)人員,包括數(shù)據(jù)管理主管或其他高管來監(jiān)督這些領(lǐng)域。鑒于這些舉措的戰(zhàn)略重要性,企業(yè)對數(shù)據(jù)管理、使用、治理和策略的數(shù)據(jù)所有權(quán)迫切需要。
來源:CIO時代網(wǎng)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新