有價(jià)信息的分布與冗余的數(shù)據(jù)泡沫:簡(jiǎn)析用矩陣QR分解來評(píng)估大數(shù)據(jù)價(jià)值
【數(shù)據(jù)猿導(dǎo)讀】 隨著互聯(lián)網(wǎng)的普及,不同的企業(yè)收集了各個(gè)行業(yè)海量的數(shù)據(jù)。對(duì)于一個(gè)不算最新但仍并不成熟的領(lǐng)域,我們需要理解其本質(zhì),在之前的分享中我已向大家介紹過大數(shù)據(jù)的意義,那么今天則來進(jìn)一步剖析一下對(duì)于大數(shù)據(jù)的理解深度

在2016年互聯(lián)網(wǎng)驅(qū)動(dòng)的市場(chǎng)不斷降溫的環(huán)境中,大數(shù)據(jù)企業(yè)卻逆勢(shì)迭代,越來越多地涌現(xiàn)出來進(jìn)入我們的視野。對(duì)于一個(gè)不算最新但仍并不成熟的領(lǐng)域,我們需要理解其本質(zhì),在之前的分享中我已向大家介紹過大數(shù)據(jù)的意義,那么今天則來進(jìn)一步剖析一下對(duì)于大數(shù)據(jù)的理解深度。
隨著互聯(lián)網(wǎng)的普及,不同的企業(yè)收集了各個(gè)行業(yè)海量的數(shù)據(jù)。數(shù)據(jù)猶如礦山,里面的內(nèi)涵價(jià)值有待于我們?nèi)ラ_采,而數(shù)據(jù)量就猶如礦石儲(chǔ)量,掌握更多的數(shù)據(jù)已經(jīng)成為了企業(yè)生存競(jìng)爭(zhēng)的基石和進(jìn)入下一個(gè)商業(yè)時(shí)代的入場(chǎng)券。在過往十余年互聯(lián)網(wǎng)的野蠻生長(zhǎng)過程中,中國(guó)市場(chǎng)的數(shù)據(jù)存量已經(jīng)趕比美國(guó),遠(yuǎn)遠(yuǎn)超過其他國(guó)家;對(duì)于各行業(yè)新興的企業(yè)家,對(duì)數(shù)據(jù)的收集意識(shí)也在不斷增強(qiáng),一輪新的圈地競(jìng)賽早已拉開帷幕。
這個(gè)并沒有錯(cuò),然而大數(shù)據(jù)這個(gè)行業(yè)也和歷史的每個(gè)階段一樣,大家都本著先圈再說的原則,已經(jīng)在大數(shù)據(jù)的價(jià)值意義上漸行漸遠(yuǎn)。 少有人意識(shí)到大數(shù)據(jù)更重要的其實(shí)本應(yīng)是信息密度的價(jià)值和存量數(shù)據(jù)的有效性。
數(shù)據(jù)從某種角度上來講,并非越多越好。用簡(jiǎn)單地定義來說應(yīng)該是越全越好,在當(dāng)你無法獲得更全面的數(shù)據(jù)體系時(shí),才是越多越好。全,是一個(gè)戰(zhàn)略的運(yùn)籌;多,只不過是體力活兒罷了。簡(jiǎn)單的數(shù)據(jù)企業(yè)拼盡全力拓展渠道積累囤儲(chǔ)數(shù)據(jù); 出色的數(shù)據(jù)智能化企業(yè)則不斷擴(kuò)展數(shù)據(jù)維度。
什么叫數(shù)據(jù)維度?舉幾個(gè)栗子:
1、如果你是柯南去破解一個(gè)案件,你不可能只蹲點(diǎn)據(jù)守觀察嫌疑人的日常行蹤,你還要去了解他的網(wǎng)絡(luò)相關(guān)信息,想方設(shè)法獲得他的對(duì)話內(nèi)容,了解個(gè)人歷史經(jīng)歷,打探感情親情關(guān)系,獲取各類交易數(shù)據(jù),比如不同渠道下有關(guān)于他的衣食住行的情報(bào)。破案本身就是用大數(shù)據(jù)信息逆向勾勒原型的過程,信息收集的要點(diǎn)并不是集中而反倒是分散。
2、去年我去硅谷的最大收獲,并不是參觀Google X,進(jìn)到蘋果總部,直面張首晟教授,跟各知名孵化器和VC的創(chuàng)始人聊天,而是和一個(gè)名不見經(jīng)傳VC的創(chuàng)始人,一位使用標(biāo)準(zhǔn)蹩腳英語(yǔ)的印度老兄聊了一下午的經(jīng)歷。他向我講述了在書本、新聞以及成功人士履歷中看不到的各種坑和行業(yè)困難,從一個(gè)基因完全不同的第三人稱視角講述了另一種掙扎前行的美國(guó)生活。這一經(jīng)歷讓我對(duì)美國(guó)創(chuàng)投市場(chǎng)的認(rèn)識(shí)立刻變得更加立體,從二維的光鮮色彩變成了三維的鐵塑雕像,雖缺乏原來純粹的美感,但卻展現(xiàn)了立體的真實(shí)。
3、互聯(lián)網(wǎng)公司都在使用大數(shù)據(jù)描繪人物畫像和企業(yè)畫像,不同的公司具有不同的優(yōu)勢(shì)和使命,然而市場(chǎng)中真正擁有"上帝之眼"的企業(yè)卻少之又少。大多數(shù)企業(yè)的主體數(shù)據(jù)都是基于單一業(yè)務(wù)所收集的,LBS,TBS,餐飲BS,車行BS,交易BS....企業(yè)們?cè)诿總€(gè)數(shù)據(jù)賽道下為了形成壟斷壁壘(其實(shí)互聯(lián)網(wǎng)行業(yè)的壟斷效應(yīng)會(huì)弱化很多)都在不斷地并購(gòu)以形成更大體量的行業(yè)龍頭,然而在這個(gè)過程中 所收集數(shù)據(jù)的有效性卻呈明顯的邊際遞減趨勢(shì),數(shù)據(jù)體量雖然龐大,但其價(jià)值并不能有效提高,產(chǎn)生了大量的數(shù)據(jù)泡沫。為了獲取更精準(zhǔn)的用戶畫像(以指導(dǎo)商業(yè)行為),企業(yè)們意識(shí)到企業(yè)間的數(shù)據(jù)合作趨勢(shì)在必行, 只有獲取每個(gè)用戶不同方向下的行為習(xí)慣才有可能突破對(duì)單一數(shù)據(jù)分析的瓶頸,進(jìn)一步獲得深度的智能畫像。
于是2016年中涌現(xiàn)出了很多大數(shù)據(jù)服務(wù)公司來嘗試解決數(shù)據(jù)搬運(yùn)工作, 然而這其中的商業(yè)合規(guī)性、數(shù)據(jù)標(biāo)準(zhǔn)性、有效信息密度的一致性,在一定時(shí)期內(nèi)都是復(fù)雜和繁雜的難題工作。
數(shù)據(jù)維度就好比不同的感官能力,維度少而數(shù)據(jù)多就如同一臺(tái)電腦具有超高的屏幕分辨率而沒有音響揚(yáng)聲器。數(shù)據(jù)維度越多越全面,所展現(xiàn)的事物畫像才能越清晰。對(duì)于事物的分析就是如此。
在觀察大數(shù)據(jù)企業(yè)時(shí), 數(shù)據(jù)的非集中性是和數(shù)據(jù)體量同等重要的一個(gè)判斷指標(biāo)。而不幸的是,目前我們所關(guān)注的很多大數(shù)據(jù)企業(yè)所擁有的數(shù)據(jù)體系,從數(shù)學(xué)理解上都屬于局部密集的稀疏矩陣數(shù)據(jù)體系,這對(duì)于了解和分析數(shù)據(jù)體系下的事物規(guī)律是不夠理想的。 除具備全方位密集的完整數(shù)據(jù)群之外,較為理想的數(shù)據(jù)體系是均勻和完備的,在數(shù)學(xué)分析中這種情形稱之為正交矩陣。
(正交的意義實(shí)際上就是垂直,若a·b=0,則a⊥b,正交矩陣的意義就是每?jī)蓚€(gè)向量在n維空間下兩兩正交,這個(gè)向量組我們稱之為該空間下的一組正交基;例如我們常用的垂直直角坐標(biāo)系xyz就是三維空間下的一組正交基,而不垂直的一組非正交基e1e2e3所組成的笛卡爾坐標(biāo)系仍然也可以表達(dá)該空間的各個(gè)點(diǎn)位,然而在數(shù)據(jù)有效性上則不比xyz垂直坐標(biāo)系,e1e2e3的相關(guān)性越高,數(shù)據(jù)表達(dá)的有效性就越低。)
在實(shí)際生活中和企業(yè)的商業(yè)行為中,我們所收集的數(shù)據(jù)體系往往都是不標(biāo)準(zhǔn)、噪音大、不完備、不夠正交的原始數(shù)據(jù)。如果不加處理、判斷、清洗、簡(jiǎn)化、歸類、比對(duì)、變換和集成,數(shù)據(jù)的有效性是非常低下的。大數(shù)據(jù)時(shí)代下的企業(yè)如果需要繼續(xù)進(jìn)化突破瓶頸,更多留給我們的既不是進(jìn)行數(shù)據(jù)爭(zhēng)奪,也不是算法比拼(其實(shí)有很多可用于商業(yè)化的算法和程序經(jīng)驗(yàn)從學(xué)術(shù)上看是相對(duì)簡(jiǎn)單和成熟的),而卻是一個(gè)相對(duì)枯燥的苦工活兒,就是數(shù)據(jù)清洗和整合。
這好比擇菜,買菜是收集數(shù)據(jù)過程,做菜是算法處理過程,然而對(duì)于大數(shù)據(jù)來講,最麻煩的就是這個(gè)擇菜了。在美國(guó),已經(jīng)有越來越多的尖端數(shù)據(jù)公司和人才投入到了數(shù)據(jù)清洗的這一苦工行列;對(duì)于中國(guó)的市場(chǎng)環(huán)境,這同樣是一個(gè)的不可回避和沒有捷徑的問題。
回到正交矩陣的這個(gè)問題,它其實(shí)上反映的是 數(shù)據(jù)的全面性程度 。當(dāng)我們意識(shí)到大數(shù)據(jù)的這個(gè)問題后,我們還有兩項(xiàng)工作要做:
1、憑借社會(huì)化經(jīng)驗(yàn)收集盡量全面和立體的多維數(shù)據(jù);
2、把收集上來的數(shù)據(jù)進(jìn)行正交化和簡(jiǎn)化處理。這樣才能有助于我們理性地一個(gè)個(gè)攻克不同事物畫像的分析。
其中對(duì)于第2點(diǎn),在學(xué)習(xí)高等數(shù)學(xué)數(shù)值計(jì)算分析中記得存在這樣一個(gè)定理:矩陣QR分解——任何一個(gè)非奇異矩陣都可以分解為一個(gè)正交陣Q和一個(gè)上三角陣R(上三角陣是除了對(duì)角陣之外一個(gè)比較理想的簡(jiǎn)化情形)的乘積,這恰好解決了我們的問題。
大數(shù)據(jù)時(shí)代下,我們?cè)絹碓匠两跀?shù)據(jù)和依賴于數(shù)據(jù),讓數(shù)據(jù)說話發(fā)揮價(jià)值。然而數(shù)據(jù)本身具備它自己的習(xí)性,我們需要深度理解而不能迷信。在生活和商業(yè)中我們開始用數(shù)據(jù)進(jìn)行交易,用數(shù)據(jù)來做定價(jià),為數(shù)據(jù)支付我們的資本和精力。我們需要減少同質(zhì)化數(shù)據(jù)的收集過程,增加有效用數(shù)據(jù)的收集、提煉和整理,做有效化和智能化數(shù)據(jù)的朋友。
關(guān)于星瀚資本:
星瀚資本是一家專注價(jià)值投資、創(chuàng)新理念、產(chǎn)業(yè)結(jié)合的專業(yè)風(fēng)險(xiǎn)投資機(jī)構(gòu);星瀚資本重點(diǎn)關(guān)注跨界融合和顛覆性創(chuàng)新的機(jī)遇,匯集各行各業(yè)優(yōu)質(zhì)資源,投資TMT與影視文化領(lǐng)域中具備良好發(fā)展前景的中早期企業(yè)。
來源:星瀚資本
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新