在“熱概念”下“冷思考”的公安大數(shù)據(jù)
【數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)這段時(shí)間已經(jīng)炒熱到了極點(diǎn),但是,炒概念的要遠(yuǎn)遠(yuǎn)多于落地能發(fā)揮實(shí)際作用的,在很多領(lǐng)域包括公安。南京世紀(jì)橋軟件CEO李偉將會(huì)帶我們一起冷靜下來思考,大數(shù)據(jù)到底能給我們帶來什么?大數(shù)據(jù)真正的現(xiàn)狀又是什么樣子以及大數(shù)據(jù)未來的發(fā)展方向

前面已經(jīng)有幾位專家講了大數(shù)據(jù)的技術(shù),還有一些解決方案,但我今天不想和大家談技術(shù),因?yàn)楣泊?a class="link-bottom" href="http://localhost:8080/hcrBigDataWeb/search?q=大數(shù)據(jù)應(yīng)用" target="_blank">大數(shù)據(jù)應(yīng)用,肯定是一些成熟技術(shù)在這一行業(yè)的應(yīng)用,如果需要進(jìn)行底層技術(shù)的革新,就公安行業(yè)目前現(xiàn)狀肯定是玩不了這個(gè),剛剛小艾跟我聊天說了一句很經(jīng)典的話:每一次公安行業(yè)的革新都是起源于技術(shù),寄希望單靠技術(shù)就能夠把工作翻個(gè)身,但是,最后的結(jié)果往往也是死于技術(shù),或者說被所謂的技術(shù)給玩死了。
我在公安機(jī)關(guān)管了十多年的行業(yè)軟件研發(fā)和推廣應(yīng)用,現(xiàn)在又轉(zhuǎn)身成為一個(gè)軟件公司負(fù)責(zé)人,可以不夸張的講,在在座的各位老總里,我可能是最清楚公安業(yè)務(wù)的,我是從派出所民警一天天干起來的,在在座的各位公安科信部門的負(fù)責(zé)同志里,我可能又是最清楚軟件如何落地應(yīng)用以及商業(yè)推廣模式的,因此,從我跨界這一角度看公安大數(shù)據(jù),我經(jīng)常說的就是我們一定要很清醒,很冷靜。所以我為今天的演講定了一個(gè)題——大數(shù)據(jù)的“冷思考”?
南京世紀(jì)橋軟件CEO李偉
為何要說冷思考,因?yàn)榇髷?shù)據(jù)這段時(shí)間已經(jīng)炒熱到了極點(diǎn),但是,炒概念的要遠(yuǎn)遠(yuǎn)多于落地能發(fā)揮實(shí)際作用的,因此,我們是不是要冷靜一點(diǎn),看看大數(shù)據(jù)到底能給我們帶來什么?今天主要跟大家交流三個(gè)方面的內(nèi)容:一是對近些年本人參與的所謂的“大數(shù)據(jù)”的實(shí)踐進(jìn)行一個(gè)簡要回顧;二是談?wù)勎已劾锏拇髷?shù)據(jù)現(xiàn)狀;三是針對公安行業(yè)交流一些數(shù)據(jù)應(yīng)用及發(fā)展方向的思考。
這些年所謂的“大數(shù)據(jù)”歷程
為什么叫“所謂”,因?yàn)槲易约盒睦锖芮宄?,?011年開始從12億的車輛卡口數(shù)據(jù)中排查“套牌車”,到目前在想用算法來計(jì)算某類犯罪的發(fā)展趨勢,所接觸的,所使用的數(shù)據(jù)準(zhǔn)確點(diǎn)講應(yīng)該是“動(dòng)態(tài)的海量結(jié)構(gòu)化數(shù)據(jù)”。至少跟我心目中的“大數(shù)據(jù)”還有很大的差距。為什么要做這樣一個(gè)回顧,說白了,怕大家認(rèn)為我是個(gè)光說不練的江湖騙子。
第一個(gè)案例,套牌車排查。就是在12億的卡口數(shù)據(jù)中找出了三百四十五個(gè)車牌,這些車牌符合一個(gè)特征,五分鐘之內(nèi)在相距十公里以上的卡口被電子警察都拍到了。這是我第一次用HADOOP來進(jìn)行數(shù)據(jù)預(yù)處理和分析,這是在2011年初。
第二個(gè)案例,在2012年的夏天,我忽然想看一看,壞人們登記住旅館有沒有規(guī)律,因此我找來了在押人員數(shù)據(jù),匯聚了大約5個(gè)多億的旅館數(shù)據(jù),同樣用了“HADOOP+ORCLE”的套路,發(fā)現(xiàn)有盜竊前科的壞人都喜歡在半夜2點(diǎn)和凌晨六七點(diǎn)去開房,而且是19歲到23歲為主,還更傾向于床位數(shù)在50個(gè)以下的中低檔旅館,等等。
第三個(gè)案例,是特殊人員的監(jiān)控。同樣是通過車輛軌跡,判斷人員的相應(yīng)狀態(tài),因?yàn)檫@個(gè)話題比較敏感,就不詳細(xì)跟大家闡述了。
第四個(gè)案例,我把它稱為“流竄車”排查,簡單講就是基于存儲(chǔ)在異地的海量數(shù)據(jù),進(jìn)行分布式的交叉比對,目標(biāo)是找出發(fā)案前后1小時(shí)在A市活動(dòng)的車輛,同時(shí)在4小時(shí)前后該車又在B、C等市活動(dòng),如果這些車輛的涉車人員為此類案件前科,那流竄犯罪的概率就相當(dāng)大了。
以上就是前期做的一些工作,其實(shí)回顧起來也沒有什么感到特別值得驕傲的,如果說這些年我們參與大數(shù)據(jù)這項(xiàng)工作還有那么一點(diǎn)點(diǎn)驕傲的話,那就是在這個(gè)過程中,包括一些爭論中,我們逐步形成了一些行業(yè)大數(shù)據(jù)應(yīng)用的思路、理念,甚至一些看起來都有點(diǎn)不著邊際的想法。
我眼中的“大數(shù)據(jù)”現(xiàn)狀
本人比較喜歡古詩,最近經(jīng)常和我兒子一起背唐詩,我就用四句古詩來形容一下我們所面臨的“大數(shù)據(jù)”現(xiàn)狀:
第一句:天街小雨潤如酥,草色遙看近卻無。這是我用來形容目前大數(shù)據(jù)的整個(gè)大環(huán)境的。“天街”是什么?是京城!京城的小雨非常滋潤對不對,非常美麗,國家出臺(tái)的大數(shù)據(jù)發(fā)展綱要,各個(gè)部委辦局都很積極,昨天在飛機(jī)上還在拜讀環(huán)保部的大數(shù)據(jù)方案,但是,這些只能遠(yuǎn)觀不能褻玩,落到地面,落到基層,卻只能是“近卻無”的感覺,為什么?缺少具體的實(shí)施方案,缺少具體的落地案例,應(yīng)用層沒有享受到大數(shù)據(jù)能帶來什么好處,只是聽到一片關(guān)于大數(shù)據(jù)的呼聲。最近微信圈里都在轉(zhuǎn)一篇文章,發(fā)展大數(shù)據(jù)不要一味追求數(shù)據(jù)規(guī)模大,要“應(yīng)用為先”,這是李國杰院士寫的。大家想一想,只要是搞IT,搞軟件的都知道,我們要以應(yīng)用需求為導(dǎo)向,這是搞軟件的最基本常識,但是這個(gè)常識現(xiàn)在需要一個(gè)院士來呼吁,可想我們所面臨的現(xiàn)狀有多么尷尬,多么的不正常。
第二句:白發(fā)三千丈,緣愁似個(gè)長。這是我用來形容公安行業(yè)的,三千丈很長很長,詩人用了夸張的手法,公安行業(yè)的數(shù)據(jù)也在用這個(gè)手法,經(jīng)常看到一個(gè)地市的匯報(bào)材料就在說,我們有兩百多億條數(shù)據(jù),甚至可以精確到個(gè)位。且不論到底有沒有這么多數(shù)據(jù),你先能不能告訴我這個(gè)Oracle 11g的OCP,你是用什么方法把數(shù)據(jù)的條數(shù)最后累加到百億量級的,還是過一段時(shí)間加一點(diǎn)來估算估算的?所以,公安行業(yè)的數(shù)據(jù)現(xiàn)狀并不是非常的樂觀,所以我們會(huì)看到一些有見識的領(lǐng)導(dǎo)在發(fā)愁,一面號稱公安部門是坐在數(shù)據(jù)金礦上,但一面心底緣愁真的似個(gè)長。
第三句:我本將心向明月,奈何明月照溝渠。這是一句很有意思的詩,念到這首詩我就會(huì)想起《天下無賊》的那個(gè)橋段。這句是用來形容目前公安行業(yè)的數(shù)據(jù)管理現(xiàn)狀的,我們經(jīng)常講,信息化是三分建設(shè),七分應(yīng)用,十分管理,十二分的數(shù)據(jù)質(zhì)量。這句詩就跟后兩者有關(guān)系,上級管理部門的出發(fā)點(diǎn)肯定都是好的,建系統(tǒng),推應(yīng)用,推不動(dòng)怎么辦?最有用的一招就是出臺(tái)考核辦法,不考核大家不干,但是一考核大家就開始亂干。目前公安機(jī)關(guān)的可信的數(shù)據(jù)有多少,我經(jīng)常會(huì)舉起一只手,非??鋸埖恼f,不超過一只手,110報(bào)警是真的,這是老百姓打過來的,在押人員是真的,這個(gè)做假自己是也要被關(guān)進(jìn)去的,還有多少數(shù)據(jù)是真實(shí)的,我們的巡邏盤查數(shù)據(jù)真實(shí)嗎?暫住人口數(shù)據(jù)能反應(yīng)真實(shí)的暫住人口情況嗎?還有案件數(shù)據(jù)能說明社會(huì)面發(fā)案情況嗎?不能!所以說,明月最后大部分都照到溝渠里去了。
第四句:竹外桃花三兩枝,春江水暖鴨先知。前面三句把我們當(dāng)前面臨的形勢說得都很悲觀,第四句要漲一漲士氣,當(dāng)前在大數(shù)據(jù)應(yīng)用的方向上,我們很多地方已經(jīng)開始了積極探索的步伐。像部里的云搜索,還有那個(gè)國家啥平臺(tái),包括一些省廳,市局,都已經(jīng)在開始試水大數(shù)據(jù)應(yīng)用,在所有的這些探索中,我最關(guān)心的就是打擊違法犯罪這一方向,群眾看公安,關(guān)鍵看破案,公安信息化,公安大數(shù)據(jù),首要是要解決破案問題,連壞人都不去搞,都搞不定,天天喊互聯(lián)網(wǎng)+有什么用,天天喊為民服務(wù)有什么用,那是本末倒置。所以,從前面試水的幾個(gè)案例看,也是在朝著打擊違法犯罪的方向去發(fā)展。這一切都表明,公安行業(yè)的大數(shù)據(jù)春天已經(jīng)來臨。但是這個(gè)春天不是我們坐等能等來的,需要一批人去思考,去探索,就像劉禹錫那句詩,千淘萬漉雖辛苦,吹盡狂沙始到金……
大數(shù)據(jù)下一步發(fā)展方向的思考
第一、以應(yīng)用為導(dǎo)向。公安行業(yè)的大數(shù)據(jù)應(yīng)用不是搞底層研發(fā),是要解決實(shí)際問題,大數(shù)據(jù)在公安行業(yè)現(xiàn)實(shí)的應(yīng)用場景到底有哪些,這是我們要好好思考的問題。結(jié)合前期實(shí)踐認(rèn)為,個(gè)人認(rèn)為至少目前三個(gè)方向是可行的,一是規(guī)律總結(jié),二是人物刻畫,三是趨勢預(yù)判。這個(gè)分類可能不是很合理,可能有交叉的地方,但是,這三個(gè)方面是具備實(shí)踐條件的(具體案例略)
第二、關(guān)于數(shù)據(jù)以及來源問題。這個(gè)問題非常關(guān)鍵,大數(shù)據(jù)沒有可信的數(shù)據(jù)支撐,就會(huì)精確誤導(dǎo),靠考核,靠層級壓迫,靠搞大規(guī)模會(huì)戰(zhàn)去搞數(shù)據(jù),顯然是不能滿足大數(shù)據(jù)應(yīng)用的需要的。目前我們具備大數(shù)據(jù)特征的數(shù)據(jù)有:1、“人車物”軌跡,時(shí)間、空間與實(shí)體形成動(dòng)態(tài)軌跡,這些是很好的大數(shù)據(jù)源頭;2、行為日志,這個(gè)與系統(tǒng)日志,數(shù)據(jù)庫日志有相同之處,但又不完全相同,舉個(gè)例子,我最近做了個(gè)基于手機(jī)的考試系統(tǒng),十道題,是可以自己在家做的,因此所有人交上來都是滿分,但是,我記錄了兩道題之間的時(shí)間,結(jié)果我發(fā)現(xiàn)第三題有80%的人都等待了一分鐘以上,而其余的題都點(diǎn)得很快,雖然所有的人第三題結(jié)果都是對的,但是我告訴負(fù)責(zé)培訓(xùn)的同志,第三題是薄弱環(huán)節(jié),很多人需要強(qiáng)化這方面的知識培訓(xùn)。這就是行為日志的作用。3、音視頻,這個(gè)就不用多說了。4、傳感器,沒有傳感器的大規(guī)模應(yīng)用,就不要談啥大數(shù)據(jù),這是我很久以前就說的觀點(diǎn)。5、社會(huì)民眾參與。這一點(diǎn)很多人都沒有覺醒過來,公安行業(yè)玩大數(shù)據(jù),不能光靠自己的力量,要學(xué)會(huì)打人民群眾的汪洋大海戰(zhàn)爭,找到社會(huì)公眾、包括其他單位部門的利益驅(qū)動(dòng)點(diǎn),發(fā)動(dòng)大家來參與,圍繞數(shù)據(jù)做文章,特別是學(xué)會(huì)跨領(lǐng)域使用數(shù)據(jù)。(幾個(gè)案例略),關(guān)于大數(shù)據(jù)應(yīng)用的數(shù)據(jù)來源問題,我還是用一句詩來形容吧,大數(shù)據(jù)背景下的數(shù)據(jù),都是那種帶有“隨風(fēng)潛入夜,潤物細(xì)無聲”特征的。
第三、關(guān)于智庫的共建與共享。發(fā)動(dòng)公眾參與的過程中,大家都會(huì)產(chǎn)生一些創(chuàng)意,我們要把這些創(chuàng)意集中起來建庫管理,要進(jìn)行歸類、分析、優(yōu)化、整合,最終形成大數(shù)據(jù)應(yīng)用的一個(gè)知識庫(智庫),這個(gè)知識庫是開放式的,大家可以去共享,可以去評價(jià),去推薦的。(案例略)
第四、關(guān)于工具手段支撐。最關(guān)鍵的幾個(gè),簡單算法在公安行業(yè)的落地,當(dāng)前所謂的大數(shù)據(jù)應(yīng)用要成功,肯定首先是“海量數(shù)據(jù)+簡單算法”的成功,這是一個(gè)目前已經(jīng)證實(shí)的可行套路,大數(shù)據(jù)應(yīng)用在業(yè)務(wù)邏輯層面不要去想得太復(fù)雜。基于大數(shù)據(jù)的建模工具,這個(gè)就不多說了,我也一直在做這個(gè)事情,其中重點(diǎn)包括數(shù)據(jù)資源組織與預(yù)處理、分布式計(jì)算、流式計(jì)算等內(nèi)容。還有就是模型的標(biāo)準(zhǔn)化,這個(gè)也不是一句話兩句話能講清楚的,大致意思就是大數(shù)據(jù)的模型一定要做到可復(fù)制,可擴(kuò)展,可移植,這樣才有應(yīng)用的生命力。
最后,強(qiáng)調(diào)一下整體的數(shù)據(jù)管理架構(gòu)。我眼中的大數(shù)據(jù)應(yīng)用的整體架構(gòu),應(yīng)該是一個(gè)“混搭”型模式,從最底層的,數(shù)量最多的非結(jié)構(gòu)化數(shù)據(jù),到中間層的半結(jié)構(gòu)化數(shù)據(jù),再到頂層的結(jié)構(gòu)化數(shù)據(jù),分別有不同的工具、不同的方式來處理。但一條主線就是努力使更多的非結(jié)構(gòu)化數(shù)據(jù)往結(jié)構(gòu)化數(shù)據(jù)的方向走,這也是人類社會(huì)依托計(jì)算機(jī)這一工具來認(rèn)識世界、理解世界的一條必由之途。
最后,用我和業(yè)界一位大哥級人物的對話結(jié)束今天的分享。這位大哥說:當(dāng)哪一天公安機(jī)關(guān)不談到大數(shù)據(jù)的“大”字時(shí),這個(gè)行業(yè)就真正理解了大數(shù)據(jù)。我說:現(xiàn)在我是個(gè)商人,當(dāng)商人不談到錢的時(shí)候,他就開始賺大錢了。謝謝大家。
來源:數(shù)據(jù)派
刷新相關(guān)文章
我要評論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重