四方偉業(yè)上海售前總監(jiān)任鵬:智能分析在智慧司法系統(tǒng)的應用
【數據猿導讀】 2017年11月10日,由上海大數據聯(lián)盟、數據猿主辦,上海科睿聯(lián)合主辦的《構建智慧法院,促進司法職能——魔方大數據》在上海超級計算機中心舉行。本站整理了四方偉業(yè)上海售前總監(jiān)任鵬的發(fā)言實錄

2017年11月10日,由上海大數據聯(lián)盟、數據猿主辦,上??祁B?lián)合主辦的《構建智慧法院,促進司法職能——魔方大數據》在上海超級計算機中心舉行。本期魔方大數據邀請了法院代表和技術提供方等專家大咖齊聚一堂,共同探討了智慧法院和司法系統(tǒng)智能化的建設之路。
以下是數據猿整理“四方偉業(yè)上海售前總監(jiān)任鵬”的發(fā)言實錄:
2013年是大數據元年,經過幾年的發(fā)展,現在大數據已經上升到國家戰(zhàn)略層面。各行各業(yè)都已經開始做大數據的相關工作。
針對司法大數據建設,客戶希望我們通過大數據手段解決傳統(tǒng)方法解決不了的問題,而這些問題主要集中在和數據有關的方面。即怎樣通過數據的采集、整合、梳理、治理,把散落到各個業(yè)務系統(tǒng)中的數據進行融合,解決數據利用率低的問題,進行關聯(lián)分析,數據挖掘的相關工作。
針對大數據在司法行業(yè)應用的目標,我們?yōu)榭蛻籼峁┝怂痉ㄖ菐齑髷祿行牡睦砟睢_M行前端可視化的呈現,使數據能夠服務于法官判案、服務于領導決策,最后服務于院校科研。
大數據建設內容分為三個階段,把散落在各個系統(tǒng)中的數據進行梳理、轉換、治理、清晰化,做簡單的投機分析,這是第一階段。
第二階段,客戶的想法是希望用大數據技術和手段,進行業(yè)務上的指導,同時進行輔助決策。
第三階段,大數據平臺的遠期目標是希望通過數據化運營整個行業(yè)。針對個人或者業(yè)務分析師,終極目標是人人都能達到分析師的水平。通過大數據平臺使用,發(fā)現數字背后的價值和意義。
以下是為司法行業(yè)建立大數據平臺架構的架構圖。這個架構圖是按照數據產生的生命周期設計的。在下層是原系統(tǒng)數據層,里面有公檢法司所有業(yè)務系統(tǒng)的數據和第三方來源數據。我們拿到數據以后第二個工作是采集。采集層的主要工作是實現異構數據源的整合。數據采好了后放到融合中心做簡單的數據治理,幫助客戶完成業(yè)務建立和數據清晰。數據層是針對客戶業(yè)務層的需要,幫助客戶建立分析主題和場景,確定主題庫和所有緯度、指標,把結果應用到應用層來,對業(yè)務進行指導。
我介紹一下相關的功能和特點。
首先是數據采集層,數據采集層就是將散落到系統(tǒng)中的數據進行整合。我們公司的平臺能夠和市面上所有的常規(guī)數據進行對接,比如包括關系型數據庫和非關系型數據庫傳統(tǒng)數據庫,可以同時對接MPP等所有大數據平臺。第三種數據,是一些關注度較高的實時數據,可以把傳感器的數據、操作系統(tǒng)產生的日志進行采集,然后存放到數據中心。
針對司法行業(yè)的數據,我們這里做了簡單的歸類,司法數據包括結構化、非結構化和半結構化的數據。
針對結構化數據,我們將司法辦案數據、政務管理數據等所有公檢法司系統(tǒng)的數據放在關系型數據庫中,將它定義為結構化數據。
非結構化數據是庭審文件、與案件相關的WORD文件等所有半結構化數據。最后一個是非結構化數據,包括庭審的視頻、音頻、PPF等。這三種結構化、半結構化、非結構化數據覆蓋了司法行業(yè)所有的數據。我們數據采集層要做的就是實現多元異構數據的整合。
數據采集到數據中心的后,我們會把所有數據在可視化界面上進行簡單呈現。之前做一個中級人民法院的項目時拿到的數據有10T。拿到數據后我們在下層進行數據流監(jiān)控。每一個業(yè)務系統(tǒng),每一個委辦局的數據,都可以在這里面清晰呈現。同時也可以在數據底盤看到所有數據。相關指標、緯度都可以在這里面進行可視化呈現。數據采集好了、存儲好了,下一步就是做數據治理。
這中間有一個概念,大數據治理平臺的概念。它以數據資產目錄為中心,將所有源數據、數據指標、主數據、數據質量以及與生命周期屬性相關的信息關聯(lián)起來,建成一個統(tǒng)一的整體。這句話比較難理解,其實最終數據治理層給客戶提供的就是幫助他建立所有的數據標準,統(tǒng)一數據口徑。這里面還有其他相關功能,例如提高數據存儲質量,保證數據正確性、關聯(lián)性、開放性和安全性等。
以上是數據治理的整個流程圖,末端是數據的原始狀態(tài),存放在各個業(yè)務系統(tǒng)中。通過采集幫助客戶建立數據庫和主數據庫,確立數據標準、數據自帶,最終給客戶終端的是資源目錄、目錄體系、主題數據倉庫。以及將所有數據最終落到融合中心來,做數據的交換和共享工作。
這是數據中心呈現出來的所有相關數據信息結果,包括數據治理的總量,正確處理數據的條數、清晰的條數、文化數據的條數。還有根據客戶相關場景需求,制定了哪些規(guī)則。每一個數據的來源,都可以在這個平臺進行可視化呈現。其實最終拿到數據之后,我們要指導客戶的業(yè)務,幫他做一些輔助決策的動作。最重要的兩件事是要做數據挖掘和多維分析可視化呈現。
我們的平臺包括統(tǒng)計分析、深入分析、特征工程、文本分析、機器學習等100多種算法,算法模型通過日常訓練,把它以可視化的界面呈現出來,以2D、3D, 3D的形式呈現出來。其實,數據挖掘的整個過程,就是通過歷史數據找到歷史上的一個關聯(lián)關系,通過歷史數據找到未來發(fā)展的趨勢。我們拿到了數據之后,希望達到可視化呈現的效果,我們也希望人人都可以成為分析師。這個平臺制作數據報告的動作,通過拖拉拽是能夠完成的。
平臺里面涵蓋200組組件,如果客戶有GS開發(fā)功能,我們還可以開發(fā)接口,讓組件對接到平臺上。在司法行業(yè)的各種案例,我裁減出了幾個分析場景。
第一個場景是案件分析的場景,根據這個場景我們生成了四個相關主題,每一個主題都有各種緯度的分析。
首先從各個業(yè)務系統(tǒng)進行數據的采集、清晰、融合,然后將所有案件進行多維分析。第一,智能訴訟的主題,可以對數據支撐、同案同判、,同案不同判進行分析。每一個分析主題和緯度都根據我們梳理的業(yè)務指標進行業(yè)務模型構建。
另外一個主題就是案件趨勢分布的分析,異常案件分析、專題案件趨勢分析。整個案件分析最終呈現給終端用戶或者給領導的是可視化效果圖,在整個圖里面我們把全市所有的案件進行了區(qū)域劃分。每一個區(qū)域可以進行數據明晰,右側是相關的統(tǒng)計數據展示,比如總的案件、在辦案件、結案的統(tǒng)計數據。左側的是針對每一個案件類型進行的橫向對比。透視案件,進行各個維度的詳細分析。
第二個場景是法官畫像。針對每一個法官的數據是散落到各個系統(tǒng)當中的,我們將法官的相關數據進行采集、梳理、構建整個指標體系,最后完成法官畫像的幾個應用場景。
比如說法官擅長案件的分析,法官制效的分析、法官標簽等,所有主題緯度確定好了之后,我們將構建指標體系。在這里面可以拿到的數據包括基本信息、辦案數據、行為數據,以及第三方來源的數據。拿到所有數據之后構建指標體系,我們最終將呈現出一個分析效果圖。分析結果包括了幾個緯度,比如法官的基本信息,法官基本信息又包括全年工作量和關其他信息,還有每一個月法官工作的分布。左側是對每一個法官的質效關系,每月辦案數、結案數給出的模型展示。
第三個場景主要針對當事人進行一個簡單的畫像,畫像主題又分為兩個場景。第一個是自然人信用,第二個是企業(yè)信用。我們拿到的數據包括當事人的所有數據,包括基礎數據、訴訟數據、執(zhí)行與被執(zhí)行數據、信用數據以及其他關聯(lián)方的數據,拿到這些數據之后我們從起點到終點做業(yè)務上的閉環(huán)分析。個人信用看板,把當事人所有信用信息都調取出來進行分析。企業(yè)信用看板,會把當事人所在企業(yè)和與企業(yè)相關的周邊緯度的關聯(lián)關系進行展示。最后形成當事人畫像。
最后一個場景是做文本分析。起訴書都是電子的,就是由紙質轉換成電子。我們原來希望通過電子進行橫向對比,從中發(fā)現案件與案件的關聯(lián)關系。后來發(fā)現如果在對非結構化的數據進行分析的時候,每一個模型訓練需要150個樣本,每一個樣本的成本是3毛錢。后來我們將所有體征進行提取,將非結構數據轉換成結構化數據。
對于一些辦案單位,我們把他從非結構化數據轉化成結構化數據。辦案經過、犯罪事實、法律條文,都會存到數據中心里面。拿到所有數據,我們可以進行案件的相關審查、證據的對比和同案比較。
延伸閱讀
北京市律典通總裁麥天驥:從法律人對人工智能的期待談大數據——人工智能在智慧法院的應用
來源:數據猿
刷新相關文章
我要評論
活動推薦more >
- 2018 上海國際大數據產業(yè)高2018-12-03
- 2018上海國際計算機網絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術峰會2018”2018-06-14