數(shù)據(jù)采集:人工智能的基礎(chǔ)服務(wù) 創(chuàng)業(yè)方向的研究與思考
【數(shù)據(jù)猿導(dǎo)讀】 除了少數(shù)產(chǎn)品具備獲取海量數(shù)據(jù)之前,絕大多數(shù)企業(yè)需要從公開數(shù)據(jù),主要是互聯(lián)網(wǎng),獲取外部數(shù)據(jù),以便進(jìn)行市場分析、輿情監(jiān)控和競品分析等活動。

這是一個數(shù)據(jù)驅(qū)動商業(yè)發(fā)展的時代。
數(shù)據(jù)的挖掘和分析不再只是 BAT 大公司的專屬,其正逐步成為廣大中小企業(yè)的基礎(chǔ)需求,而且日趨迫切。并且數(shù)據(jù)挖掘的技能也隨著網(wǎng)絡(luò)爬蟲的普及,云計算的計算能力的提高,機(jī)器學(xué)習(xí)算法的發(fā)展,逐漸變得平民化。廣大的中小企業(yè)也可以基于數(shù)據(jù)驅(qū)動,提供更好的服務(wù)與產(chǎn)品,從而取得更大的發(fā)展。
數(shù)據(jù)挖掘其實(shí)是一個很大的概念,本文主要探討其中的“挖”,或者叫做“網(wǎng)絡(luò)爬蟲”、“網(wǎng)頁抓取”更容易理解。因?yàn)槌松贁?shù)產(chǎn)品具備獲取海量數(shù)據(jù)之前,絕大多數(shù)企業(yè)需要從公開數(shù)據(jù),主要是互聯(lián)網(wǎng),獲取外部數(shù)據(jù),以便進(jìn)行市場分析、輿情監(jiān)控和競品分析等活動。
在筆者看來,更傾向稱之為“數(shù)據(jù)采集”。分為兩步“采”和“集”。
對應(yīng)的“采”,主要是數(shù)據(jù)的獲取,可以有多種方式,網(wǎng)絡(luò)抓取是其中主要的一種,也有數(shù)據(jù)合作,購買。
對應(yīng)的“集”,則是數(shù)據(jù)的清洗,連接,整合,將價值密度低的數(shù)據(jù)轉(zhuǎn)化為價值密度高的數(shù)據(jù)。
1「數(shù)據(jù)采集的發(fā)展階段 」.
根據(jù)筆者的分析,數(shù)據(jù)采集自上世紀(jì) 90 年代興趣之后,相當(dāng)長的時間是屬于技術(shù)開發(fā)者的專項(xiàng)技能。但隨著云計算,大數(shù)據(jù),甚至人工智能的發(fā)展,這項(xiàng)技能猶如“ 舊時王謝堂前燕,飛入尋常百姓家 ”,變得簡單,易用。其主要經(jīng)歷四個階段。
數(shù)據(jù)采集 1.0 — 基于編程語言的爬取框架
熟悉爬蟲的攻城獅都會想如數(shù)家珍一樣說出一串:Scrapy,WebMagic,Nutch,Heritrix 等等,相信在 Github 上大大小小也不下 30 個爬蟲框架。他們共同的特點(diǎn)是:門檻較高,僅面向開發(fā)者,學(xué)習(xí)成本和維護(hù)成本較大,一個企業(yè)搭建一個成型的爬蟲團(tuán)隊(duì)往往成本較大。
數(shù)據(jù)采集 2.0— 基于軟件客戶端的爬取工具
用戶需要下載客戶端,同時需要有一定的 HTML、正則表達(dá)式和 CSS 能力。國內(nèi)出現(xiàn)最早的客戶端叫 火車頭采集器 ,屬于一代的爬取工具,對 HTML、正則表達(dá)式的要求還比較高(筆者親測)。
二代的產(chǎn)品如 八爪魚 和 集搜客 GooSeeker 則提供可視化的爬取服務(wù),通過點(diǎn)選爬取需要的數(shù)據(jù)。其特點(diǎn)是:門檻進(jìn)一步降低,對于非專業(yè)開發(fā)者,通過一定的學(xué)習(xí)即可自行爬取需要的公開數(shù)據(jù)。但主要還是面向個人用戶為主,由于用戶客戶端的限制,難以大規(guī)模持續(xù)爬取,數(shù)據(jù)的存儲和分析難以兼顧。
數(shù)據(jù)采集 3.0—云爬蟲服務(wù)
首先,用戶體驗(yàn)大大提升,大多采用點(diǎn)選(point-and-click)方式,用戶所見即所得,無需編寫代碼,也無需了解 HTML,正則表達(dá)式以及 CSS 樣式就可以定制想要的爬蟲。其次,無需擔(dān)心自己的電腦的限制,爬蟲運(yùn)行的云端,可以定時定點(diǎn),也可以爬取大量的數(shù)據(jù),甚至可以在云端做一定程度的數(shù)據(jù)清洗和整合的工作。
目前國外的數(shù)據(jù)采集項(xiàng)目大多采用前端點(diǎn)選(point-and-click)方式,后端云服務(wù)模式。如下是國外的項(xiàng)目列表:
目前國內(nèi)的數(shù)據(jù)采集項(xiàng)目分為三種:
1,基于客戶端或者插件的云采集服務(wù)。
客戶端方式代表項(xiàng)目有 八爪魚 和 集搜客 GooSeeker,其不在僅僅完全依靠客戶端的計算資源,而是采用客戶端方式可視化點(diǎn)選的用戶體驗(yàn)更好,速度更快。同時將爬取的服務(wù)轉(zhuǎn)移到云端,提供較大的數(shù)據(jù)爬取能力和數(shù)據(jù)整合能力。
瀏覽器插件方式如 爬一爬 ,通過安裝瀏覽器插件,實(shí)現(xiàn)前端點(diǎn)選(point-and-click)方式,后端云服務(wù)模式。
2,基于 Web 的云采集服務(wù)
用戶無需安裝直接在網(wǎng)友上進(jìn)行點(diǎn)選(point-and-click)操作,云端進(jìn)行爬取服務(wù)。這種方式優(yōu)點(diǎn)是用戶隨時隨地使用,簡單方便。國外的許多項(xiàng)目采用此類模式,如 import.io,國內(nèi)采用這種模式的項(xiàng)目為 造數(shù)科技 。但是缺點(diǎn)是需要首先在云端將網(wǎng)頁加載渲染好,再呈現(xiàn)給用戶,這就需要耗費(fèi)提供商的大量計算資源,而且速度往往較慢。
3,面向開發(fā)者的云采集開發(fā)云服務(wù)
目前國內(nèi)一家叫 神箭手 的公司在提供此類服務(wù)。神箭手是一站式通用爬蟲開發(fā)平臺。具備 JavaScript 能力的開發(fā)者可以在平臺上開發(fā)爬蟲;不具備開發(fā)能力的用戶可以在爬蟲市場上購買或者定制開發(fā)需要的爬蟲。
其主要的客戶是中小企業(yè)的開發(fā)者,基于神箭手這個平臺,開發(fā)者只需掌握一定的 JavaScript 開發(fā)能力即可開發(fā)。同時提供爬取能力彈性計算服務(wù),動態(tài) IP 代理,文件云托管,驗(yàn)證碼識別等服務(wù),幫助開發(fā)者快速高效的采集網(wǎng)絡(luò)數(shù)據(jù)。 目前市場上,基本上是 80%的人在采集 20%的網(wǎng)絡(luò)數(shù)據(jù),比如企業(yè)信息,電商,O2O 等,而這項(xiàng)網(wǎng)絡(luò)數(shù)據(jù)往往具有較強(qiáng)的反爬能力 。
數(shù)據(jù)采集 4.0—Extract-Enrich-Connect 數(shù)據(jù)服務(wù)
筆者認(rèn)為目前數(shù)據(jù)采集尚處于 3.0 階段,4.0 階段尚沒有形成,即 提供數(shù)據(jù)采集,清洗,連接,分析等一體的數(shù)據(jù)服務(wù)能力 。
從 3.0 躍升至 4.0 階段,在筆者看來,不單單是技術(shù)的升級。不同行業(yè),不同場景所需要的數(shù)據(jù)是不同的,往往是難以標(biāo)準(zhǔn)化的,這樣就會走向定制化,從而導(dǎo)致難以形成標(biāo)準(zhǔn)產(chǎn)品,規(guī)模化擴(kuò)展。 場景變化帶來的技術(shù)挑戰(zhàn)才會凸顯出來,因?yàn)檎媸菆鼍八枰募夹g(shù)并非簡單升級而是顛覆式創(chuàng)新 。
至于未來是否會完成跳躍,之后又會是怎樣的方式服務(wù)大家,現(xiàn)在還很難說。目前國外的 import.io,dexi.io,Connotate,國內(nèi)的八爪魚,神箭手,造數(shù)都在進(jìn)行自己的探索。
2「合法性的探討 」.
在互聯(lián)網(wǎng)領(lǐng)域關(guān)于數(shù)據(jù)爬取合法性的問題一直存在爭議,也確實(shí)有不法分子利用數(shù)據(jù)爬取工具進(jìn)行黑產(chǎn)交易。數(shù)據(jù)爬取就像是一個鋒利的雙刃劍,主要來看使用者是否將其應(yīng)用在有益的方面。
其實(shí)在互聯(lián)網(wǎng)數(shù)據(jù)爬取方面主要的準(zhǔn)則,就是 Robots 協(xié)議,也稱為爬蟲協(xié)議,網(wǎng)站通過 Robots 協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。這原先主要針對搜索引擎公司,大家自覺遵守的公約。
隨著數(shù)據(jù)采集范圍的擴(kuò)大,逐步突破了這條協(xié)議,但也有約定俗成的規(guī)則,廣大的數(shù)據(jù)采集公司都應(yīng)該遵守。
1,采集的應(yīng)該是網(wǎng)絡(luò)公開數(shù)據(jù),并且數(shù)據(jù)的用途不能用于復(fù)制該網(wǎng)站信息,或者簡單的將數(shù)據(jù)販賣。更多允許的情況是將多方采集的公開數(shù)據(jù)進(jìn)行整合,分析,形成數(shù)據(jù)分析服務(wù) 。
2,采集的強(qiáng)度不宜損害目前網(wǎng)站的性能,無形增加目標(biāo)網(wǎng)站的維護(hù)成本,甚至造成損失。
此外,我國 6 月 1 日剛剛實(shí)施了《中華人民共和國網(wǎng)絡(luò)安全法》,這是我國網(wǎng)絡(luò)領(lǐng)域的基礎(chǔ)性法律,明確加強(qiáng)了對個人信息的保護(hù),打擊網(wǎng)絡(luò)詐騙。
網(wǎng)絡(luò)安全法共有 7 章 79 條,其中針對個人信息泄露問題規(guī)定: 網(wǎng)絡(luò)產(chǎn)品、服務(wù)具有收集用戶信息功能的,其提供者應(yīng)當(dāng)向用戶明示并取得同意;網(wǎng)絡(luò)運(yùn)營者不得泄露、篡改、毀損其收集的個人信息;任何個人和組織不得竊取或者以其他非法方式獲取個人信息,不得非法出售或者非法向他人提供個人信息 。這恐怕對數(shù)據(jù)采集公司更有方向的指導(dǎo)性。
3「數(shù)據(jù)采集發(fā)展至今,為什么現(xiàn)在會爆發(fā) 」.
隨著云計算,大數(shù)據(jù),人工智能的發(fā)展,數(shù)據(jù)采集作為數(shù)據(jù)的重要手段,成為廣大企業(yè)的迫切需求。首當(dāng)其沖的是中小企業(yè)的數(shù)據(jù)采集團(tuán)隊(duì),不再需要維護(hù)完備的團(tuán)隊(duì),大大降低了公司的成本,可以這些節(jié)省的費(fèi)用用戶數(shù)據(jù)產(chǎn)品的發(fā)展,提升產(chǎn)品的價值。而對于普通的個人,不再需要較高的門檻,就可以定制自己的數(shù)據(jù)采集方案,更多的行業(yè),更多的場景會廣泛使用。
人工智能的服務(wù)形態(tài)告訴我們,對于那些信息完備(Information-Complete)的領(lǐng)域,機(jī)器終將會超過并取代人類;
對于那些信息不完備(Information-Incomplete)的領(lǐng)域,通過人類和機(jī)器的協(xié)同,也會促進(jìn)新的發(fā)展;
對于那些抽象思維(Information-Free)的領(lǐng)域,依舊是人類主導(dǎo),機(jī)器提供一定輔助。
數(shù)據(jù)采集即是屬于信息完備(Information-Complete)的領(lǐng)域,機(jī)器在數(shù)據(jù)采集,清洗,整合完全可以取代人類,再通過與人類的協(xié)同,進(jìn)行數(shù)據(jù)分析和預(yù)測。這將是即將發(fā)生在眼前的事情。
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新