告訴你一般人不知道的數(shù)據(jù)獲取方式!
DataCastle | 2016-07-15 17:47
【數(shù)據(jù)猿導(dǎo)讀】 在這里給大家推薦一些能夠用上數(shù)據(jù)獲取方式,有了這些資源,不僅可以在數(shù)據(jù)收集的效率上能夠得到很大的提升,同時(shí)也可以學(xué)習(xí)更多思維方式

- 國家數(shù)據(jù) -
http://data.stats.gov.cn/index.htm
數(shù)據(jù)來源于中國國家統(tǒng)計(jì)局,包含了我國經(jīng)濟(jì)民生等多個(gè)方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,較為全面和權(quán)威,對(duì)于社會(huì)科學(xué)的研究不要太有幫助。最關(guān)鍵的是,網(wǎng)站簡潔美觀,還有專門的可視化讀物。
- CEIC -
http://www.ceicdata.com/zh-hans
最完整的一套超過128個(gè)國家的經(jīng)濟(jì)數(shù)據(jù),能夠精確查找GDP, CPI, 進(jìn)口,出口,外資直接投資,零售,銷售,以及國際利率等深度數(shù)據(jù)。其中的“中國經(jīng)濟(jì)數(shù)據(jù)庫”收編了300,000多條時(shí)間序列數(shù)據(jù),數(shù)據(jù)內(nèi)容涵蓋宏觀經(jīng)濟(jì)數(shù)據(jù)、行業(yè)經(jīng)濟(jì)數(shù)據(jù)和地區(qū)經(jīng)濟(jì)數(shù)據(jù)。
- wind(萬得)-
http://www.wind.com.cn/
萬得被譽(yù)為中國的Bloomberg,在金融業(yè)有著全面的數(shù)據(jù)覆蓋,金融數(shù)據(jù)的類目更新非???,據(jù)說很受國內(nèi)的商業(yè)分析者和投資人的親睞。
- 搜數(shù)網(wǎng) -
http://www.soshoo.com/
已加載到搜數(shù)網(wǎng)站的統(tǒng)計(jì)資料達(dá)到7,874本,涵蓋1,761,009張統(tǒng)計(jì)表格和364,580,479個(gè)統(tǒng)計(jì)數(shù)據(jù),匯集了中國資訊行自92年以來收集的所有統(tǒng)計(jì)和調(diào)查數(shù)據(jù),并提供多樣化的搜索功能。
- 中國統(tǒng)計(jì)信息網(wǎng) -
http://www.tjcn.org/
國家統(tǒng)計(jì)局的官方網(wǎng)站,匯集了海量的全國各級(jí)政府各年度的國民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)信息,建立了以統(tǒng)計(jì)公報(bào)為主,統(tǒng)計(jì)年鑒、階段發(fā)展數(shù)據(jù)、統(tǒng)計(jì)分析、經(jīng)濟(jì)新聞、主要統(tǒng)計(jì)指標(biāo)排行等。
- 亞馬遜aws -
http://aws.amazon.com/cn/datasets/?nc1=h_ls
來自亞馬遜的跨科學(xué)云數(shù)據(jù)平臺(tái),包含化學(xué)、生物、經(jīng)濟(jì)等多個(gè)領(lǐng)域的數(shù)據(jù)集。
- figshare -
https://figshare.com/
研究成果共享平臺(tái),在這里你會(huì)發(fā)現(xiàn)來自世界的大牛們的研究成果分享,同時(shí)get其中的研究數(shù)據(jù),內(nèi)容很有啟發(fā)性,網(wǎng)站頗具設(shè)計(jì)感。
- github -
https://github.com/caesar0301/awesome-public-datasets
如果覺得前面的數(shù)據(jù)源還不夠,github上的大神已經(jīng)為大家整理好了一個(gè)非常全面的數(shù)據(jù)獲取渠道,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫資源,自然科學(xué)和社會(huì)科學(xué)的覆蓋都很全面,簡直是做研究和數(shù)據(jù)分析的利器。
02數(shù)據(jù)交易平臺(tái)
- 優(yōu)易數(shù)據(jù) -
http://www.youedata.com/
由國家信息中心發(fā)起,擁有國家級(jí)信息資源的數(shù)據(jù)平臺(tái),國內(nèi)領(lǐng)先的數(shù)據(jù)交易平臺(tái)。平臺(tái)有B2B、B2C兩種交易模式,包含政務(wù)、社會(huì)、社交、教育、消費(fèi)、交通、能源、金融、健康等多個(gè)領(lǐng)域的數(shù)據(jù)資源。
- 數(shù)據(jù)堂 -
http://www.datatang.com/
專注于互聯(lián)網(wǎng)綜合數(shù)據(jù)交易,提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務(wù),包含語音識(shí)別、醫(yī)療健康、交通地理、電子商務(wù)、社交網(wǎng)絡(luò)、圖像識(shí)別等方面的數(shù)據(jù)。
03網(wǎng)絡(luò)指數(shù)
- 百度指數(shù) -
http://index.baidu.com/
大家都很熟悉的指數(shù)查詢平臺(tái),可以根據(jù)指數(shù)的變化查看某個(gè)主題在各個(gè)時(shí)間段受關(guān)注的情況,進(jìn)行趨勢(shì)分析、輿情預(yù)測(cè)有很好的指導(dǎo)作用。除了關(guān)注趨勢(shì)之外,還有需求分析、人群畫像等精準(zhǔn)分析的工具,對(duì)于市場調(diào)研來說具有很好的參考意義。同樣的另外兩個(gè)搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。
- 阿里指數(shù) -
https://alizs.taobao.com/
國內(nèi)權(quán)威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺(tái)的交易數(shù)據(jù)基本能夠看出國內(nèi)商品交易的概況,對(duì)于趨勢(shì)分析、行業(yè)觀察意義不小。
- 艾瑞咨詢 -
http://www.iresearch.com.cn/
艾瑞作為老牌的互聯(lián)網(wǎng)研究機(jī)構(gòu),在數(shù)據(jù)的沉淀和數(shù)據(jù)分析上都有得天獨(dú)厚的優(yōu)勢(shì),在互聯(lián)網(wǎng)的趨勢(shì)和行業(yè)發(fā)展數(shù)據(jù)分析上面比較權(quán)威,艾瑞的互聯(lián)網(wǎng)分析報(bào)告可以說是互聯(lián)網(wǎng)研究的必讀刊物。
- 友盟指數(shù) -
http://www.umeng.com/
友盟在移動(dòng)互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析,對(duì)于研究移動(dòng)端產(chǎn)品、做市場調(diào)研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報(bào)告同樣是了解互聯(lián)網(wǎng)趨勢(shì)的優(yōu)秀讀物。
- 愛奇藝指數(shù) -
http://index.iqiyi.com/
愛奇藝指數(shù)是專門針對(duì)視頻的播放行為、趨勢(shì)的分析平臺(tái),對(duì)于互聯(lián)網(wǎng)視頻的播放有著全面的統(tǒng)計(jì)和分析,涉及到播放趨勢(shì)、播放設(shè)備、用戶畫像、地域分布、等多個(gè)方面。由于愛奇藝龐大的用戶基數(shù),該指數(shù)基本可以說明實(shí)際情況。
- 貓眼專業(yè)版-
http://piaofang.maoyan.com/
電影票房統(tǒng)計(jì)分析平臺(tái),貓眼專業(yè)版有實(shí)時(shí)的票房統(tǒng)計(jì),影片的排盤情況、上座率和影院數(shù)據(jù),對(duì)于當(dāng)前電影的分析是必不可少的。
04
網(wǎng)絡(luò)采集器
網(wǎng)絡(luò)采集器是通過軟件的形式實(shí)現(xiàn)簡單快捷地采集網(wǎng)絡(luò)上分散的內(nèi)容,具有很好的內(nèi)容收集作用,而且不需要技術(shù)成本,被很多用戶作為初級(jí)的采集工具。
- 火車采集器 -
http://www.locoy.com/
一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù),最常用的就是采集某些網(wǎng)站的文字、圖片、數(shù)據(jù)等在線資源。接口比較齊全,支持的擴(kuò)展比較好用,懂代碼的話,可以使用PHP或C#開發(fā)任意功能的擴(kuò)展。
- 八爪魚 -
http://www.bazhuayu.com/
簡單實(shí)用的采集器,功能齊全,操作簡單,不用寫規(guī)則。特有的云采集,關(guān)機(jī)也可以在云服務(wù)器上運(yùn)行采集任務(wù)。
- 集搜客 -
http://www.gooseeker.com/
一款簡單易用的網(wǎng)頁信息抓取軟件,能夠抓取網(wǎng)頁文字、圖表、超鏈接等多種網(wǎng)頁元素,提供好用的網(wǎng)頁抓取軟件、數(shù)據(jù)挖掘攻略、行業(yè)資訊和前沿科技等。
05
網(wǎng)絡(luò)爬蟲
作為極客們最喜歡的數(shù)據(jù)收集方式,爬蟲高度的自由性、自主性都使其成為數(shù)據(jù)挖掘的必備技能,當(dāng)然精通python等語言是必要前提。
利用爬蟲可以做很多有意思的事情,當(dāng)然也可以獲取一些從其它渠道獲取不到的數(shù)據(jù)資源,更重要的是幫你打開尋找和搜集數(shù)據(jù)的思路。
你看到某個(gè)網(wǎng)站上的圖片恰好是你需要的,但是量大單個(gè)下載太麻煩,那么利用爬蟲你可以快速地進(jìn)行抓取,并可以根據(jù)標(biāo)簽、特征、顏色等信息進(jìn)行分類儲(chǔ)存。從此不缺設(shè)計(jì)素材,不缺美女圖片,連斗圖都多了幾分自信。
我們總是想快速地去搜集高質(zhì)量的網(wǎng)絡(luò)資源,但是人工查找比對(duì)實(shí)在太麻煩,利用爬蟲你就可以輕松解決。比如爬取知乎點(diǎn)贊最多的文章列表,爬取網(wǎng)易云音樂評(píng)論最多的音樂,爬取豆瓣網(wǎng)高評(píng)分的電影或圖書……總之,你可以從此拒絕平庸。
比如你可以批量爬取社交平臺(tái)的數(shù)據(jù)資源,可以爬取網(wǎng)站的交易數(shù)據(jù),爬取招聘網(wǎng)站的職位信息等,可以用于個(gè)性化的分析研究。
總之,爬蟲是非常強(qiáng)大的,甚至有人說天下沒有不能爬的網(wǎng)站,因而爬取數(shù)據(jù)也成為了很多極客的樂趣。開發(fā)出高效的爬蟲工具可以幫助我們節(jié)省很多時(shí)間,可以完全按照自己的需求來訂制,想想這個(gè)世界就太美好。
06小工具
- Web Plot Digitizer -
http://arohatgi.info/WebPlotDigitizer/app/
比如我們?cè)诓榭雌诳墨I(xiàn)的時(shí)候看到一張成型的圖表,但其本身數(shù)據(jù)是缺失的,你想獲得這個(gè)圖表的相關(guān)數(shù)據(jù)怎么辦?有了這個(gè)小工具就非常easy了。直接上傳我們需要獲得數(shù)據(jù)的圖表,如下:
然后我們就會(huì)獲得如下的數(shù)據(jù)反饋,感覺運(yùn)籌帷幄有木有,對(duì)于一些不需要十分精確的分析研究足夠使用。
當(dāng)然并不推薦用這個(gè)作為量化分析的依賴,對(duì)于定性的分析,做ppt級(jí)的數(shù)據(jù)統(tǒng)計(jì)分析就足夠了。
- you-get -
https://you-get.org/
這是一個(gè)程序員基于python 3開發(fā)的項(xiàng)目,已經(jīng)在github上面開源,支持64個(gè)網(wǎng)站,包括優(yōu)酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網(wǎng)站都有! 還有一個(gè)黑科技的地方,即使是名單上沒有的網(wǎng)站,當(dāng)你輸入鏈接,程序也會(huì)猜測(cè)你想要下載什么,然后幫你下載。
當(dāng)然you-get要在python3環(huán)境下進(jìn)行安裝,用pip安裝好后,在終端輸入“you get+你想下載資源的鏈接”就可以等著收藏資源了。
07結(jié)語
收集數(shù)據(jù)是一種能力,學(xué)習(xí)收集數(shù)據(jù)也是一種能力,數(shù)據(jù)的來源是沒有窮盡的,轉(zhuǎn)換一種思維,你就可以獲得不一樣的數(shù)據(jù)。每個(gè)人喜歡的收集數(shù)據(jù)的渠道不盡相同,只有盡量多地去見識(shí)和實(shí)踐才會(huì)發(fā)現(xiàn)更多的適合自己的數(shù)據(jù)獲取方式。
在互聯(lián)網(wǎng)高度發(fā)達(dá)的今天,數(shù)據(jù)資源異常的豐富和龐大,如何高效地獲取數(shù)據(jù)成為一種重要的能力,畢竟獲取數(shù)據(jù)是一切用數(shù)據(jù)說話的前提。當(dāng)然往往只需要熟練掌握一兩種方法,便足夠大多數(shù)人應(yīng)付大多數(shù)場景和需求,所以選擇合適的數(shù)據(jù)獲取渠道還需要親自探究。
來源:DataCastle
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國際峰會(huì)2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重