大神自學(xué)后作《Python數(shù)據(jù)分析入門——從數(shù)據(jù)獲取到可視化》
sharon | 2018-05-29 08:00
【數(shù)據(jù)猿導(dǎo)讀】 本書作者沈祥壯,自學(xué)Python兩年,以數(shù)據(jù)分析為主線,系統(tǒng)學(xué)習(xí)的數(shù)據(jù)的采集、處理、分析和可視化。

本書為數(shù)據(jù)猿推出的《每周一本書》欄目叢書。
歡迎大家推薦好書給我們,讓更多人受益。
這是一本務(wù)實(shí)之作,充分體現(xiàn)數(shù)據(jù)分析流程的各項(xiàng)環(huán)節(jié),包含數(shù)據(jù)的采集、清洗和探索性分析,并通過大家耳熟能說的Python工具加以實(shí)操。更令人驚奇的是,本書的作者沈祥壯并非科班出身,他通過兩年自學(xué),系統(tǒng)掌握了數(shù)據(jù)的采集、處理、分析和可視化,真大神是也。
內(nèi)容簡(jiǎn)介
第1章主要講解了在Ubuntu和Windows系統(tǒng)下,Python集成開發(fā)環(huán)境的搭建??紤]到初學(xué)者容易為安裝第三方庫(kù)犯難,又介紹了三種簡(jiǎn)單實(shí)用的方法來安裝這些常見的庫(kù)。接著對(duì)幾個(gè)后面要用到的高級(jí)語(yǔ)法進(jìn)行了簡(jiǎn)單介紹,為之后的應(yīng)用打下基礎(chǔ)。
第2章集中講解了數(shù)據(jù)采集的流程,即網(wǎng)絡(luò)爬蟲程序的設(shè)計(jì)與實(shí)現(xiàn)。首先本章沒有拘泥于使用Python的內(nèi)置庫(kù)urllib庫(kù)進(jìn)行實(shí)現(xiàn),而是直接介紹了requests和其他更加簡(jiǎn)捷強(qiáng)大的庫(kù)來完成程序的設(shè)計(jì)。在進(jìn)階內(nèi)容中,對(duì)常見的編碼問題、異常處理、代理IP、驗(yàn)證碼、機(jī)器人協(xié)議、模擬登錄,以及多線程等相關(guān)問題給出了解決的方案。
第3章講解數(shù)據(jù)的清洗問題。在具體講解清洗數(shù)據(jù)之前,先介紹了TXT、XLSX、JSON、CSV等各種文件的導(dǎo)入和導(dǎo)出的方法,并介紹了Python與MySQL數(shù)據(jù)庫(kù)交互的方式。接著介紹了NumPy和pandas庫(kù)的基本使用方法,這是我們用于數(shù)據(jù)處理和科學(xué)計(jì)算的兩個(gè)強(qiáng)大的工具。最后綜合以上的學(xué)習(xí)介紹了數(shù)據(jù)的去重、缺失值的填補(bǔ)等經(jīng)典的數(shù)據(jù)清洗方法。
第4章首先講解探索性數(shù)據(jù)分析的應(yīng)用,并且簡(jiǎn)單介紹了機(jī)器學(xué)習(xí)基本知識(shí)。然后演示如何應(yīng)用sklearn庫(kù)提供的決策樹和最鄰近算法來處理分類問題,并嘗試根據(jù)算法原理手動(dòng)實(shí)現(xiàn)最鄰近算法。最后介紹如何使用pandas、matplotlib和seaborn這三個(gè)庫(kù)來實(shí)現(xiàn)數(shù)據(jù)的可視化。
第5章是綜合性學(xué)習(xí)的章節(jié),講解了三個(gè)小項(xiàng)目的完整實(shí)現(xiàn)過程,旨在通過操作生活中真正的數(shù)據(jù)來強(qiáng)化前面基礎(chǔ)內(nèi)容的學(xué)習(xí)。
作者簡(jiǎn)介
沈祥壯,自學(xué)Python兩年,以數(shù)據(jù)分析為主線,系統(tǒng)學(xué)習(xí)的數(shù)據(jù)的采集、處理、分析和可視化。在研究統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論的同理,使用Python語(yǔ)言實(shí)現(xiàn)了部分統(tǒng)計(jì)學(xué)習(xí)算法。研究方向包括數(shù)據(jù)采集、數(shù)據(jù)挖掘、統(tǒng)計(jì)機(jī)器學(xué)習(xí)及圖像處理。
目錄
1 準(zhǔn)備
1.1 開發(fā)環(huán)境搭建
1.2 Python基礎(chǔ)語(yǔ)法介紹
1.3 The Zen of Python
2 數(shù)據(jù)的獲取
2.1 爬蟲簡(jiǎn)介
2.2 數(shù)據(jù)抓取實(shí)踐
2.3 爬蟲進(jìn)階
2.4 爬蟲總結(jié)
3 數(shù)據(jù)的存取與清洗
3.1 數(shù)據(jù)存取
3.2 NumPy
3.3 pandas
3.4 數(shù)據(jù)的清洗
4 數(shù)據(jù)的分析及可視化
4.1 探索性數(shù)據(jù)分析
4.2 機(jī)器學(xué)習(xí)入門
4.3 手動(dòng)實(shí)現(xiàn)KNN算法
4.4 數(shù)據(jù)可視化
5 Python與生活
5.1 定制一個(gè)新聞提醒服務(wù)
5.2 Python與數(shù)學(xué)
5.3 QQ群聊天記錄數(shù)據(jù)分析
購(gòu)買地址
京東:https://item.jd.com/12330816.html
當(dāng)當(dāng):http://product.dangdang.com/25247679.html
作者郵箱datahonor@gmail.com。
本書中使用的全部代碼及相關(guān)數(shù)據(jù)已經(jīng)托管至Github, 讀者可以進(jìn)入https://github.com/shenxiangzhuang/PythonDataAnalysis進(jìn)行下載。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新