小白學(xué)數(shù)據(jù)分析:一篇文章讓你看懂NoSQL數(shù)據(jù)庫(kù)
薛菲 | 2016-05-11 17:18
【數(shù)據(jù)猿導(dǎo)讀】 如果你關(guān)注大數(shù)據(jù)科技動(dòng)向,可能聽說(shuō)過(guò)一個(gè)叫NoSQL數(shù)據(jù)庫(kù)的名詞,這可能讓人有些云里霧里。其實(shí)我們處在一個(gè)激動(dòng)人心的技術(shù)更迭時(shí)代,以甲骨文為代表的SQL數(shù)據(jù)庫(kù)已經(jīng)稱霸了企業(yè)市場(chǎng)30年,而近年來(lái)的NoSQL則是強(qiáng)有力的更新?lián)Q代的競(jìng)爭(zhēng)者

本文主要通過(guò)問(wèn)答的方式來(lái)給小白解釋NoSQL數(shù)據(jù)庫(kù)系統(tǒng)是什么,無(wú)論你的技術(shù)背景如何都能看得懂。對(duì)于數(shù)據(jù)分析從業(yè)人員來(lái)說(shuō),了解數(shù)據(jù)庫(kù)的趨勢(shì)可以讓你的職業(yè)生涯如虎添翼;而對(duì)于工程師來(lái)說(shuō),了解新的基礎(chǔ)系統(tǒng)更是必不可少的行業(yè)知識(shí)。
幾個(gè)基本問(wèn)題
小白問(wèn):數(shù)據(jù)庫(kù)是什么東西,可以吃嗎?
答:......不可以。數(shù)據(jù)庫(kù)呢,就是存儲(chǔ)數(shù)據(jù)的地方,就像冰箱是存儲(chǔ)食物的地方一樣。
小白問(wèn):誒?我的數(shù)據(jù)就存儲(chǔ)在自己電腦里面的excel表里里,還要數(shù)據(jù)庫(kù)干嘛?
答:自己的數(shù)據(jù)的確很方便,但是對(duì)于企業(yè)來(lái)說(shuō)就不一樣了。一個(gè)公司里面可能有成千上萬(wàn)的Excel表格,還在不同的電腦上,而他們的員工和客戶需要實(shí)時(shí)看到企業(yè)給他們提供的所有數(shù)據(jù),這種文件管理的方法就很麻煩,總不能每分鐘都把一個(gè)新的巨大無(wú)比的excel文件發(fā)給所有客戶呀!而且數(shù)據(jù)庫(kù)更有用的是進(jìn)行查詢,企業(yè)會(huì)給內(nèi)部或者客戶開發(fā)不同的應(yīng)用,而這些應(yīng)用需要數(shù)據(jù)的時(shí)候可以直接實(shí)用數(shù)據(jù)庫(kù)的查詢語(yǔ)句快速得到結(jié)果。
小白問(wèn):哦,那是說(shuō)所有的人都直接在這個(gè)系統(tǒng)上查數(shù)據(jù)和改數(shù)據(jù)嗎?
答:是的,數(shù)據(jù)庫(kù)也會(huì)幫助你處理“并發(fā)”,也就是如果多個(gè)人同時(shí)在改數(shù)據(jù)的情況。比如你在支付寶給小灰轉(zhuǎn)賬,而小灰這個(gè)時(shí)候又偏偏剛好在給你轉(zhuǎn)賬,這時(shí)候數(shù)據(jù)庫(kù)系統(tǒng)就要保證你們兩個(gè)人最后余額都是正確的,并且在你們進(jìn)行交易的時(shí)候別人如果同時(shí)查詢你們倆人的余額都會(huì)得到精確的結(jié)果。在一個(gè)企業(yè)系統(tǒng)中,一秒鐘可能有成千上萬(wàn)個(gè)這樣的查詢和改動(dòng)發(fā)生呢。
小白問(wèn):那SQL又是什么鬼?
答:SQL是一種可以查詢關(guān)系型數(shù)據(jù)庫(kù)的語(yǔ)言,關(guān)系型數(shù)據(jù)庫(kù)也叫SQL數(shù)據(jù)庫(kù)。
所謂關(guān)系型數(shù)據(jù)庫(kù)就是數(shù)據(jù)是以表格的形式進(jìn)行存儲(chǔ)的,就和你電腦上的Excel表一樣,數(shù)據(jù)是一行一列整整齊齊的躺著的。表格之間有著這樣或那樣的關(guān)系,可以通過(guò)某信息連接在一起 。想查這些表格里的任何數(shù)據(jù)的程序員們就可以把他們想要的數(shù)據(jù)形式轉(zhuǎn)化成SQL語(yǔ)句然后發(fā)給數(shù)據(jù)庫(kù),得到數(shù)據(jù)結(jié)果。比如你可以有一個(gè)食物管理的數(shù)據(jù)庫(kù),里面有兩個(gè)表(食物表和主人表),長(zhǎng)成下面的這個(gè)樣子:
食物編號(hào)食物名稱數(shù)量 喜愛程度主人編號(hào)
1 獼猴桃 4 53
2 菠菜 10 2 2
3巧克力 99 1001
主人編號(hào)主人姓名 主人性別
1小白 女
2小黑 男
3小灰 男
我們可以寫一句簡(jiǎn)單的SQL語(yǔ)句直接調(diào)出所有男主人擁有的食品及數(shù)量。
SELECT 主人姓名,食物名稱,數(shù)量
FROM 食物表,主人表
WHERE 食物表.主人編號(hào)=主人表.主人編號(hào) AND 主人性別=‘男’
=>
主人姓名食物名稱數(shù)量
小黑菠菜10
小灰獼猴桃 4
深入聊聊
小白問(wèn):哦,那NoSQL到底有什么過(guò)人之處呢?
答:因?yàn)榻陙?lái)企業(yè)要處理的數(shù)據(jù)越來(lái)越多,越來(lái)越復(fù)雜,就出現(xiàn)了兩個(gè)之前關(guān)系型數(shù)據(jù)庫(kù)解決不了的問(wèn)題:快速增長(zhǎng)的數(shù)據(jù)規(guī)模和日漸復(fù)雜的數(shù)據(jù)模型。
第一個(gè)問(wèn)題就是數(shù)據(jù)越來(lái)越多,公司以前買的裝關(guān)系型數(shù)據(jù)庫(kù)的那臺(tái)電腦放不下了,那這個(gè)時(shí)候就有兩種選擇:
一種就是直接去買一臺(tái)更大空間的計(jì)算機(jī)取代現(xiàn)有的機(jī)器。這個(gè)方法是有限制的,因?yàn)檫@種機(jī)器的價(jià)格一般非常昂貴,而且這個(gè)空間總是有一個(gè)上限的。
另外一種選擇就是再買一臺(tái)機(jī)器,然后把新的數(shù)據(jù)放到新機(jī)器里的另外一個(gè)SQL數(shù)據(jù)庫(kù)里面,這個(gè)過(guò)程也叫“分片”(sharding)。 這個(gè)時(shí)候程序員要開始杯具的加班了。因?yàn)檫@個(gè)轉(zhuǎn)換的過(guò)程非常容易出問(wèn)題,而且會(huì)給使用數(shù)據(jù)庫(kù)的應(yīng)用增加很多的復(fù)雜度。比如我們之前的例子,在查詢食品和數(shù)量的語(yǔ)句的時(shí)候我們要將同樣的語(yǔ)句同時(shí)發(fā)給兩個(gè)服務(wù)器,然后把最后的結(jié)果綜合起來(lái),給應(yīng)用的開發(fā)增加了很多不必要的負(fù)擔(dān)。分片還有很多別的缺點(diǎn)我就不一一贅述了。
而NoSQL數(shù)據(jù)庫(kù)的服務(wù)器本身就支持很多個(gè)機(jī)器存儲(chǔ)數(shù)據(jù)進(jìn)行分布式查詢,這樣當(dāng)空間不夠用的時(shí)候就直接去扛一臺(tái)新的機(jī)器回來(lái)連接到已有的計(jì)算機(jī)集群上裝好數(shù)據(jù)庫(kù)即可,程序員可以回家睡個(gè)好覺(jué)啦。
小白問(wèn):明白了,那另外一個(gè)關(guān)系型數(shù)據(jù)庫(kù)沒(méi)有解決的問(wèn)題呢?
答:另外的一個(gè)問(wèn)題就是把數(shù)據(jù)放到SQL數(shù)據(jù)之前要進(jìn)行數(shù)據(jù)建模,也就是要考慮好每一個(gè)表里面每一列都代表什么,不同的表格之間要怎樣相互關(guān)聯(lián)起來(lái)。這對(duì)很多公司來(lái)說(shuō)是一件非常耗費(fèi)時(shí)間和精力的事情,因?yàn)樗麄兊臄?shù)據(jù)源的種類太多了。而且在數(shù)據(jù)進(jìn)入數(shù)據(jù)庫(kù)之后,如果在表中增加新的一列(比如想把食物的種類加進(jìn)第一個(gè)表中)或者是要改變某一列的特性的話,對(duì)于系統(tǒng)來(lái)說(shuō)是非常困難的,因?yàn)楸碇械臄?shù)據(jù)已經(jīng)一行行的存好了。
而NoSQL數(shù)據(jù)庫(kù)就減輕了數(shù)據(jù)建模的負(fù)擔(dān),比如上面的表里面的一行可以變成下面JSON文檔的樣子:
{
食物名稱:獼猴桃,
數(shù)量:4,
喜愛程度:5,
主人:{
姓名:小灰,
性別:男
}
}
這樣很方便的可以修改數(shù)據(jù)模型的樣子,而且從源數(shù)據(jù)不需要怎么改就可以放入數(shù)據(jù)庫(kù)。目前用有一個(gè)行業(yè)叫做ETL,就是專門做數(shù)據(jù)形狀轉(zhuǎn)化的:他們將不同的源數(shù)據(jù)打磨到想要的表格的模子里,然后放入關(guān)系型數(shù)據(jù)庫(kù)。這個(gè)行業(yè)價(jià)值好幾十億美元呢,很瘋狂吧?用了NoSQL,公司可以節(jié)省好多時(shí)間和人民幣呢。
小白:那是說(shuō)NoSQL就是用文檔,而SQL就是用表格嗎?
答:NoSQL其實(shí)有很多不同的種類的,適用在不同的情況中并且分別有不同的存儲(chǔ)方法。JSON是文檔類NoSQL的典型格式,我們平時(shí)使用的word和pdf文件都可以很容易放入文檔型數(shù)據(jù)庫(kù)進(jìn)行查詢。而其他種類的NoSQL也可能是用圖或者哈希表的模型來(lái)存儲(chǔ)數(shù)據(jù)。如果你的數(shù)據(jù)存儲(chǔ)的是一個(gè)社交網(wǎng)絡(luò)類型的應(yīng)用,那么對(duì)你來(lái)說(shuō)用一個(gè)基于圖的數(shù)據(jù)庫(kù)可能更加合適,因?yàn)槟汴P(guān)心的社交網(wǎng)絡(luò)場(chǎng)景中的問(wèn)題都可以得到比較快速的回答。
小白問(wèn):既然叫NoSQL,那和SQL肯定是水火不容咯?
答:哪有,NoSql其實(shí)是Not Only SQL,就是不僅僅是SQL,有一些NoSQL數(shù)據(jù)庫(kù)還支持直接用SQL來(lái)做查詢呢。兩者的區(qū)別主要是我上面提到的兩點(diǎn): 1.對(duì)數(shù)據(jù)建模的要求不同:NoSQL的建模程序比較簡(jiǎn)單靈活;2.對(duì)數(shù)據(jù)增加的處理方式不同:使用NoSQL可以直接進(jìn)行分布式處理。在數(shù)據(jù)規(guī)模增長(zhǎng)需要增加新的機(jī)器的時(shí)候,不需要程序員對(duì)使用數(shù)據(jù)庫(kù)的應(yīng)用進(jìn)行代碼進(jìn)行改動(dòng),直接在數(shù)據(jù)庫(kù)集群中增加一臺(tái)新的計(jì)算機(jī)就可以啦。
來(lái)源:大數(shù)據(jù)文摘
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書》重