生物大數(shù)據(jù)激增 或揭示疾病如何發(fā)生
翟文珠 | 2016-08-18 13:35
【數(shù)據(jù)猿導(dǎo)讀】 基因組測序技術(shù)發(fā)展之快已經(jīng)超乎人們的想象。十年前,這項技術(shù)還只是實驗室中一個“迷人”但又昂貴的研究工具?,F(xiàn)在,它卻已經(jīng)漸漸步入醫(yī)療界,成為一種略顯“尖端”的診斷技術(shù)。該技術(shù)也引領(lǐng)生物醫(yī)學(xué)領(lǐng)域進入大數(shù)據(jù)時代

自2012年美國總統(tǒng)奧巴馬提出“大數(shù)據(jù)”(Big Data)以來,生物大數(shù)據(jù)如火如荼地發(fā)展。通過高通量測序,我們已經(jīng)積累了龐大的基因數(shù)據(jù),通過移動互聯(lián)網(wǎng),我們也獲得了海量的健康信息。這些數(shù)據(jù)的應(yīng)用,將為疾病的診斷、分型、醫(yī)藥開發(fā)提供新方向以及新工具。然而如何分析基因以及健康數(shù)據(jù),是橫亙在大數(shù)據(jù)本身與解決健康問題之間難以逾越的鴻溝。不過有一點我們可以確信:當(dāng)大數(shù)據(jù)分析的精度越來越高時,我們對疾病發(fā)生的過程就會有更深入的了解。
21世紀(jì)初,人類基因組計劃(HGP)發(fā)布了第一張人類基因草圖,人的基因組約有30億個堿基對,意味著每一個人的基因組有3Gb以上的數(shù)據(jù)。該計劃曾與上世紀(jì)的曼哈頓計劃(原子彈制造)、阿波羅登月計劃并稱為三大科學(xué)計劃,為本世紀(jì)的一個里程碑式的科學(xué)工程。
15年過去了,基因組測序技術(shù)發(fā)展之快已經(jīng)超乎人們的想象。十年前,這項技術(shù)還只是實驗室中一個“迷人”但又昂貴的研究工具。現(xiàn)在,它卻已經(jīng)漸漸步入醫(yī)療界,成為一種略顯“尖端”的診斷技術(shù)。該技術(shù)也引領(lǐng)生物醫(yī)學(xué)領(lǐng)域進入大數(shù)據(jù)時代。
早前,曾有人預(yù)言,當(dāng)個人基因組測序費用下降到1000美元時,就標(biāo)志著我們的醫(yī)學(xué)將進入個體化醫(yī)療(Personalized Medicine)的時代。現(xiàn)在,這個目標(biāo)已基本達到,隨著這項技術(shù)的迅猛發(fā)展和成本的扁平化,它已經(jīng)開始給我們帶來了龐大的數(shù)據(jù),包括基因組、蛋白組等各類組學(xué)(omics)的出現(xiàn),也帶來了不少數(shù)據(jù)。
1. 海量數(shù)據(jù)的產(chǎn)生
剛過去的七八年間,我們儲存的個人基因組數(shù)據(jù)量已達到106規(guī)模,這個數(shù)量如此驚人,且這只是剛剛開始。每年Illumina公司的HiSeq X 10測序儀已經(jīng)可以完成超過18000人的基因組測序工作,該測序系統(tǒng)已分布在全球頂尖測序中心,每天產(chǎn)生大量的數(shù)據(jù)。英國2014年也啟動了“十萬人基因組計劃”,美國和中國則宣布要完成多達一百萬人的基因組數(shù)據(jù)收集工作。
基因測序數(shù)據(jù)正在以更快的速度翻倍。2015年以后,以歷史累積的測序數(shù)據(jù)來看,每7個月就能翻一番, Illumina儀器測序所得的數(shù)據(jù),每12個月就能翻一番;如果僅以摩爾定律來看,每18個月數(shù)據(jù)量就能翻一番。這種情況將帶來一個巨大的“數(shù)據(jù)黑洞”。圖片來自nature.com
以上所提及的,只是大數(shù)據(jù)時代下的一個縮影,現(xiàn)在面臨的還有其他數(shù)據(jù)。比如,伴隨基因組計劃的發(fā)展,人類蛋白組計劃和基因測序結(jié)果在醫(yī)療界的應(yīng)用等也被逐步提出,它們也正在給大數(shù)據(jù)“添磚加瓦”。所謂人類蛋白組計劃,主要目的在于研究所有人類基因編碼產(chǎn)生的蛋白質(zhì)。關(guān)于這個,我們來看一個研究者的故事。
邁克爾·斯奈德(Michael Snyder)是美國斯坦福大學(xué)的一名分子遺傳學(xué)家。當(dāng)他抱著好奇的心態(tài)測了自己的基因組后,得到了一些“驚喜”。他發(fā)現(xiàn),自己是一名II型糖尿病易感基因的攜帶者,盡管在這之前,他并沒在自己身上發(fā)現(xiàn)任何此類疾病的風(fēng)險因素,包括肥胖、家族病史等等。在接下來的14個月,斯奈德持續(xù)監(jiān)控了自己體內(nèi)相應(yīng)RNA的活性和蛋白表達情況。在一次感染呼吸道病毒后,他發(fā)現(xiàn)自己體內(nèi)的蛋白表達發(fā)生了變化,并且有相應(yīng)的生物學(xué)通路被激活。接著,他被診斷出了糖尿病。看起來,這場病就是由這次病毒感染所觸發(fā)的。此后,他還在患上萊姆關(guān)節(jié)炎時,也監(jiān)控了自己體內(nèi)的蛋白表達變化。這時,他的研究已經(jīng)產(chǎn)生了多達50Gb的數(shù)據(jù),這還僅僅只是關(guān)于他個人的研究數(shù)據(jù)。當(dāng)他將這項研究擴展至100個人時,并將研究目標(biāo)擴展至13類“組學(xué)”(包括蛋白組、腸道菌群的轉(zhuǎn)錄組等等),而實際上,按照他的計劃,要想真正做到預(yù)測疾病,還需要將研究對象增加至上百萬個病人。如此這樣,它將會帶來多大的數(shù)據(jù)量?
各種電子設(shè)備的普及以及健康數(shù)據(jù)記錄App的出現(xiàn),給這個時代帶來了海量的數(shù)據(jù),也給醫(yī)學(xué)界帶來了可觀的研究對象。過去的幾十年間,醫(yī)生如果要觀察病人的心血管健康情況,往往會給他們做這么一個小測試:讓他們在一段平緩、穩(wěn)固的路上行走6分鐘,并記錄他們的行走距離。這個測試不僅可用于預(yù)測肺移植者的存活率,還可用于檢測肌肉萎縮的病程發(fā)展,甚至可以評估心血管患者的健康狀況。這種小測試已被運用于多項醫(yī)療研究中,但在過去,最大規(guī)模的醫(yī)療研究項目中,這種參與者也很少能達到一千人。
智能手機中健康類App的出現(xiàn),從而能讓研究者獲取大量人群的數(shù)據(jù)。圖片來自nature.com
不過,這個情況近年來發(fā)生了很大的變化。在2015年3月進行的一項心血管研究中,研究者尤安·阿什利(Euan Ashley)在兩周時間內(nèi)就拿到了6000個人的測試結(jié)果,這就得益于現(xiàn)在有數(shù)百萬計的人擁有智能手機和健身追蹤器。到了6月份,參與到這項研究中的人數(shù)達到了40000人,這僅僅依靠的是一款叫做“我的心臟計數(shù)”(My Health Counts,見上圖)的蘋果應(yīng)用。有了這個應(yīng)用軟件,阿什利甚至可以招募來自全球的參與者,獲取他們的測試結(jié)果。那樣的話,他得到的數(shù)據(jù)又將是多少?面對這個現(xiàn)狀,不少研究者表示,這些海量數(shù)據(jù)可能會淹沒現(xiàn)有的分析渠道,并對數(shù)據(jù)存儲提出前所未有的“高”要求。
2. “大數(shù)據(jù)”時代下的挑戰(zhàn)
在群體基因組研究的浪潮下,雖然更多的人關(guān)注的僅僅只是整個基因組中的外顯子部分,即基因組中可編碼產(chǎn)生蛋白的部分,它占到了整個基因組的1-5%,這能夠?qū)⑿枰治龅臄?shù)據(jù)量減少到原來的1%。但即使在這種情況下,每年產(chǎn)出的數(shù)據(jù)量仍可達4000萬Gb。這就帶來了第一個難題,如何存儲這么大的數(shù)據(jù)量?
盡管這還只是這個領(lǐng)域最基本的問題,仍需要巨大的資源來解決。這就是近年來網(wǎng)絡(luò)上最常出現(xiàn)的一個詞——云(Cloud)出現(xiàn)的契機所在。這么大的數(shù)據(jù)量,必然無法僅僅保存在固定的設(shè)備上,需要借助互聯(lián)網(wǎng)來實現(xiàn),也即是所謂的“云存儲”。此外,這些數(shù)據(jù)帶來的處理危機也是巨大的,電腦處理能力也將局限著它們的應(yīng)用。這個問題的初步解決依然要依靠“云”,也就是現(xiàn)在所謂的“云計算”。
即使處理好了海量數(shù)據(jù)的存儲問題,我們還將迎來另一個更讓人頭痛的問題——這些數(shù)據(jù)說明了什么?現(xiàn)在關(guān)于基因組學(xué)的臨床研究,往往聚焦于識別個人基因組中可擾亂基因功能的“小錯誤”,即所謂單核苷酸突變(single-nucleotide variants, SNPs),即使這些突變往往存在于僅占基因組1%的外顯子區(qū)域,平均下來,依然有近13000個之多,而其中的2%已被預(yù)知可影響相應(yīng)蛋白的變化,但要從中找出某類疾病的具體致病基因,仍是一個巨大的挑戰(zhàn)。
自奧巴馬提出了“精準(zhǔn)醫(yī)學(xué)”的概念,這個方向就一路紅火。即使現(xiàn)在已經(jīng)有了測序技術(shù)和分析工具這些手段,有了電子健康記錄這位“好幫手”,這種醫(yī)療方法的理想和現(xiàn)實之間仍然有著巨大的鴻溝。在這個領(lǐng)域,仍然存在多種障礙。比如,即使在電子健康記錄普及和新療法研發(fā)成功的前提下,想要依靠臨床醫(yī)生來實現(xiàn)這些療法,往往還需要對他們進行不間斷的培訓(xùn),以幫助他們在做醫(yī)學(xué)決定前了解足夠多的細節(jié)信息。
此外,電子健康記錄的不可共享性(即涉及到病人隱私的問題),為精準(zhǔn)醫(yī)療的實現(xiàn)設(shè)置了不小的障礙。很多時候,治療患者個體病例的特異性信息往往被患者個人和治療機構(gòu)所把持,到不了研究者手里,那么就無法據(jù)此信息來改進一些治療方法,因此也就沒辦法實現(xiàn)對個人的“個體化醫(yī)療”。這些問題往往反映生物醫(yī)學(xué)領(lǐng)域需要信息處理專家的介入和幫助。遺憾的是,生物信息學(xué)家在學(xué)術(shù)領(lǐng)域也僅僅只占很少的席位,更別提在醫(yī)學(xué)領(lǐng)域,還需要給他們提供更多的職位和機會。
3. “大數(shù)據(jù)”帶來的機遇
有挑戰(zhàn)也必然會帶來機遇,這個機遇可以體現(xiàn)在生物醫(yī)學(xué)領(lǐng)域的多個方面,比如醫(yī)療界的診斷方法更新、疾病分型更新、醫(yī)藥界藥物開發(fā)新方向、醫(yī)學(xué)界疾病治療新方法,甚至生物學(xué)科基礎(chǔ)研究領(lǐng)域的新工具等等。
2013年,安吉麗娜·朱莉的故事轟動全球,為減少患上乳腺癌的風(fēng)險,她進行了預(yù)防性的雙乳腺切除術(shù),而這個決定是在她檢測到自身攜帶一種風(fēng)險基因——BRCA基因后才做出的。這類基因能帶來顯著的致病風(fēng)險,約有55-65%的乳腺癌患者攜帶有害的BRCA1基因突變,45%的攜帶BRCA2突變。對朱莉來說,雖然她攜帶的僅僅是前一個基因,已足以讓她做出預(yù)防性手術(shù)的決定。這個故事給出了一個鮮活的例子,就是如何把個體測序得到的數(shù)據(jù)與臨床診斷聯(lián)系在一起,這就好像人類正在從自己的基因組中找到這些失落的寶藏,從而幫助自己預(yù)防一些惡性疾病,但這只是這個時代所帶來的一個福利而已,并且只占到很少的一部分。
以糖尿病為例,不精確的疾病分型,對于前期的預(yù)防和后期的治療都十分不利。之前,醫(yī)學(xué)界已經(jīng)知道,有多達百余種途徑可能導(dǎo)致糖尿病的發(fā)生,涉及到胰腺、肝臟、肌肉、大腦甚至脂肪的不同變化?,F(xiàn)代通過基因的研究發(fā)現(xiàn),對不同類型糖尿病而言,其致病基因十分多樣。這時,如果將這些不同亞型的糖尿病混為一談,就會讓人很難弄明白,為什么攜帶同樣的基因突變,病人在面對同一治療方案時,會出現(xiàn)完全不同的治療效果。
正如生物化學(xué)家阿蘭·阿蒂(Alan Attie)所說的那樣,“從致病基因到體重、血糖水平等表型的出現(xiàn)這一過程,往往有許多步,其中每一步都可能發(fā)生基因突變,這最終會削弱基因和表型之間的聯(lián)系”。因此,只看表型(即臨床癥狀)和只看突變基因,得到的都只會是片面的結(jié)果。只有將兩者有機結(jié)合起來,才能更加深我們對疾病的了解,做到更精確地進行疾病分型,以便更容易“對癥下藥”。
美國國立衛(wèi)生研究院(NIH)曾發(fā)起一項大型項目,構(gòu)建了癌癥基因組數(shù)據(jù)庫(the Cancer Genome Altas,簡稱TCGA),將所有癌癥相關(guān)基因突變分類保存,共保存有250萬Gb的數(shù)據(jù),這大大改進了研究者對各種類型癌癥的認識。但僅僅這樣,對于提供了組織樣本的患者來說,并沒給他們的臨床經(jīng)歷帶來太多改變。
與癌癥治療相關(guān)的另一方面,是個人電子健康記錄及其病例的特異性信息。對很多研究者來說,如果能從醫(yī)院或個人手中得到這部分信息,就能夠卓有成效地進行癌癥治療方案的改進。總體而言,只有在拿到測序大數(shù)據(jù)的基礎(chǔ)上,同時掌握病人的干預(yù)記錄(來自個人的電子健康記錄)和臨床特征(來自醫(yī)療機構(gòu)的臨床病理記錄),才能最終做到“升級”腫瘤的臨床治療方案。
醫(yī)藥研發(fā)也能從大數(shù)據(jù)獲益良多,這無可厚非。在醫(yī)藥研發(fā)的世界里,基因技術(shù)公司更傾向于進行長期的生物學(xué)研究,并將其聯(lián)系到臨床數(shù)據(jù)上,以使得藥物能夠“對癥下藥”到每個人身上,甚至?xí)椭扑幑咀龀龈?ldquo;大膽”的研發(fā)決定,進行個性化定制免疫療法的研究。
以微生物菌群研究為例?,F(xiàn)在就有人提出這樣的想法:什么時候我們會想要研發(fā)出能改變體內(nèi)微生物菌群的藥物呢?這些存在于我們腸道、皮膚表面和環(huán)境中的數(shù)以十億計的微生物,不僅影響我們是否患病,還會影響到藥物對疾病所產(chǎn)生的藥效?,F(xiàn)在大部分對于微生物菌群研究得到的數(shù)據(jù)還只是針對小部分人群,但這是否也意味著一個不錯的研究方向?畢竟我們現(xiàn)在還缺乏一些穩(wěn)定的測試手段,能讓我們以一種持續(xù)性的方法來改變微生物菌群,并對疾病發(fā)展產(chǎn)生有意義的影響。
對免疫學(xué)研究來說,大數(shù)據(jù)會帶來什么?首先,有以下“組學(xué)”都可以對免疫學(xué)研究產(chǎn)生有利影響,包括:基因組、微生物組、表觀基因組、轉(zhuǎn)錄組、代謝組、通路組、細胞組和蛋白組。具體來說,比如對特定B細胞或T細胞所有抗體抗原分子的分析,這些分析結(jié)果(尤其是與能識別對應(yīng)抗體的抗原決定簇的技術(shù)相結(jié)合),可將臨床診斷、抗體藥物研發(fā)、疫苗研發(fā)上升到一個新高度,并能為自身抗原肽結(jié)合抗體提供新見解。
伴隨著荊棘的引路,往往也會引來好歌喉的夜鶯。大數(shù)據(jù)給我們帶來挑戰(zhàn)的同時,也帶來了機遇,尤其是對于一些惡性疾病(比如癌癥)的治療。一種單一類型的腫瘤,往往就會伴隨著多樣化的基因突變,但隨著投入更多的時間和金錢,會得到更多的治療靶點。當(dāng)大數(shù)據(jù)分析的精度越來越高時,對于整個疾病發(fā)生過程的了解也會越來越深入,有了“大數(shù)據(jù)分析”這項利器,更多的精準(zhǔn)治療方案將會產(chǎn)生,幫助人們做出更好的選擇。
來源:知識分子微信公眾號
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡(luò)及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新