精品干貨:208個最新最全大數(shù)據(jù)/人工智能專有名詞術(shù)語
36大數(shù)據(jù) | 2017-08-02 09:57
【數(shù)據(jù)猿導讀】 一個產(chǎn)業(yè)的蓬勃發(fā)展離不開基礎(chǔ)知識點的整理與沉淀。我們相信這一份「208個關(guān)于大數(shù)據(jù)和人工智能的專用名詞術(shù)語」中英文對照版 ;會成為大家以后日常工作中常用的工具,無論是你在翻譯、寫產(chǎn)品文檔、寫論文、又或者嘗試國外新技術(shù)的時候都會用得上。

寫在前面
一個產(chǎn)業(yè)的蓬勃發(fā)展離不開基礎(chǔ)知識點的整理與沉淀。我們相信這一份「208個關(guān)于大數(shù)據(jù)和人工智能的專用名詞術(shù)語」中英文對照版 ;會成為大家以后日常工作中常用的工具,無論是你在翻譯、寫產(chǎn)品文檔、寫論文、又或者嘗試國外新技術(shù)的時候都會用得上。所以,我們很高興可以把它整合并且分享出來,并且按照字母進行了排序。
由于文字太多,今天先放出從A-I部分,明天會放出J-Z部分。
感謝大家長期以來的關(guān)注和支持。
A
Apache Kafka:命名于捷克作家卡夫卡,用于構(gòu)建實時數(shù)據(jù)管道和流媒體應用。它如此流行的原因在于能夠以容錯的方式存儲、管理和處理數(shù)據(jù)流,據(jù)說還非常「快速」。鑒于社交網(wǎng)絡環(huán)境大量涉及數(shù)據(jù)流的處理,卡夫卡目前非常受歡迎。
Apache Mahout:Mahout 提供了一個用于機器學習和數(shù)據(jù)挖掘的預制算法庫,也可用作創(chuàng)建更多算法的環(huán)境。換句話說,機器學習極客的最佳環(huán)境。
Apache Oozie:在任何編程環(huán)境中,你都需要一些工作流系統(tǒng)通過預定義的方式和定義的依賴關(guān)系,安排和運行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數(shù)據(jù)工作所提供正是這個。
應用程序開發(fā)(APP DEV):應用程序開發(fā)是根據(jù)用戶要求建造出軟件系統(tǒng)或者系統(tǒng)中的軟件部分的過程,包括需求捕捉、需求分析、設計、實現(xiàn)和測試的系統(tǒng)工程。一般是用某種程序設計語言來實現(xiàn)的。通常采用應用程序開發(fā)工具可以進行開發(fā)。
Apache Drill, Apache Impala, Apache Spark SQL:這三個開源項目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互。如果你已經(jīng)知道 SQL 并處理以大數(shù)據(jù)格式存儲的數(shù)據(jù)(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說的有點奇怪。
Apache Hive:知道 SQL 嗎 如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。
Apache Pig:Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢、執(zhí)行例程的平臺。所使用的腳本語言叫做 Pig Latin(我絕對不是瞎說,相信我)。據(jù)說 Pig 很容易理解和學習。但是我很懷疑有多少是可以學習的
Apache Sqoop:一個用于將數(shù)據(jù)從 Hadoop 轉(zhuǎn)移到非 Hadoop 數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。
Apache Storm:一個免費開源的實時分布式計算系統(tǒng)。它使得使用 Hadoop 進行批處理的同時可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。
人工智能(Artificial Intelligence):研發(fā)智能機器和智能軟件,這些智能設備能夠感知周遭的環(huán)境,并根據(jù)要求作出相應的反應,甚至能自我學習
聚合(Aggregation) : 搜索、合并、顯示數(shù)據(jù)的過程
算法(Algorithm):算法可以理解成一種數(shù)學公式或用于進行數(shù)據(jù)分析的統(tǒng)計學過程。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢 要知道,盡管算法這個詞是一個統(tǒng)稱,但是在這個流行大數(shù)據(jù)分析的時代,算法也經(jīng)常被提及且變得越發(fā)流行。
異常檢測(Anomaly detection) :在數(shù)據(jù)集中搜索與預期模式或行為不匹配的數(shù)據(jù)項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通??商峁╆P(guān)鍵的可執(zhí)行信息
匿名化(Anonymization) :使數(shù)據(jù)匿名,即移除所有與個人隱私相關(guān)的數(shù)據(jù)
應用(Application) :實現(xiàn)某種特定功能的計算機軟件
分析法(Analytics):用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義。讓我們試想一個很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個時候你拿著這張單子,開始認真研究你在食品、衣物、娛樂等方面消費情況的百分比會怎樣 你正在進行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來年自己的消費情況作出決定)中挖掘有用的信息。那么,如果你以類似的方法在推特和臉書上對整個城市人們發(fā)的帖子進行處理會如何呢 在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對大量數(shù)據(jù)進行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來對它們分別進行梳理。
B
批處理(Batch processing):盡管批量數(shù)據(jù)處理從大型機(mainframe)時代就已經(jīng)存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時間內(nèi)收集到的一堆交易數(shù)據(jù))的有效方法。分布式計算(Hadoop),后面會討論,就是一種專門處理批量數(shù)據(jù)的方法。
行為分析(Behavioral Analytics):你有沒有想過谷歌是如何為你需要的產(chǎn)品/服務提供廣告的 行為分析側(cè)重于理解消費者和應用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網(wǎng)模式,社交媒體互動行為,以及我們的網(wǎng)上購物活動(購物車等),連接這些無關(guān)的數(shù)據(jù)點,并試圖預測結(jié)果。舉一個例子,在我找到一家酒店并清空購物車后,我收到了度假村假期線路的電話。我還要說多點嗎
商業(yè)智能(Business Intelligence):我將重用 Gartner 對 BI 的定義,因為它解釋的很好。商業(yè)智能是一個總稱,包括應用程序、基礎(chǔ)設施、工具以及最佳實踐,它可以訪問和分析信息,從而改善和優(yōu)化決策及績效。
生物測定學(Biometrics):這是一項 James Bondish 技術(shù)與分析技術(shù)相結(jié)合的通過人體的一種或多種物理特征來識別人的技術(shù),如面部識別,虹膜識別,指紋識別等。
描述性分析法(Descriptive Analytics):如果你只說出自己去年信用卡消費情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項開支,那么這種分析方法被稱為描述性分析法。當然,你也可以找出更多細節(jié)。
大數(shù)據(jù)科學家(Big Data Scientist):能夠設計大數(shù)據(jù)算法使得大數(shù)據(jù)變得有用的人
大數(shù)據(jù)創(chuàng)業(yè)公司(Big data startup):指研發(fā)最新大數(shù)據(jù)技術(shù)的新興公司
B字節(jié) (BB: Brontobytes):約等于1000 YB(Yottabytes),相當于未來數(shù)字化宇宙的大小。1 B字節(jié)包含了27個0!
大數(shù)據(jù) (Big data):指的是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
數(shù)據(jù)科學平臺(Data science platforms):是數(shù)據(jù)科學家創(chuàng)造和測試數(shù)據(jù)科學解決方案的工作平臺。按照高德納的定義,數(shù)據(jù)科學平臺是“由緊密相關(guān)的多項數(shù)據(jù)處理核心技術(shù)模塊組合而成的軟件系統(tǒng),以支持各類數(shù)據(jù)科學解決方案的開發(fā)及其在業(yè)務流程、周邊基礎(chǔ)設施和產(chǎn)品中的應用。
C
點擊流分析(Clickstream analytics):用于分析用戶在網(wǎng)絡上瀏覽時的在線點擊數(shù)據(jù)。有沒有想過即使在切換網(wǎng)站時,為什么某些谷歌廣告還是陰魂不散 因為谷歌大佬知道你在點擊什么。
聚類分析(Cluster Analysis):是一個試圖識別數(shù)據(jù)結(jié)構(gòu)的探索性分析,也稱為分割分析或分類分析。更具體地說,它試圖確定案例的同質(zhì)組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來識別案例組。因為它是探索性的,確實對依賴變量和獨立變量進行了區(qū)分。SPSS 提供的不同的聚類分析方法可以處理二進制、標稱、序數(shù)和規(guī)模(區(qū)間或比率)數(shù)據(jù)。
比較分析(Comparative Analytics):因為大數(shù)據(jù)的關(guān)鍵就在于分析,顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統(tǒng)計技術(shù)來比較多個進程、數(shù)據(jù)集或其他對象。我知道它涉及的技術(shù)越來越少,但是我仍無法完全避免使用術(shù)語。比較分析可用于醫(yī)療保健領(lǐng)域,通過比較大量的醫(yī)療記錄、文件、圖像等,給出更有效和更準確的醫(yī)療診斷。
關(guān)聯(lián)分析(Connection Analytics):你一定看到了像圖表一樣的蜘蛛網(wǎng)將人與主題連接起來,從而確定特定主題的影響者。關(guān)聯(lián)分析分析可以幫助發(fā)現(xiàn)人們、產(chǎn)品、網(wǎng)絡之中的系統(tǒng),甚至是數(shù)據(jù)與多個網(wǎng)絡結(jié)合之間的相關(guān)連接和影響。
Cassandra:是一個很流行的開源數(shù)據(jù)管理系統(tǒng),由 Apache Software Foundation 開發(fā)并運營。Apache 掌握了很多大數(shù)據(jù)處理技術(shù),Cassandra 就是他們專門設計用于在分布式服務器之間處理大量數(shù)據(jù)的系統(tǒng)。
云計算(Cloud computing):構(gòu)建在網(wǎng)絡上的分布式計算系統(tǒng),數(shù)據(jù)是存儲于機房外的(即云端),軟件或數(shù)據(jù)在遠程服務器上進行處理,并且這些資源可以在網(wǎng)絡上任何地方被訪問,那么它就可被稱為云計算。
集群計算(Cluster computing):這是一個來描述使用多個服務器豐富資源的一個集群(cluster)的計算的形象化術(shù)語。更技術(shù)層面的理解是,在集群處理的語境下,我們可能會討論節(jié)點(node)、集群管理層(cluster management layer)、負載平衡(load balancing)和并行處理(parallel processing)等等。
分類分析(Classification analysis) :從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過程; 這類數(shù)據(jù)也被稱為元數(shù)據(jù)(meta data),是描述數(shù)據(jù)的數(shù)據(jù)。
商業(yè)分析(Commerce analytics):指的是包括審視預計的銷售額、成本和利潤是否達到公司預計目標;如達到,則此產(chǎn)品概念才能進一步發(fā)展到產(chǎn)品開發(fā)階段。
聚類分析(Clustering analysis) : 它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性。
冷數(shù)據(jù)存儲(Cold data storage) :在低功耗服務器上存儲那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會很耗時。
眾包(Crowdsourcing):從一廣泛群體,特別是在線社區(qū),獲取所需想法,服務或內(nèi)容貢獻的實踐。
集群服務器(Cluster server):把多臺服務器通過快速通信鏈路連接起來,從外部看來,這些服務器就像一臺服務器在工作,而對內(nèi)來說,外面來的負載通過一定的機制動態(tài)地分配到這些節(jié)點機中去,從而達到超級服務器才有的高性能、高可用。
對比分析(Comparative analysis) :在非常大的數(shù)據(jù)集中進行模式匹配時,進行一步步的對比和計算過程得到分析結(jié)果。
復雜結(jié)構(gòu)的數(shù)據(jù)(Complex structured data) : 由兩個或多個復雜而相互關(guān)聯(lián)部分組成的數(shù)據(jù),這類數(shù)據(jù)不能簡單地由結(jié)構(gòu)化查詢語言或工具(SQL)解析。
計算機產(chǎn)生的數(shù)據(jù)(Computer generated data) :如日志文件這類由計算機生成的數(shù)據(jù)。
并發(fā)(Concurrency) : 同時執(zhí)行多個任務或運行多個進程。
相關(guān)性分析(Correlation analysis) : 是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關(guān),或者負相關(guān)。
客戶關(guān)系管理(CRM: Customer Relationship Management) :用于管理銷售、業(yè)務過程的一種技術(shù),大數(shù)據(jù)將影響公司的客戶關(guān)系管理的策略。
云數(shù)據(jù)(Cloud data):是基于云計算商業(yè)模式應用的數(shù)據(jù)集成、數(shù)據(jù)分析、數(shù)據(jù)整合、數(shù)據(jù)分配、數(shù)據(jù)預警的技術(shù)與平臺的總稱。
D
數(shù)據(jù)分析師(Data Analyst):數(shù)據(jù)分析師是一個非常重要和受歡迎的工作,除了準備報告之外,它還負責收集、編輯和分析數(shù)據(jù)。
數(shù)據(jù)清洗(Data Cleansing):顧名思義,數(shù)據(jù)清洗涉及到檢測并更正或者刪除數(shù)據(jù)庫中不準確的數(shù)據(jù)或記錄,然后記住「臟數(shù)據(jù)」。借助于自動化或者人工工具和算法,數(shù)據(jù)分析師能夠更正并進一步豐富數(shù)據(jù),以提高數(shù)據(jù)質(zhì)量。請記住,臟數(shù)據(jù)會導致錯誤的分析和糟糕的決策。
數(shù)據(jù)即服務(DaaS):通過給用戶提供按需訪問的云端數(shù)據(jù),DaaS 提供商能夠幫助我們快速地得到高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)虛擬化(Data virtualization):這是一種數(shù)據(jù)管理方法,它允許某個應用在不知道技術(shù)細節(jié)(如數(shù)據(jù)存放在何處,以什么格式)的情況下能夠抽取并操作數(shù)據(jù)。例如,社交網(wǎng)絡利用這個方法來存儲我們的照片。
臟數(shù)據(jù)(Dirty Data):臟數(shù)據(jù)就是不干凈的數(shù)據(jù),換言之,就是不準確的、重復的以及不一致的數(shù)據(jù)。顯然,你不會想著和臟數(shù)據(jù)攪在一起。所以,盡快地修正它。
暗數(shù)據(jù)(Dark data):公司積累和處理的實際上完全用不到的所有數(shù)據(jù),從這個意義上來說我們稱它們?yōu)椤赴怠沟臄?shù)據(jù),它們有可能根本不會被分析。這些數(shù)據(jù)可以是社交網(wǎng)絡中的信息,電話中心的記錄,會議記錄等等。很多估計認為所有公司的數(shù)據(jù)中有 60% 到 90% 不等可能是暗數(shù)據(jù),但實際上沒人知道。
數(shù)據(jù)流(data stream):最初是通信領(lǐng)域使用的概念,代表傳輸中所使用的信息的數(shù)字編碼信號序列。然而,我們所提到的數(shù)據(jù)流概念與此不同。
數(shù)據(jù)湖(Data lake):即一個以大量原始格式保存了公司級別的數(shù)據(jù)知識庫。這里我們介紹一下數(shù)據(jù)倉庫(Data warehouse)。數(shù)據(jù)倉庫是一個與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經(jīng)過清理和并且其它資源整合后的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉庫經(jīng)常被用于通用數(shù)據(jù)(但不一定如此)。一般認為,一個數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。
數(shù)據(jù)資源管理(Data Resources):是應用信息技術(shù)和軟件工具完成組織數(shù)據(jù)資源管理任務的管理活動。
數(shù)據(jù)源(Data Source):顧名思義,數(shù)據(jù)的來源,是提供某種所需要數(shù)據(jù)的器件或原始媒體。在數(shù)據(jù)源中存儲了所有建立數(shù)據(jù)庫連接的信息。就像通過指定文件名稱可以在文件系統(tǒng)中找到文件一樣,通過提供正確的數(shù)據(jù)源名稱,你可以找到相應的數(shù)據(jù)庫連接。
數(shù)據(jù)挖掘(Data mining):從一大群數(shù)據(jù)中以復雜的模式識別技巧找出有意義的模式,并且得到相關(guān)洞見。
數(shù)據(jù)分析平臺(Data analyst platforms): 主要通過集成企業(yè)內(nèi)部運營支撐系統(tǒng)和外部數(shù)據(jù),包括交易型大數(shù)據(jù)(Big Transaction Data)和交互型大數(shù)據(jù)(Big Interaction Data),通過多種云計算的技術(shù)將之集成和處理,向企業(yè)內(nèi)部和外部企業(yè)客戶提供有極大商業(yè)價值的信息支撐和智能解決方案,基于大數(shù)據(jù)平臺建設的數(shù)據(jù)倉庫的基礎(chǔ)上,提供報表工具,分析工具,結(jié)合企業(yè)的實際需求進行的解決方案實施服務;企業(yè)的管理人員、業(yè)務分析人員等可以通過web、手機或其它移動設備訪問,以便隨時了解企業(yè)的關(guān)鍵指標和進行深度業(yè)務分析。
分布式文件系統(tǒng)(Distributed File System):大數(shù)據(jù)數(shù)量太大,不能存儲在一個單獨的系統(tǒng)中,分布式文件系統(tǒng)是一個能夠把大量數(shù)據(jù)存儲在多個存儲設備上的文件系統(tǒng),它能夠減少存儲大量數(shù)據(jù)的成本和復雜度。
儀表板(Dashboard) :使用算法分析數(shù)據(jù),并將結(jié)果用圖表方式顯示于儀表板中。
數(shù)據(jù)存取(Data access):是指數(shù)據(jù)庫數(shù)據(jù)存貯組織和存貯路徑的實現(xiàn)和維護。
數(shù)據(jù)傳送(data transfer):是指在數(shù)據(jù)源和數(shù)據(jù)宿之間傳送數(shù)據(jù)的過程,也稱數(shù)據(jù)通信。
數(shù)據(jù)聚合工具(Data aggregation tools) :將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個全新數(shù)據(jù)源的過程。
數(shù)據(jù)庫(Database) :一個以某種特定的技術(shù)來存儲數(shù)據(jù)集合的倉庫。
數(shù)據(jù)庫管理系統(tǒng)(DBMS: Database Management System) :收集、存儲數(shù)據(jù),并提供數(shù)據(jù)的訪問。
數(shù)據(jù)中心(Data centre) : 一個實體地點,放置了用來存儲數(shù)據(jù)的服務器。
數(shù)據(jù)管理員(Data custodian) :負責維護數(shù)據(jù)存儲所需技術(shù)環(huán)境的專業(yè)技術(shù)人員。
數(shù)據(jù)道德準則(Data ethical guidelines) :這些準則有助于組織機構(gòu)使其數(shù)據(jù)透明化,保證數(shù)據(jù)的簡潔、安全及隱私。
數(shù)據(jù)訂閱(Data feed) : 一種數(shù)據(jù)流,例如Twitter訂閱和RSS。
數(shù)據(jù)集市(Data marketplace) :進行數(shù)據(jù)集買賣的在線交易場所。
數(shù)據(jù)建模(Data modelling) :使用數(shù)據(jù)建模技術(shù)來分析數(shù)據(jù)對象,以此洞悉數(shù)據(jù)的內(nèi)在涵義。
數(shù)據(jù)集(Data set) :大量數(shù)據(jù)的集合。
數(shù)據(jù)虛擬化(Data virtualization) :數(shù)據(jù)整合的過程,以此獲得更多的數(shù)據(jù)信息,這個過程通常會引入其他技術(shù),例如數(shù)據(jù)庫,應用程序,文件系統(tǒng),網(wǎng)頁技術(shù),大數(shù)據(jù)技術(shù)等等。
去身份識別(De-identification) :也稱為匿名化(anonymization),確保個人不會通過數(shù)據(jù)被識別。
判別分析(Discriminant analysis) :將數(shù)據(jù)分類;按不同的分類方式,可將數(shù)據(jù)分配到不同的群組,類別或者目錄。是一種統(tǒng)計分析法,可以對數(shù)據(jù)中某些群組或集群的已知信息進行分析,并從中獲取分類規(guī)則。
分布式文件系統(tǒng)(Distributed File System) :提供簡化的,高可用的方式來存儲、分析、處理數(shù)據(jù)的系統(tǒng)。
文件存貯數(shù)據(jù)庫(Document Store Databases) :又稱為文檔數(shù)據(jù)庫(document-oriented database), 為存儲、管理、恢復文檔數(shù)據(jù)而專門設計的數(shù)據(jù)庫,這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)治理(Data Governance) :數(shù)據(jù)治理是指從使用零散數(shù)據(jù)變?yōu)槭褂媒y(tǒng)一主數(shù)據(jù)、從具有很少或沒有組織和流程治理到企業(yè)范圍內(nèi)的綜合數(shù)據(jù)治理、從嘗試處理主數(shù)據(jù)混亂狀況到主數(shù)據(jù)井井有條的一個過程。
數(shù)據(jù)轉(zhuǎn)換服務(Data Transfer Service): 主要用作在不同的數(shù)據(jù)庫之間轉(zhuǎn)換數(shù)據(jù),比如在SQL Server和Oracle之間轉(zhuǎn)換數(shù)據(jù)。
數(shù)據(jù)集成(Data integration):是把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。
E
ETL:ETL 代表提取、轉(zhuǎn)換和加載。它指的是這一個過程:「提取」原始數(shù)據(jù),通過清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統(tǒng)使用。即使 ETL 源自數(shù)據(jù)倉庫,但是這個過程在獲取數(shù)據(jù)的時候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。
企業(yè)級應用(Enterprise applications):其實是一個軟件行業(yè)內(nèi)部通用的一個術(shù)語。如果解釋成通俗易懂的話來說,那就是一個企業(yè)范圍內(nèi)所使用的、基于計算機的穩(wěn)定的、安全的和高效的分布式信息管理系統(tǒng)。
探索性分析(Exploratory analysis) :在沒有標準的流程或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)集主要特性的一種方法
E字節(jié)(EB: Exabytes):約等于1000 PB(petabytes), 約等于1百萬 GB。如今全球每天所制造的新信息量大約為1 EB。
提取-轉(zhuǎn)換-加載(ETL: Extract, Transform and Load) : 是一種用于數(shù)據(jù)庫或者數(shù)據(jù)倉庫的處理過程。即從各種不同的數(shù)據(jù)源提取(E)數(shù)據(jù),并轉(zhuǎn)換(T)成能滿足業(yè)務需要的數(shù)據(jù),最后將其加載(L)到數(shù)據(jù)庫。
企業(yè)生產(chǎn)力(Enterrrise productivity):企業(yè)在一定時期為社會提供某種產(chǎn)品或勞務的能力。
F
模糊邏輯(Fuzzy logic):我們有多少次對一件事情是確定的,例如 100% 正確 很稀少!我們的大腦將數(shù)據(jù)聚合成部分的事實,這些事實進一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計算方式,與像布爾代數(shù)等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實來模仿人腦。
故障切換(Failover) :當系統(tǒng)中某個服務器發(fā)生故障時,能自動地將運行任務切換到另一個可用服務器或節(jié)點上。
架構(gòu)(Framework):又名軟件架構(gòu),是有關(guān)軟件整體結(jié)構(gòu)與組件的抽象描述,用于指導大型軟件系統(tǒng)各個方面的設計。
流量監(jiān)控(Flow monitoring): 流量監(jiān)控指的是對數(shù)據(jù)流進行的監(jiān)控,通常包括出數(shù)據(jù)、入數(shù)據(jù)的速度、總流量。微信用戶可以在騰訊手機管家4.7上實現(xiàn)流量的精準監(jiān)控。
容錯設計(Fault-tolerant design) :一個支持容錯設計的系統(tǒng)應該能夠做到當某一部分出現(xiàn)故障也能繼續(xù)運行。
金融(Finance):是人們在不確定環(huán)境中進行資源跨期的最優(yōu)配置決策的行為。
G
游戲化(Gamification) :在其他非游戲領(lǐng)域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數(shù)據(jù)的創(chuàng)建和偵測,非常有效。
圖形數(shù)據(jù)庫(Graph Databases) :運用圖形結(jié)構(gòu)(例如,一組有限的有序?qū)?,或者某種實體)來存儲數(shù)據(jù),這種圖形存儲結(jié)構(gòu)包括邊緣、屬性和節(jié)點。它提供了相鄰節(jié)點間的自由索引功能,也就是說,數(shù)據(jù)庫中每個元素間都與其他相鄰元素直接關(guān)聯(lián)。
網(wǎng)格計算(Grid computing) :將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過云將計算機相連在一起。
H
Hadoop 用戶體驗(Hadoop User Experience /Hue):Hue 是一個能夠讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基于 web 的應用;它有一款分布式文件系統(tǒng)的文件瀏覽器;它有用于 MapReduce 的任務設計;它有能夠調(diào)度工作流的框架 Oozie;它有一個 shell、一個 Impala、一個 Hive UI 以及一組 Hadoop API。
人力資本(Human capital):是指勞動者受到教育、培訓、實踐經(jīng)驗、遷移、保健等方面的投資而獲得的知識和技能的積累,亦稱“非物力資本”。
硬件設施(Hardware): 計算機系統(tǒng)中由電子,機械和光電元件等組成的各種物理裝置的總稱。
高性能分析應用(HANA):這是 SAP 公司為大數(shù)據(jù)傳輸和分析設計的一個軟硬件內(nèi)存平臺。
HBase: 一個分布式的面向列的數(shù)據(jù)庫。它使用 HDFS 作為其底層存儲,既支持利用 MapReduce 進行的批量計算,也支持利用事物交互的批量計算。
Hadoop :一個開源的分布式系統(tǒng)基礎(chǔ)框架,可用于開發(fā)分布式程序,進行大數(shù)據(jù)的運算與存儲。
Hadoop數(shù)據(jù)庫(HBase) :一個開源的、非關(guān)系型、分布式數(shù)據(jù)庫,與Hadoop框架共同使用。
分布式文件系統(tǒng)(Hadoop Distributed File System):是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。
高性能計算(HPC: High-Performance-Computing) :使用超級計算機來解決極其復雜的計算問題。
部署在云上的Hadoop(Hadoop in the cloud):某些云解決方案完全基于某個特定服務,該服務將會加載并處理數(shù)據(jù)。例如,借助 IBM Bluemix,您可以基于 IBM InfoSphere BigInsights 配置一個 MapReduce 服務,該服務可以處理高達 20GB 的信息。但 Hadoop 服務的大小、配置與復雜性是不可配置的。其他基于服務的解決方案也提供同樣類別的復雜性。
I
基礎(chǔ)設施即服務(Infrastructure As a Service):消費者通過Internet 可以從完善的計算機基礎(chǔ)設施獲得服務。這類服務稱為基礎(chǔ)設施即服務。
基礎(chǔ)設施即代碼(Infrastructure As a Code):一種通過源代碼就可以解析計算和網(wǎng)絡架構(gòu)的一種方式,然后就可以認為是任何一種軟件系統(tǒng)。這些代碼可以在源代碼管理中被保存以確??蓪徯院驮偎苄?,受限于測試實踐和持續(xù)交付的所有準則。這是十幾年前就被用在處理成長中的云計算平臺的方法,也將會是日后處理計算架構(gòu)的主要方式。
內(nèi)存計算(In-memory computing):通常認為,任何不涉及到 I/O 訪問的計算都會更快一些。內(nèi)存計算就是這樣的技術(shù),它把所有的工作數(shù)據(jù)集都移動到集群的集體內(nèi)存中,避免了在計算過程中向磁盤寫入中間結(jié)果。Apache Spark 就是一個內(nèi)存計算的系統(tǒng),它相對 Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢。
物聯(lián)網(wǎng)(IoT):最新的流行語就是物聯(lián)網(wǎng)(IoT)。IoT 是嵌入式對象中(如傳感器、可穿戴設備、車、冰箱等等)的計算設備通過英特網(wǎng)的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網(wǎng)生成了海量的數(shù)據(jù),帶來了很多大數(shù)據(jù)分析的機遇。
內(nèi)存數(shù)據(jù)庫(IMDB: In-memory) :一種數(shù)據(jù)庫管理系統(tǒng),與普通數(shù)據(jù)庫管理系統(tǒng)不同之處在于,它用主存來存儲數(shù)據(jù),而非硬盤。其特點在于能高速地進行數(shù)據(jù)的處理和存取。
法律上的數(shù)據(jù)一致性(Juridical data compliance) :當你使用的云計算解決方案,將你的數(shù)據(jù)存儲于不同的國家或不同的大陸時,就會與這個概念扯上關(guān)系了。你需要留意這些存儲在不同國家的數(shù)據(jù)是否符合當?shù)氐姆伞?/p>
來源:36大數(shù)據(jù)
刷新相關(guān)文章
我要評論
活動推薦more >
- 2018 上海國際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國際計算機網(wǎng)絡及信2018-12-03
- 中國國際信息通信展覽會將于2018-09-26
- 第五屆FEA消費金融國際峰會62018-06-21
- 第五屆FEA消費金融國際峰會2018-06-21
- “無界區(qū)塊鏈技術(shù)峰會2018”2018-06-14
不容錯過的資訊
-
1#后疫情時代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎“年度汽車
-
4數(shù)據(jù)智能 無限未來—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風起云涌時,共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風險感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實時新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺丨數(shù)據(jù)猿
-
10#后疫情時代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新