麻省理工的“神科技”:大數(shù)據(jù)分析自動(dòng)化
【數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)分析包括尋找有某種預(yù)測(cè)能力的埋藏模式。但是,選擇哪些數(shù)據(jù)的“特征”來(lái)進(jìn)行分析通常需要靠人類(lèi)的直覺(jué)

在一個(gè)包含數(shù)據(jù)庫(kù)中,舉個(gè)例子,各種促銷(xiāo)和每周的利潤(rùn)的開(kāi)始和結(jié)束日期,其關(guān)鍵數(shù)據(jù)可能不是日期本身而是它們之間的跨度,或著不是總利潤(rùn),但平均跨越這些跨度。
這套取代人的直覺(jué)與算法的系統(tǒng),優(yōu)于906個(gè)人類(lèi)團(tuán)隊(duì)中的615個(gè)團(tuán)隊(duì)。
大數(shù)據(jù)分析包括尋找有某種預(yù)測(cè)能力的埋藏模式。但是,選擇哪些數(shù)據(jù)的“特征”來(lái)進(jìn)行分析通常需要靠人類(lèi)的直覺(jué)。在一個(gè)包含數(shù)據(jù)庫(kù)中,舉個(gè)例子,各種促銷(xiāo)和每周的利潤(rùn)的開(kāi)始和結(jié)束日期,其關(guān)鍵數(shù)據(jù)可能不是日期本身而是它們之間的跨度,或著不是總利潤(rùn),但平均跨越這些跨度。
麻省理工學(xué)院的研究人員的目標(biāo)是,用一個(gè)不僅能搜索模式也能設(shè)計(jì)特征的新系統(tǒng)把人類(lèi)元素從大數(shù)據(jù)分析中剝離出來(lái)。為了測(cè)試他們系統(tǒng)的第一個(gè)原型,他們參加了三個(gè)數(shù)據(jù)科學(xué)競(jìng)賽,它與人類(lèi)團(tuán)隊(duì)比賽,在不熟悉的數(shù)據(jù)集中找到預(yù)測(cè)模式。906個(gè)團(tuán)隊(duì)參與了三項(xiàng)比賽,研究人員的“數(shù)據(jù)科學(xué)機(jī)器”先于615個(gè)團(tuán)隊(duì)完成。
在三項(xiàng)比賽中,數(shù)據(jù)科學(xué)機(jī)器的預(yù)測(cè)的準(zhǔn)確率是94%和96%。第三個(gè)數(shù)字則是一個(gè)更為溫和的數(shù)字87%。人類(lèi)的團(tuán)隊(duì)通常需要進(jìn)行好幾個(gè)月的預(yù)測(cè)算法,而數(shù)據(jù)科學(xué)機(jī)器產(chǎn)生它的每一個(gè)條目只花了2-12小時(shí)。
“我們把數(shù)據(jù)科學(xué)機(jī)器視為人類(lèi)智能的自然補(bǔ)充,”Kanter說(shuō),他在麻省理工的碩士論文是《數(shù)據(jù)科學(xué)機(jī)器的基礎(chǔ)》。“有這么多的數(shù)據(jù)需要進(jìn)行分析?,F(xiàn)在它(機(jī)器)只是待在那里沒(méi)有做任何事。因此,也許我們可以拿出一個(gè)至少讓我們能夠開(kāi)始著手、讓我們前進(jìn)的解決方案。”
項(xiàng)目之間
Kanter和他的導(dǎo)師KalyanVeeramachaneni,麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的研究科學(xué)家(CSAIL),在他們的論文中描述了數(shù)據(jù)科學(xué)機(jī)器,Kanter將在下周的IEEE國(guó)際科學(xué)數(shù)據(jù)和先進(jìn)分析會(huì)議上發(fā)表。
Veeramachaneni統(tǒng)一領(lǐng)導(dǎo)計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的所有成員組,在大數(shù)據(jù)分析的實(shí)際問(wèn)題中采用機(jī)器學(xué)習(xí)技術(shù),如依據(jù)風(fēng)電場(chǎng)場(chǎng)址確定其發(fā)電能力或預(yù)測(cè)學(xué)生從在線課程中輟學(xué)的風(fēng)險(xiǎn)。
“我們從解決一些工業(yè)數(shù)據(jù)科學(xué)問(wèn)題的經(jīng)驗(yàn)中觀察到的是一個(gè)非常關(guān)鍵的步驟,稱(chēng)為特征工程,”Veeramachaneni說(shuō)。“你要做的第一件事就是把你的數(shù)據(jù)從數(shù)據(jù)庫(kù)或結(jié)構(gòu)中提取出來(lái),為了做這個(gè),你必須得有很多想法。”
例如,2個(gè)關(guān)鍵指標(biāo)被用在預(yù)測(cè)輟學(xué)上:一個(gè)學(xué)生花多少時(shí)間解決一個(gè)問(wèn)題集和一個(gè)學(xué)生相比他或她的同學(xué)花了多少時(shí)間在課程網(wǎng)站上。麻省理工學(xué)院的在線學(xué)習(xí)平臺(tái)MITx不記錄那些統(tǒng)計(jì)數(shù)字,但它可以從推斷中收集數(shù)據(jù)。
特色組成
Kanter和Veeramachaneni使用了一些技巧來(lái)制定數(shù)據(jù)分析候選特征。一種是利用數(shù)據(jù)庫(kù)設(shè)計(jì)中固有的結(jié)構(gòu)關(guān)系。數(shù)據(jù)庫(kù)通常在不同的表中存儲(chǔ)不同類(lèi)型的數(shù)據(jù),使用數(shù)字標(biāo)識(shí)表示它們之間的相關(guān)性。數(shù)據(jù)科學(xué)機(jī)器跟蹤這些相關(guān)性,將它們作為一個(gè)線索進(jìn)行功能建設(shè)。
例如,一個(gè)表可以列出零售項(xiàng)目和它們的成本;另一個(gè)表可能包括在個(gè)別客戶購(gòu)買(mǎi)的項(xiàng)目中列出的項(xiàng)目。數(shù)據(jù)科學(xué)機(jī)器將從第一個(gè)表中的第一個(gè)表輸入到第二個(gè)。然后,從第二表的關(guān)聯(lián)的幾個(gè)不同的項(xiàng)目中選擇相同的購(gòu)買(mǎi)數(shù)量,它將執(zhí)行一套操作,以產(chǎn)生候選功能:總成本,每個(gè)訂單,每個(gè)訂單的平均成本,最低成本,每個(gè)訂單,等等。作為跨表格的數(shù)字標(biāo)識(shí),數(shù)據(jù)科學(xué)機(jī)器會(huì)在各自層的頂端進(jìn)行相互操作,找到最小的平均值、平均數(shù)、和等。
它也尋找所謂的分類(lèi)數(shù)據(jù),這似乎是限制在一個(gè)有限的范圍內(nèi)的值,如一周的天數(shù)或品牌名稱(chēng)。然后,它會(huì)依據(jù)劃分現(xiàn)有的跨類(lèi)別的功能產(chǎn)生新的功能。
一旦它生成了一系列的備選項(xiàng),它會(huì)減少它們的數(shù)量以確定這些值具有相關(guān)性。然后開(kāi)始測(cè)試其樣本數(shù)據(jù)的簡(jiǎn)化特征,使它們以不同的方式來(lái)優(yōu)化它們預(yù)測(cè)收益率的準(zhǔn)確性。
“數(shù)據(jù)科學(xué)機(jī)器是一個(gè)令人驚奇的、最前沿的研究解決實(shí)際問(wèn)題的項(xiàng)目,是一種看問(wèn)題的全新的方式。”MargoSeltzer說(shuō)到,他是一個(gè)沒(méi)有參與這項(xiàng)工作的哈佛大學(xué)計(jì)算機(jī)科學(xué)教授。“我想他們所做的將迅速成為一種標(biāo)準(zhǔn)——很快就會(huì)。”
來(lái)源:網(wǎng)絡(luò)大數(shù)據(jù)
刷新相關(guān)文章
我要評(píng)論
人物專(zhuān)訪more >
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車(chē)
-
3數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
4#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
5#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
6#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
7#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
8#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
9#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新
-
102020可信云大會(huì)丨《云MSP發(fā)展白皮書(shū)》重