百度定制化圖像開(kāi)放平臺(tái)訓(xùn)練評(píng)測(cè)
章磊 | 2018-03-13 14:50
【數(shù)據(jù)猿導(dǎo)讀】 深度學(xué)習(xí)領(lǐng)域一直缺乏人才,傳統(tǒng)公司沒(méi)有辦法訓(xùn)練自己的深度學(xué)習(xí)模型。并且,業(yè)務(wù)主導(dǎo)的公司往往沒(méi)有辦法積累幾十萬(wàn)數(shù)據(jù)量來(lái)訓(xùn)練一個(gè)深度學(xué)習(xí)的模型。頭部的AI公司往往在人才儲(chǔ)備和數(shù)據(jù)上有著無(wú)可比擬的優(yōu)勢(shì)。因此,科技巨頭往往形成了一個(gè)數(shù)據(jù)和人才的壟斷地位

來(lái)源:數(shù)據(jù)猿 作者:章磊(星塵數(shù)據(jù))
背景介紹
百度在去年11月推出了定制化圖像訓(xùn)練服務(wù)(https://ai.baidu.com/customize/app/model/)。隨著深度學(xué)習(xí)在圖像處理方面的成熟,基于CNN的遷移學(xué)習(xí)被證明是非常有效的。越來(lái)越多的傳統(tǒng)業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù),都面臨著提高效率和自動(dòng)化的業(yè)務(wù)升級(jí)需求。甚至在一些需要實(shí)時(shí)處理海量圖片的場(chǎng)合,例如電商圖片搜索等場(chǎng)景,利用圖片搜索到相似商品已經(jīng)變得和文本搜索一樣成為一個(gè)剛需了。
深度學(xué)習(xí)領(lǐng)域一直缺乏人才,傳統(tǒng)公司沒(méi)有辦法訓(xùn)練自己的深度學(xué)習(xí)模型。并且,業(yè)務(wù)主導(dǎo)的公司往往沒(méi)有辦法積累幾十萬(wàn)數(shù)據(jù)量來(lái)訓(xùn)練一個(gè)深度學(xué)習(xí)的模型。頭部的AI公司往往在人才儲(chǔ)備和數(shù)據(jù)上有著無(wú)可比擬的優(yōu)勢(shì)。因此,科技巨頭往往形成了一個(gè)數(shù)據(jù)和人才的壟斷地位。
今年初,Google推出了AutoML服務(wù),它的目標(biāo)是:無(wú)需機(jī)器學(xué)習(xí)專業(yè)知識(shí)和能力即可訓(xùn)練高質(zhì)量的定制化模型。自此,科技巨頭紛紛走入了壯士斷腕的陣列,犧牲自己的模型盈利空間,為非AI專業(yè)人士拋出服務(wù)工具幫助他們生成屬于自己業(yè)務(wù)場(chǎng)景的模型。不過(guò),如今Google的AutoML服務(wù)仍然是Alpha模式,網(wǎng)上也沒(méi)有看到任何文檔說(shuō)明。
這次百度推出了基于小樣本的圖像訓(xùn)練服務(wù),而且把數(shù)據(jù)、建模、測(cè)試、部署、上線等一系列過(guò)程集合在了網(wǎng)站上。用戶只需要點(diǎn)點(diǎn)鼠標(biāo)即可得到屬于自己的模型,而且是免費(fèi)的,可謂非常的良心。
訓(xùn)練流程
訓(xùn)練自己的模型其實(shí)非常容易,簡(jiǎn)單地說(shuō),只要四步即可得到數(shù)據(jù)自己的模型。
1. 創(chuàng)建模型:登錄百度賬號(hào)后提交基礎(chǔ)信息,點(diǎn)擊“創(chuàng)建模型”,填寫(xiě)模型名稱和使用場(chǎng)景,即可開(kāi)始創(chuàng)建模型。
2. 上傳數(shù)據(jù)集:按照格式要求整理圖片,上傳訓(xùn)練圖片壓縮包,完成訓(xùn)練集準(zhǔn)備。
3. 訓(xùn)練模型:選擇數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù),進(jìn)行訓(xùn)練,支持對(duì)同一模型多次迭代。
4.校驗(yàn)?zāi)P停?/strong>訓(xùn)練完成后可進(jìn)行效果校驗(yàn),提交校驗(yàn)圖片,校驗(yàn)?zāi)P蜏?zhǔn)確度。
5. 模型上線: “訓(xùn)練完成”的模型即可申請(qǐng)模型上線,預(yù)計(jì)當(dāng)天即可完成上線,上線后在“我的模型”查看“上線詳情”,獲得專有的定制圖像識(shí)別API,同時(shí)參考API文檔(http://ai.baidu.com/docs#/ImageClassify-API/564753d3)即可正常使用。
6. 擴(kuò)展訓(xùn)練:后續(xù)如有識(shí)別類型擴(kuò)展的需求,可以進(jìn)入“數(shù)據(jù)集管理”,繼續(xù)上傳新的壓縮包,或者基于單個(gè)分類標(biāo)簽進(jìn)行擴(kuò)充。
訓(xùn)練結(jié)果
所有模型的截圖
Caltech 101
地址:http://www.vision.caltech.edu/Image_Datasets/Caltech101/
101種物品識(shí)別。準(zhǔn)確率95.18%,F(xiàn)1-score 0.93??傮w準(zhǔn)確度是可以接受的,我這里打開(kāi)了具體結(jié)果查看了一下每個(gè)類別的準(zhǔn)確度:
木桶:精確度100.00% F1-score 1.00
螞蟻:精確度88.89% F1-score 0.89
錨:精確度81.82% F1-score 0.72
可以發(fā)現(xiàn),模型的generalization能力還是不夠。對(duì)于簡(jiǎn)單的、一致性比較高的物體識(shí)別率達(dá)到了100%。而對(duì)于復(fù)雜的螞蟻外形,可以看到準(zhǔn)確度只有89%。對(duì)于復(fù)雜外形的錨,而且還經(jīng)常有遮擋和伴隨物等情況下,模型能力進(jìn)一步得到挑戰(zhàn),準(zhǔn)確度下降到了82%。這個(gè)網(wǎng)絡(luò)也顯示了復(fù)雜度不夠的一些特點(diǎn)。也許用更加深一點(diǎn)的網(wǎng)絡(luò)效果會(huì)更好。值得注意的是,F(xiàn)1下降到了0.72,說(shuō)明recall的分?jǐn)?shù)已經(jīng)到了更加低的位置。也就是說(shuō),如果應(yīng)用是遺漏損失比準(zhǔn)確識(shí)別的收益高的場(chǎng)景,這個(gè)模型會(huì)造成比較大的損失。
Flowers(5 classes with 4242 images):
數(shù)據(jù):https://www.kaggle.com/alxmamaev/flowers-recognition/data
準(zhǔn)確率91.89% F1-score 0.92
可以看到,復(fù)雜圖像,特別是數(shù)量不是單一的情況下,準(zhǔn)確度下降的比較厲害。不過(guò)如果用人作為基準(zhǔn)比較的話,還在非常可以接受的程度。
Food(20 classes x 1000 images):
數(shù)據(jù):https://www.vision.ee.ethz.ch/datasets_extra/food-101/
準(zhǔn)確率82.18% F1-score 0.82
這個(gè)數(shù)據(jù)集很有名氣,也很有挑戰(zhàn)性。因?yàn)槭澄锊幌窕菢佑泄潭ǖ臉邮?,形狀和材質(zhì)都有很大的變化,而且還伴隨著配料、位置等不確定因素。對(duì)機(jī)器來(lái)說(shuō),難度可謂非常大。業(yè)界最好的結(jié)果,用到了ResNet或其他非常深的網(wǎng)絡(luò),在101分類和每類1000個(gè)樣本的情況下達(dá)到了90%以上的準(zhǔn)確度。
最后是所有模型的截圖
總結(jié)
可見(jiàn),百度的圖像訓(xùn)練服務(wù),在一些場(chǎng)景下效果非常不錯(cuò),而在一些場(chǎng)景下顯得力不從心。不過(guò),這已經(jīng)是從零到一的飛躍,讓非AI人士也可以體會(huì)一把自己訓(xùn)練模型的快感。并且真正的可以用來(lái)服務(wù)于自己的業(yè)務(wù)。真心為這些AI浪尖的兄弟們舉個(gè)大寫(xiě)的贊。
建議
1.給出訓(xùn)練過(guò)程的一些細(xì)節(jié),例如數(shù)據(jù)上傳、訓(xùn)練模型的進(jìn)度,精確顯示可以減少等待的煩躁。
2.允許多個(gè)模型同時(shí)訓(xùn)練,這樣客戶可以加快尋找到最優(yōu)的訓(xùn)練數(shù)據(jù)集的過(guò)程。
3.提供熱力圖(Heatmap),方便用戶對(duì)不同類之間結(jié)果進(jìn)行觀察和理解。
4.可以給出網(wǎng)絡(luò)架構(gòu)的選項(xiàng),不同的模型架構(gòu)在的數(shù)據(jù)集上的表現(xiàn)也會(huì)不一樣。
5.給出一些技術(shù)文檔,增加透明度。例如學(xué)習(xí)速度、Train和Validation set的比例、提前終止的條件、Optimizer的選擇等。
6.甚至讓一些超參可以手動(dòng)調(diào)節(jié),也許民間高手可以提供更優(yōu)的參數(shù)集。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
活動(dòng)推薦more >
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)2018-06-21
- “無(wú)界區(qū)塊鏈技術(shù)峰會(huì)2018”2018-06-14
不容錯(cuò)過(guò)的資訊
-
1#后疫情時(shí)代的新思考#疫情之下,關(guān)于醫(yī)
-
2數(shù)據(jù)軟件產(chǎn)品和服務(wù)商DataHunter完成B輪
-
3眾盟科技獲ADMIC 2020金粲獎(jiǎng)“年度汽車
-
4數(shù)據(jù)智能 無(wú)限未來(lái)—2020世界人工智能大
-
5#2020非凡大賞:數(shù)字化風(fēng)起云涌時(shí),共尋
-
6#榜樣的力量#天璣數(shù)據(jù)大腦疫情風(fēng)險(xiǎn)感知
-
7#榜樣的力量#內(nèi)蒙古自治區(qū)互聯(lián)網(wǎng)醫(yī)療服
-
8#榜樣的力量#實(shí)時(shí)新型肺炎疫情數(shù)據(jù)小程
-
9#榜樣的力量#華佗疫情防控平臺(tái)丨數(shù)據(jù)猿
-
10#后疫情時(shí)代的新思考#構(gòu)建工業(yè)互聯(lián)網(wǎng)新