神奇動物在哪里,但導(dǎo)演是微軟
原創(chuàng) 火焰翼人 | 2024-05-24 20:36
【數(shù)據(jù)猿導(dǎo)讀】 一說到計(jì)算機(jī)視覺,大多數(shù)人第一時(shí)間聯(lián)想到的便是“人臉識別”、“自動駕駛“、道路檢測”等跟我們?nèi)粘I钕⑾⑾嚓P(guān)的關(guān)鍵詞。而在2024年的5月末,微軟在GitHub上面上傳了這樣一個(gè)計(jì)算機(jī)視覺的項(xiàng)目,完全不包含這些關(guān)鍵詞,卻吸引來了無數(shù)人圍觀,短短兩天時(shí)間就沖到了700顆星。...

一說到計(jì)算機(jī)視覺,大多數(shù)人第一時(shí)間聯(lián)想到的便是“人臉識別”、“自動駕駛“、道路檢測”等跟我們?nèi)粘I钕⑾⑾嚓P(guān)的關(guān)鍵詞。而在2024年的5月末,微軟在GitHub上面上傳了這樣一個(gè)計(jì)算機(jī)視覺的項(xiàng)目,完全不包含這些關(guān)鍵詞,卻吸引來了無數(shù)人圍觀,短短兩天時(shí)間就沖到了700顆星。
這個(gè)項(xiàng)目就是Pytorch-Wildlife。項(xiàng)目成立的初衷是因?yàn)槿祟惢顒訉?dǎo)致全球生物多樣性急劇下降,對野生動物種群的全面監(jiān)控變得尤為迫切。
可是想要完全利用人力,來對某一種群或者某一塊棲息地進(jìn)行24小時(shí)監(jiān)控,這顯然是不現(xiàn)實(shí)的。不僅僅是因?yàn)槌杀具^于高昂,而是人類肉眼很難完整觀察清楚一些行動迅敏的動物,這就會導(dǎo)致沒有辦法準(zhǔn)確記錄物種以及棲息地情況。于是在這個(gè)大背景下,Pytorch-Wildlife誕生了。
PyTorch-Wildlife是一個(gè)用于創(chuàng)建、修改和共享強(qiáng)大 AI 保護(hù)模型的平臺。這些模型可用于各種應(yīng)用,包括相機(jī)陷阱圖像(當(dāng)檢測到動物經(jīng)過時(shí)進(jìn)行拍照)、俯視圖像、水下圖像以及生物聲學(xué)。通俗來講,項(xiàng)目是利用數(shù)據(jù)集和深度學(xué)習(xí)架構(gòu)來實(shí)現(xiàn)保護(hù)野生動物的目的。
項(xiàng)目的原理其實(shí)并不復(fù)雜。首先,利用了Megadetector v5進(jìn)行對象檢測,這是一個(gè)預(yù)先訓(xùn)練好的模型,用以過濾掉空圖像或含有非動物對象(如人類和車輛)的圖像。
圖:亞馬遜叢林的動物
Megadetector是基于Yolov5檢測模型架構(gòu),專門為動物檢測設(shè)計(jì)的深度學(xué)習(xí)模型。能夠處理來自不同地區(qū)和生態(tài)系統(tǒng)的大約300萬張動物圖像。
接下來,對所拍攝的視頻和圖像進(jìn)行采集,把采集得到的數(shù)據(jù)喂給Megadetector v5進(jìn)行識別篩選。其中,對于視頻數(shù)據(jù),每段視頻按30fps的幀率被拆分成圖像幀,如果原視頻幀率低于30fps,則使用原始幀率。這種取舍可以平衡模型的運(yùn)行效率以及識別精準(zhǔn)度。
針對檢測到的動物對象,Pytorch-Wildlife會將它們裁剪并調(diào)整至256x256像素的尺寸,并根據(jù)圖像級別的標(biāo)注為每個(gè)裁剪圖像分配標(biāo)簽。
大多數(shù)深度學(xué)習(xí)模型,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它對輸入的素材是有嚴(yán)格規(guī)范的。256x256其實(shí)是一個(gè)常見的選擇,因?yàn)樗饶鼙3忠欢ǖ膱D像細(xì)節(jié),又不會使計(jì)算負(fù)擔(dān)過大。
在裁剪之后,利用Pytorch-Wildlife的分類微調(diào)模塊,采用ResNet-50作為基礎(chǔ)模型架構(gòu),進(jìn)行動物的識別訓(xùn)練。訓(xùn)練設(shè)置包括60個(gè)訓(xùn)練周期,批量大小為128,采用隨機(jī)梯度下降優(yōu)化器,并設(shè)定學(xué)習(xí)率在每20個(gè)周期后衰減。
以往來看,開發(fā)者需要對模型進(jìn)行微調(diào),模型才能夠更好地理解和區(qū)分特定的動物類別,提高在實(shí)際野生動物監(jiān)測任務(wù)中的識別準(zhǔn)確率。而Pytorch-Wildlife框架提供的微調(diào)模塊則簡化了這一過程,使得即使是沒有深厚技術(shù)背景的研究人員,也能利用先進(jìn)的深度學(xué)習(xí)技術(shù)進(jìn)行動物識別模型的定制化訓(xùn)練。
Pytorch-Wildlife團(tuán)隊(duì)準(zhǔn)備兩份案例,第一個(gè)是在亞馬遜叢林中檢測動物。
亞馬遜雨林是世界上最大的熱帶雨林,是地球上生物多樣性最豐富的地區(qū)之一。亞馬遜雨林里的動物數(shù)量是非常驚人的,已知的動物種類超過了10萬種,這包括鳥類、哺乳動物、爬行動物、兩棲動物以及其他無脊椎動物等。但是這個(gè)數(shù)字僅僅是已記錄和描述的物種,現(xiàn)代學(xué)者普遍認(rèn)為,還有成千上萬甚至是數(shù)百萬種動物物種尚未被發(fā)現(xiàn)和描述。由于亞馬遜雨林的廣闊和復(fù)雜性,新的物種仍在不斷被發(fā)現(xiàn),因此確切的動物種類數(shù)量是一個(gè)不斷變化且難以精確統(tǒng)計(jì)的數(shù)字。
Pytorch-Wildlife使用了一個(gè)包含41904張圖像的數(shù)據(jù)集,這些圖像覆蓋了36個(gè)已標(biāo)記的動物屬,其中33569張用于訓(xùn)練,8335張用于驗(yàn)證。
在亞馬遜雨林項(xiàng)目中,模型實(shí)現(xiàn)了92%的識別準(zhǔn)確率,針對90%的數(shù)據(jù)集在98%的置信度閾值下正確預(yù)測。這意味著,大部分動物圖像能夠被準(zhǔn)確分類,只有少量需要人工審核。
除了亞馬遜叢林的案例外,Pytorch-Wlidlife還有一個(gè)在加拉帕戈斯群島的項(xiàng)目。這個(gè)項(xiàng)目的背景非常獨(dú)特,雖然加拉帕戈斯群島的動物種類也很多,然而這個(gè)脆弱的生態(tài)系統(tǒng)正面臨外來入侵物種的重大威脅,這些物種可能改變本地物種的種群動態(tài)并導(dǎo)致它們滅絕。
Pytorch-Wlidlife檢測到,一些負(fù)鼠通過船只、陸地等手段,正在入侵加拉帕戈斯群島的生態(tài)。對本地生物構(gòu)成了競爭壓力,因此連續(xù)的監(jiān)測和管理對于維持生態(tài)平衡至關(guān)重要。
項(xiàng)目中使用的數(shù)據(jù)集包含491471段視頻,這些視頻被標(biāo)記為“負(fù)鼠”或“非負(fù)鼠”。數(shù)據(jù)集被劃分為訓(xùn)練集和驗(yàn)證集,分別包含343053段和148418段視頻。
經(jīng)過驗(yàn)證,Pytorch-Wildlife平臺訓(xùn)練的模型針對入侵的負(fù)鼠識別達(dá)到了98%的準(zhǔn)確率。比如下面兩張圖,由于是夜間拍攝的緣故,即便是人的肉眼也很難第一時(shí)間分清兩種動物。第一張圖片是當(dāng)?shù)氐氖诚伀F,第二張是外來入侵物種負(fù)鼠。
圖:食蟻獸
圖:負(fù)鼠
這部片接下來要怎么拍?
Pytorch-Wildlife在監(jiān)控和識別上初步取得了成功,不過這對于保護(hù)生態(tài)平衡上來說顯然還是遠(yuǎn)遠(yuǎn)不夠的。未來Pytorch-Wildlife將會連接LILA:BC數(shù)據(jù)集,進(jìn)一步提高對物種識別的能力。
LILA數(shù)據(jù)集指的是亞歷山大圖書館的標(biāo)注信息庫:生物與保護(hù)(Labeled Information Library of Alexandria:Biology and Conservation),這是一個(gè)專注于生物學(xué)和野生動物保護(hù)領(lǐng)域的數(shù)據(jù)集庫,提供了多樣化的開放數(shù)據(jù)資源,用于促進(jìn)野生動植物的監(jiān)測、保護(hù)生物學(xué)研究以及生態(tài)系統(tǒng)的管理。
LILA數(shù)據(jù)集包含大量經(jīng)過標(biāo)注的信息,比如圖片、視頻和其他類型的數(shù)據(jù),這些數(shù)據(jù)有助于科學(xué)家和保護(hù)工作者利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)來識別和跟蹤野生動物,評估生物多樣性。此外,通過使用LILA進(jìn)行與訓(xùn)練,還能夠監(jiān)測生態(tài)系統(tǒng)的健康狀況。
圖:Pytorch-Wildlife未來的規(guī)劃圖
數(shù)據(jù)猿也體驗(yàn)了一下Megadetector的實(shí)力。識別模型選擇Megadetector v5,檢測模型選擇的是亞馬遜叢林??梢悦黠@看出,只要是亞馬遜叢林中出現(xiàn)的動物,Megadetector都能很好的識別出來。
圖:亞馬遜叢林中的豹子
不過像是數(shù)據(jù)猿LOGO這種卡通動物形象,即便把識別閾值拉滿,Megadetector也沒有辦法識別出來。相反,如果是真實(shí)的動物,Megadetector只需要很低的閾值就能識別。
圖:Megadetector無法識別卡通動物形象
根據(jù)開發(fā)團(tuán)隊(duì)的介紹,Megadetector的最新版本,也就是Megadetector v6即將上線,識別率遠(yuǎn)超v5版本,同時(shí)消耗的計(jì)算資源更低。目前,使用Megadetector v5檢測一張圖片耗時(shí)約為20秒,而v6版本將會讓耗時(shí)小于15秒。
另外Megadetector v6還會支持更多的低預(yù)算設(shè)備,這是因?yàn)樵趤嗰R遜叢林等地,溫?zé)岢睗竦纳鷳B(tài)環(huán)境會使得拍攝設(shè)備損壞率提高,沒辦法長期維持成本高昂的拍攝設(shè)備。然而成本較低的拍攝設(shè)備會導(dǎo)致拍攝畫面的分辨率低下,幀數(shù)低下等等,對Megadetector的識別作業(yè)起到非常負(fù)面的影響。
在未來,Pytorch-Wildlife會支持更多種類的識別方式,比如鳥瞰圖、水下拍攝。這何嘗不是一種新的云養(yǎng)殖野生動物的方法?
AI For Good
Pytorch-Wildlife屬于典型的AI For Good項(xiàng)目,這個(gè)概念由微軟提出,不過與其說是概念,更像是一種倡議。它是指在推動人工智能技術(shù)的發(fā)展與應(yīng)用,以解決全球性的社會、環(huán)境和經(jīng)濟(jì)挑戰(zhàn),促進(jìn)可持續(xù)發(fā)展。這一理念鼓勵(lì)科研人員、企業(yè)、政府、非政府組織以及社會各界合作,利用人工智能的力量創(chuàng)造正面影響,確保技術(shù)進(jìn)步惠及全人類和地球生態(tài)。
不一定非得是動物,其他類似的方式都可以算是AI For Good。例如,通過機(jī)器學(xué)習(xí)算法監(jiān)測森林砍伐、海洋污染、氣候變化和生物多樣性減少,以及開發(fā)智能系統(tǒng)優(yōu)化資源利用和能源管理。
事實(shí)上,Pytorch-Wildlife的核心,Megadetector,幾乎沒有辦法復(fù)刻任何的商業(yè)途徑。但這個(gè)項(xiàng)目依然擁有足夠高的關(guān)注度,說明人們關(guān)注AI,使用AI技術(shù),眼里并不是只有它的商業(yè)化能力,而是如何去使用AI,來建設(shè)賴以生存的家園。當(dāng)然了,也有一部分人是沖著這個(gè)項(xiàng)目可以免費(fèi)看真正的野生動物去的。
國內(nèi)也有不少AI公司著手于類似的項(xiàng)目,比如百度的“綠色伙伴計(jì)劃”,通過AI來減少碳排放。根據(jù)記錄,百度地圖“低碳計(jì)劃”全年累計(jì)訪問量超過 4000 萬人次,累計(jì)可減少碳排放量超 3800 噸。
還有騰訊的“自然風(fēng)險(xiǎn)評估”,應(yīng)用AI調(diào)優(yōu)技術(shù),騰訊2023年當(dāng)年減少用電量約5000兆瓦時(shí),避免碳排放2851.5噸。
來源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評論
不容錯(cuò)過的資訊
-
1字節(jié)AI Bot扣子底層已接入通義千問、Min
-
2重磅!通義千問GPT-4級主力模型降價(jià)97%
-
3IOTE 2024第22屆國際物聯(lián)網(wǎng)展·深圳站邀
-
4“中國壽險(xiǎn)科技應(yīng)用高峰論壇”及“中國財(cái)
-
5阿里云通義大模型助力“小愛同學(xué)”;IBM
-
6Kimi大模型API已支持Tool Calling功能;
-
7【合作報(bào)名】數(shù)據(jù)猿2024年度三大媒體策劃
-
8Ant Group plans to launch a dens
-
9All Value launch a large model d
-
10訊飛星火Lite版永久免費(fèi);彩云科技發(fā)布全
大數(shù)據(jù)企業(yè)推薦more >
大家都在搜
