【戰(zhàn)“疫”案例展】騰訊——“智能復(fù)學(xué)碼”科技抗疫公益案例
原創(chuàng) 騰訊 | 2022-07-20 11:33
【數(shù)據(jù)猿導(dǎo)讀】 “智能復(fù)學(xué)碼”助力復(fù)工、復(fù)學(xué)健康情況統(tǒng)計(jì),扼殺“隱匿傳播”。

騰訊案例
本項(xiàng)目由騰訊投遞并參與“數(shù)據(jù)猿行業(yè)盤(pán)點(diǎn)季大型主題策劃活動(dòng)—— #榜樣的力量# 《新冠戰(zhàn)“疫”——中國(guó)數(shù)據(jù)智能產(chǎn)業(yè)最具社會(huì)責(zé)任感企業(yè)》榜單/獎(jiǎng)項(xiàng)”評(píng)選。
01疫情形式向好,復(fù)工復(fù)學(xué)提上日程
2022疫情的反復(fù),導(dǎo)致全國(guó)多地反復(fù)陷入“停工停學(xué)”的狀態(tài)。在疫情得到逐步控制的過(guò)程中,迫切希望將“復(fù)工復(fù)學(xué)”提上日程的廣大政府、企事業(yè)單位、院校、公益組織和大眾群體面臨龐大的健康信息收集、申報(bào)、跟蹤、統(tǒng)計(jì)工作:例如學(xué)校、單位等往往需要提前收集與確認(rèn)相關(guān)成員的健康信息,包括健康碼、行程碼、核酸監(jiān)測(cè)結(jié)果等。往往這些工作都是老師、社區(qū)工作者、行政 HR 等手動(dòng)、人工完成,工作量巨大且十分繁復(fù),同時(shí)在精準(zhǔn)性上不容有失。
02為防止疫情反撲及隱匿傳播,做好健康信息統(tǒng)計(jì)工作至關(guān)重要
為保障各地“復(fù)工復(fù)學(xué)”工作的順利進(jìn)行,將“隱匿傳播”扼殺在搖籃之中,騰訊問(wèn)卷團(tuán)隊(duì)結(jié)合成員切身需求——騰訊問(wèn)卷疫情健康申報(bào)服務(wù)項(xiàng)目應(yīng)運(yùn)而生,如何將自動(dòng)識(shí)別圖片信息的能力與問(wèn)卷已有的表單收集能力結(jié)合起來(lái)、并為問(wèn)卷管理員提供高效準(zhǔn)確的統(tǒng)計(jì)服務(wù)成為項(xiàng)目的重中之重。
騰訊問(wèn)卷聯(lián)合騰訊云微搭、騰訊云 AI、優(yōu)圖、騰訊技術(shù)公益團(tuán)隊(duì)推出的疫情健康申報(bào)服務(wù),便是基于表單收集與數(shù)據(jù)統(tǒng)計(jì)功能,在騰訊云微搭低代碼能力的支持下,通過(guò)騰訊云 AI 的OCR文字識(shí)別技術(shù),實(shí)現(xiàn)快速識(shí)別健康碼、行程碼、核酸檢測(cè)、抗原檢測(cè)結(jié)果等各類(lèi)截圖。
項(xiàng)目開(kāi)發(fā)起止時(shí)間:
開(kāi)始時(shí)間:2022年4月14日
截止時(shí)間:針對(duì)全國(guó)不同地區(qū)持續(xù)開(kāi)發(fā)優(yōu)化中
服務(wù)周期:服務(wù)中
應(yīng)用場(chǎng)景
1. 主要應(yīng)用場(chǎng)景
疫情健康服務(wù)主要應(yīng)用于疫情之下的復(fù)工、復(fù)學(xué)場(chǎng)景,幫助有需求的政府機(jī)構(gòu)、教育單位、企業(yè)及其他社會(huì)組織進(jìn)行復(fù)工、復(fù)學(xué)健康情況統(tǒng)計(jì)。
2. 用戶需求
·統(tǒng)計(jì)端:通常情況下,復(fù)工復(fù)學(xué)需要管理人員逐人逐圖檢查健康防疫信息,人工工作量大,且有出錯(cuò)、遺漏的可能性。
·上傳端:返校、復(fù)工時(shí),大家需要配合各種健康信息申報(bào)要求,如連續(xù)3 天,每天提交小孩與同住人的各種截圖,有的被要求拼圖提交,有的被要求打包上傳。對(duì)用戶尤其是廣大家長(zhǎng)們有一定的操作難度。
3. 服務(wù)優(yōu)勢(shì)
相比群接龍、在線文檔類(lèi)競(jìng)品解決用戶大范圍收集圖片的問(wèn)題,騰訊問(wèn)卷疫情健康服務(wù)的創(chuàng)新點(diǎn)在于通過(guò) OCR 文字識(shí)別技術(shù),將健康碼等圖片的信息智能識(shí)別出來(lái),快速判斷圖片的信息是否存在異常情況,同時(shí)可基于填報(bào)名單實(shí)時(shí)統(tǒng)計(jì)填答進(jìn)度,較大程度解放了單位管理人員的工作量,在提升統(tǒng)計(jì)效率、準(zhǔn)確度方面提供助力。
面臨挑戰(zhàn)
1. 社會(huì)需求緊迫,可供研發(fā)的時(shí)間緊急
從發(fā)現(xiàn)廣泛的社會(huì)需求到最緊急的深圳地區(qū)復(fù)學(xué)窗口期,只有短短48小時(shí)的時(shí)間留給技術(shù)團(tuán)隊(duì)進(jìn)行開(kāi)發(fā)。
2. 需要迅速完成圖像識(shí)別能力的集成
騰訊問(wèn)卷本身并沒(méi)有圖像識(shí)別能力,如何快速開(kāi)發(fā)/集成相關(guān)能力,為后續(xù)開(kāi)發(fā)及訓(xùn)練工作爭(zhēng)取時(shí)間成為當(dāng)務(wù)之急。
3. 圖像識(shí)別應(yīng)用需要大量的開(kāi)發(fā)、模型訓(xùn)練工作
對(duì)于智能圖像識(shí)別,除了需要快速搭建模型框架,還需要大量的樣本供模型進(jìn)行識(shí)別。
健康碼、行程卡等截圖識(shí)別中,各省市健康碼的版式,字段規(guī)則并不一致,通過(guò)文字識(shí)別結(jié)果的正則提取較為繁瑣,難以應(yīng)對(duì)。
相比健康碼、行程卡識(shí)別,抗原檢測(cè)識(shí)別遇到的挑戰(zhàn)更多:例如檢測(cè)結(jié)果多樣,抗原檢測(cè)結(jié)果分陰性,陽(yáng)性,弱陽(yáng),以及兩種無(wú)效5種類(lèi)型;照片質(zhì)量參差不齊,多數(shù)用戶背景環(huán)境復(fù)雜,光線,清晰度大多不理想,不利于識(shí)別;訓(xùn)練樣本較少,早期抗原棒普及程度較低,全網(wǎng)陽(yáng)性樣本收集數(shù)據(jù)不足50份,無(wú)效樣本不足10份。
技術(shù)開(kāi)發(fā)過(guò)程
1. 核心思路
產(chǎn)品方案核心思路是打通問(wèn)卷創(chuàng)建?分享?投放?回收?查看統(tǒng)計(jì)?催答的健康信息申報(bào)全流程,幫助老師/行政管理人員(編輯端)快速收集相關(guān)人員的健康信息,實(shí)時(shí)了解填答進(jìn)度,并且通過(guò)智能識(shí)別獲取健康信息異常名單,方便進(jìn)行催答或上報(bào)。
同時(shí)也通過(guò)問(wèn)卷的形式規(guī)范家長(zhǎng)、員工等人員(填答端)提交指定內(nèi)容,不漏填錯(cuò)填,也能方便補(bǔ)交。
(功能截圖)
2. 整體技術(shù)方案AI智能識(shí)別能力實(shí)現(xiàn)與能力開(kāi)放輸出開(kāi)展
1)AI 智能識(shí)別能力實(shí)現(xiàn)
健康碼、行程卡等截圖識(shí)別
由于各省市健康碼的版式,字段規(guī)則并不一致,通過(guò)文字識(shí)別結(jié)果的正則提取較為繁瑣,難以應(yīng)對(duì)。騰訊優(yōu)圖算法同學(xué)基于智能結(jié)構(gòu)化 OCR,以多模態(tài)文檔理解的形式,自動(dòng)提取復(fù)雜多變版面的結(jié)構(gòu)化信息。
智能結(jié)構(gòu)化 OCR 結(jié)合文檔文字內(nèi)容、圖像、版式布局等多模態(tài)信息,通過(guò)5 億+大規(guī)模文檔無(wú)監(jiān)督預(yù)訓(xùn)練,結(jié)合下游結(jié)構(gòu)化任務(wù)微調(diào)。單一模型能夠兼容 5000+不同版式的文檔結(jié)構(gòu)化信息提取。相比于業(yè)界其他文檔信息提取方法,具有精度高、泛化能力強(qiáng)的特點(diǎn)。
健康碼識(shí)別場(chǎng)景,待提取的字段相對(duì)固定,主要包括:健康碼顏色、持碼人姓名、持碼人身份證號(hào)、亮碼時(shí)間等。由于不同城市的健康碼版式不一致,且字段名稱(chēng)及字段內(nèi)容格式不同,通用的智能結(jié)構(gòu)化模型在直接使用時(shí),需要對(duì)于字段名稱(chēng)進(jìn)行格式化。
不同地區(qū)的健康碼,包含的字段內(nèi)容有所不同:
(各地健康碼示例)
針對(duì)該類(lèi)問(wèn)題,算法同學(xué)提出通過(guò)智能結(jié)構(gòu)化的語(yǔ)言理解模型學(xué)習(xí)字段不同表示之間的內(nèi)在聯(lián)系,自動(dòng)做到字段名稱(chēng)格式化處理,即智能結(jié)構(gòu)化含標(biāo)簽?zāi)J健T摲桨冈谕ㄓ弥悄芙Y(jié)構(gòu)化基礎(chǔ)上,通過(guò)字段的標(biāo)簽信息(字段歸一化名稱(chēng))先驗(yàn)信息,引導(dǎo)結(jié)構(gòu)化結(jié)果輸出。通過(guò)單一結(jié)構(gòu)化模型,兼容不同城市的健康碼,同時(shí)也極大便利了字段擴(kuò)展(例如擴(kuò)展檢測(cè)時(shí)間、失效時(shí)間等字段)。最終取得健康碼場(chǎng)景高指標(biāo)、高泛化的效果。
(粵康碼效果展示)
(隨申碼效果展示)
抗原檢測(cè)照片識(shí)別
相比健康碼、行程卡識(shí)別,抗原檢測(cè)識(shí)別遇到的挑戰(zhàn)更多——
檢測(cè)結(jié)果多樣,抗原檢測(cè)結(jié)果分陰性,陽(yáng)性,弱陽(yáng),以及兩種無(wú)效 5 種類(lèi)型;
照片質(zhì)量參差不齊,多數(shù)用戶背景環(huán)境復(fù)雜,光線,清晰度大多不理想,不利于識(shí)別;
訓(xùn)練樣本較少,早期抗原棒普及程度較低,全網(wǎng)陽(yáng)性樣本收集數(shù)據(jù)不足50 份,無(wú)效樣本不足10份。
(抗原檢測(cè)結(jié)果示例)
(抗原檢測(cè)識(shí)別測(cè)試素材)
數(shù)據(jù)收集和增強(qiáng)方面,我們通過(guò)對(duì)陰性樣本進(jìn)行PS,偽造多張陽(yáng)性樣本和無(wú)效樣本圖片,并且利用圖片變形,旋轉(zhuǎn)等手段,將圖片數(shù)量擴(kuò)展到萬(wàn)張。
另外通過(guò)遷移學(xué)習(xí),多模型融合提高抗原識(shí)別準(zhǔn)確度。用戶提供照片中,存在大量無(wú)效圖片,使用 CNN 模型快速識(shí)別出有抗原的照片,提供給下一模型判斷。下一模型使用NasNet的預(yù)訓(xùn)練模型,在極低學(xué)習(xí)率下進(jìn)行遷移學(xué)習(xí)。
2)能力開(kāi)放輸出
輸入輸出格式標(biāo)準(zhǔn)化
不同地區(qū)健康碼中的二維碼包含的內(nèi)容差別也很大,例如粵康碼返回的二維碼內(nèi)容可能出現(xiàn)非標(biāo)準(zhǔn) JSON 字符串;而同樣是粵康碼,深 i 您和粵省事的粵康碼返回的字段內(nèi)容還會(huì)不一致。
因此我們針對(duì)二維碼內(nèi)容進(jìn)行了地區(qū)判定,格式標(biāo)準(zhǔn)化,矯正,從而完成健康碼信息準(zhǔn)確匹配和提取。
業(yè)務(wù)邏輯封裝
完成圖片信息處理與識(shí)別工作后,我們結(jié)合騰訊云 AI 文字識(shí)別能力,根據(jù)業(yè)務(wù)需求,將文字識(shí)別的結(jié)果輸出成統(tǒng)一、標(biāo)準(zhǔn)、穩(wěn)定的數(shù)據(jù)結(jié)構(gòu),屏蔽了各地區(qū)健康碼的文字內(nèi)容差異,方便拓展支持更多其他疫情相關(guān)的產(chǎn)品,降低不同產(chǎn)品間重復(fù)溝通、加工數(shù)據(jù)、聯(lián)調(diào)等開(kāi)發(fā)成本。
應(yīng)用效果/社會(huì)價(jià)值
1. 以企業(yè)能力回饋助力公共防疫事業(yè),保障“復(fù)工復(fù)學(xué)”工作的順利進(jìn)行
新冠疫情戰(zhàn)役曠日持久,任何時(shí)候都不能掉以輕心。
騰訊問(wèn)卷將疫情健康申報(bào)服務(wù)免費(fèi)開(kāi)放使用,為抗疫工作提供了為信息統(tǒng)計(jì)提效、又能保障個(gè)人隱私的工具,希望能承擔(dān)起企業(yè)社會(huì)責(zé)任,助力公共防疫工作高效、有序開(kāi)展。
2. 利用數(shù)字化能力助力精準(zhǔn)防控、節(jié)省人力、避免錯(cuò)漏風(fēng)險(xiǎn)
采取人工匯總的方式,除了工作量巨大,也存在看錯(cuò)看漏的風(fēng)險(xiǎn),一旦出現(xiàn)失誤,就可能“前功盡棄”,需要“重頭再來(lái)”。
騰訊問(wèn)卷在常規(guī)的信息收集與統(tǒng)計(jì)能力基礎(chǔ)上,結(jié)合防疫工作需求,利用圖像識(shí)別功能,將人工工作轉(zhuǎn)變?yōu)樽詣?dòng)化工作,并將陸續(xù)擴(kuò)大可支持地區(qū)范圍,幫助各類(lèi)一線人員高效、準(zhǔn)確、且安全地收集健康信息提供助力。
3. 應(yīng)用效果顯著
本次功能上線一周內(nèi),已經(jīng)幫助廣深地區(qū)數(shù)萬(wàn)用戶完成復(fù)工、復(fù)學(xué)等場(chǎng)景的疫情健康申報(bào),獲得廣泛用戶好評(píng)。
同時(shí),自2022年以來(lái),騰訊問(wèn)卷支持疫情相關(guān)的問(wèn)卷共超過(guò)68萬(wàn)份,累計(jì)回收量超過(guò)16.7億,覆蓋全國(guó)各地共37萬(wàn)個(gè)組織。
關(guān)于企業(yè)
·騰訊公司
騰訊成立于1998年,總部位于中國(guó)深圳。公司一直秉承科技向善的宗旨。通信和社交服務(wù)連接全球逾10億人,幫助他們與親友聯(lián)系,暢享便捷的出行、支付和娛樂(lè)生活。
騰訊還提供云計(jì)算、廣告、金融科技等一系列企業(yè)服務(wù),支持合作伙伴實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,促進(jìn)業(yè)務(wù)發(fā)展。
·騰訊問(wèn)卷
騰訊問(wèn)卷是一個(gè)專(zhuān)業(yè)、靈活、好用的在線問(wèn)卷調(diào)查平臺(tái),提供從問(wèn)卷設(shè)計(jì)、投放收集到統(tǒng)計(jì)分析的一站式專(zhuān)業(yè)調(diào)查研究服務(wù)。目前已經(jīng)為2354.5萬(wàn)用戶回收28億份問(wèn)卷。
來(lái)源:數(shù)據(jù)猿
刷新相關(guān)文章
我要評(píng)論
人物專(zhuān)訪more >
活動(dòng)推薦more >
- 【大會(huì)嘉賓】威馬汽車(chē)集團(tuán)戰(zhàn)2021-08-02
- 【大會(huì)嘉賓】聯(lián)通智慧足跡CM2021-08-02
- 2018 上海國(guó)際大數(shù)據(jù)產(chǎn)業(yè)高2018-12-03
- 2018上海國(guó)際計(jì)算機(jī)網(wǎng)絡(luò)及信2018-12-03
- 中國(guó)國(guó)際信息通信展覽會(huì)將于2018-09-26
- 第五屆FEA消費(fèi)金融國(guó)際峰會(huì)62018-06-21
不容錯(cuò)過(guò)的資訊
-
1金智塔CTO陳超超:構(gòu)建產(chǎn)學(xué)研用價(jià)值閉環(huán)
-
2后疫情時(shí)代,智慧物流遭遇危機(jī)還是邂逅轉(zhuǎn)
-
3「數(shù)智化案例展」某頭部股份制銀行總行—
-
4阿里云發(fā)布AnalyticDB數(shù)倉(cāng)升艙解決方案
-
5藍(lán)象智聯(lián)創(chuàng)始人兼CEO徐敏:隱私計(jì)算,實(shí)
-
6「天洑軟件」完成數(shù)億元C輪融資,云啟持
-
7亞馬遜云科技三大創(chuàng)新升級(jí) 為企業(yè)“上云
-
8【數(shù)智化案例展】深農(nóng)集團(tuán)——守護(hù)深圳“
-
9縱橫“擎”“廠” HCR慧辰周年發(fā)布會(huì)數(shù)
-
10速度時(shí)空沖擊IPO:計(jì)劃集資8.42億,攜對(duì)