
近日,華米科技在一個SCI學(xué)術(shù)期刊Discrete Dynamics in Nature and Society的官網(wǎng)上發(fā)表了一篇論文,名為《Learning from Large-Scale Wearable Device Data for Predicting Epidemics Trend of COVID-19》(基于可穿戴設(shè)備大數(shù)據(jù)預(yù)測新型的流行趨勢)。這篇論文對醫(yī)療可穿戴設(shè)備獲取的大數(shù)據(jù)如何運用到包括新冠在內(nèi)的大流行病疫情的防控提出了頗有新意的意見。
官方疾控中心統(tǒng)計數(shù)據(jù)和谷歌醫(yī)療大數(shù)據(jù)的缺陷
醫(yī)療大數(shù)據(jù)的建設(shè)并非只有蘋果、華米這些醫(yī)療可穿戴產(chǎn)品生產(chǎn)公司才在做,各國的官方疾控中心就在做這項工作。在互聯(lián)網(wǎng)公司中,谷歌也根據(jù)來自web搜索的信息建立過自己的醫(yī)療大數(shù)據(jù)數(shù)據(jù)庫。但是官方統(tǒng)計的數(shù)據(jù)依賴各地的檢測數(shù)據(jù)進(jìn)行匯總,而不同地區(qū)受制于檢測能力的差異可能會造成不同程度的時效延遲。而谷歌的大數(shù)據(jù)庫是基于人們在谷歌網(wǎng)站上搜索特定疾病的信息。但是人們在網(wǎng)上搜索什么關(guān)鍵詞有時候會受到社會熱點的極大影響而并不完全受自身本來的疾病需求,這就會削弱搜索查詢與相關(guān)疾病的相關(guān)性。因此,基于醫(yī)療可穿戴設(shè)備搜集到的用戶身體健康數(shù)據(jù)相比以上兩者就更能反映用戶與相關(guān)疾病的關(guān)聯(lián)性和實效性。一旦你感染了某種疾病,你的身體健康數(shù)據(jù)是能夠作出特殊反應(yīng)的。
截至2019年,華米已經(jīng)獲得了超過1億消費者的認(rèn)可,并且這個用戶數(shù)據(jù)還在不斷增長當(dāng)中。廣泛的用戶群體,多樣化的數(shù)據(jù)給研究華米可穿戴醫(yī)療大數(shù)據(jù)與新冠疫情預(yù)測奠定了基礎(chǔ)。
華米可穿戴設(shè)備醫(yī)療大數(shù)據(jù)預(yù)測原理
RHR被稱為靜息心率,這是華米在內(nèi)的許多醫(yī)療可穿戴設(shè)備測量的一項重要健康項目。研究表明,體溫每升高1°C,心率平均每分鐘增加8.5次。眾所周知,新冠給患者帶來的癥狀之一就是發(fā)熱發(fā)燒(當(dāng)然也有部分患者前期不會產(chǎn)生發(fā)熱癥狀)。因此,通過華米手環(huán)、手表等可穿戴設(shè)備測量用戶的RHR,就可以推算出用戶的體溫是否出現(xiàn)異常,是否具有符合新冠癥狀的身體狀況指標(biāo),也就能對疫情作出預(yù)測。同時,考慮到新冠的癥狀通常是持續(xù)數(shù)天,因此華米公司在設(shè)計新冠疫情預(yù)測系統(tǒng)時將檢測標(biāo)準(zhǔn)定義為至少連續(xù)5天的指標(biāo)出現(xiàn)異常。
華米數(shù)據(jù)分析
在這篇論文中,華米通過對2017年7月1日至2020年4月8日約130萬名佩戴華美設(shè)備的用戶的去識別傳感器數(shù)據(jù)進(jìn)行分析做了對中國、意大利、西班牙等國的疫情分析。這些數(shù)據(jù)都是經(jīng)過在隱私政策許可,獲得用戶授權(quán),允許用于學(xué)術(shù)研究的。這130萬的用戶都至少佩戴了100天的華米可穿戴設(shè)備,以保證數(shù)據(jù)的可靠性。
如圖所示,圖中顯示的,對比官方的數(shù)據(jù),2020年生理異常率與異常檢測算法計算的生理異常率吻合較好。此外,不包括新冠影響的2020年生理異常率曲線與新冠爆發(fā)前的2020年預(yù)測和檢測的生理異常率曲線重疊,這驗證了模型的基本可靠性。此后,這三條曲線迅速上升,說明曲線的上升與新冠有關(guān),預(yù)測的暴發(fā)期也與實際情況相符。論文中還分析了武漢、北京等5個城市的數(shù)據(jù)。華米的大數(shù)據(jù)顯示,武漢市的預(yù)測感染率在1月28日左右達(dá)到峰值,而武漢市官方報告的確診感染率在2月8日達(dá)到最大值(這是由于當(dāng)天對新冠的診斷標(biāo)準(zhǔn)做出了調(diào)整,導(dǎo)致當(dāng)天突然急劇增加13436例新確診病例)。華米的大數(shù)據(jù)預(yù)測的發(fā)病高峰比官方公布的高峰提前11天。研究者認(rèn)為,疾病剛開始出現(xiàn)到病毒核酸檢測診斷出結(jié)果必然存在一定的滯后。如果由癥狀的出現(xiàn)來確定,華米的預(yù)測非常符合此前科學(xué)的預(yù)計。
同樣,對于意大利和西班牙的新冠確診峰值的預(yù)測,華米的預(yù)測分別是3月13日和3月18日,比官方公布的數(shù)據(jù)提前了至少一周。
基于華米可穿戴醫(yī)療大數(shù)據(jù)預(yù)測的缺陷
當(dāng)然,華米的研究者也在論文中指出了自己所設(shè)計的系統(tǒng)存在的不足。最大的影響來自節(jié)假日,如春節(jié)、圣誕節(jié)等,交通和人口轉(zhuǎn)移、社交活動,尤其是飲酒對被檢測者的生理體征數(shù)據(jù)帶來的影響。比如在飲酒就會讓用戶的RHR突然變高。雖然這種偶然性行為對整體大數(shù)據(jù)的影響會被大量的樣本數(shù)據(jù)稀釋,尤其是華米的系統(tǒng)是要求檢測數(shù)據(jù)連續(xù)5天呈現(xiàn)異常才被判定和疫情有關(guān)。但如果是遇上了長達(dá)一個星期假期的春節(jié),連續(xù)5天以上飲酒的人數(shù)就會大大增加,就有可能造成數(shù)據(jù)的失真。所以,設(shè)計這個系統(tǒng)還需要對節(jié)假日的影響進(jìn)行消除。