科技改變生活 · 科技引領未來
近日,華米科技在一個SCI學術期刊Discrete Dynamics in Nature and Society的官網上發表了一篇論文,名為《Learning from Large-Scale Wearable Device Data for Predicting Epidemics Trend of COVID-19》(基于可穿戴設備大數據預測新型的流行趨勢)。這篇論文對醫療可穿戴設備獲取的大數據如何運用到包括新冠在內的大流行病疫情的防控提出了頗有新意的意見。
官方疾控中心統計數據和谷歌醫療大數據的缺陷
醫療大數據的建設并非只有蘋果、華米這些醫療可穿戴產品生產公司才在做,各國的官方疾控中心就在做這項工作。在互聯網公司中,谷歌也根據來自web搜索的信息建立過自己的醫療大數據數據庫。但是官方統計的數據依賴各地的檢測數據進行匯總,而不同地區受制于檢測能力的差異可能會造成不同程度的時效延遲。而谷歌的大數據庫是基于人們在谷歌網站上搜索特定疾病的信息。但是人們在網上搜索什么關鍵詞有時候會受到社會熱點的極大影響而并不完全受自身本來的疾病需求,這就會削弱搜索查詢與相關疾病的相關性。因此,基于醫療可穿戴設備搜集到的用戶身體健康數據相比以上兩者就更能反映用戶與相關疾病的關聯性和實效性。一旦你感染了某種疾病,你的身體健康數據是能夠作出特殊反應的。
截至2019年,華米已經獲得了超過1億消費者的認可,并且這個用戶數據還在不斷增長當中。廣泛的用戶群體,多樣化的數據給研究華米可穿戴醫療大數據與新冠疫情預測奠定了基礎。
華米可穿戴設備醫療大數據預測原理
RHR被稱為靜息心率,這是華米在內的許多醫療可穿戴設備測量的一項重要健康項目。研究表明,體溫每升高1°C,心率平均每分鐘增加8.5次。眾所周知,新冠給患者帶來的癥狀之一就是發熱發燒(當然也有部分患者前期不會產生發熱癥狀)。因此,通過華米手環、手表等可穿戴設備測量用戶的RHR,就可以推算出用戶的體溫是否出現異常,是否具有符合新冠癥狀的身體狀況指標,也就能對疫情作出預測。同時,考慮到新冠的癥狀通常是持續數天,因此華米公司在設計新冠疫情預測系統時將檢測標準定義為至少連續5天的指標出現異常。
華米數據分析
在這篇論文中,華米通過對2017年7月1日至2020年4月8日約130萬名佩戴華美設備的用戶的去識別傳感器數據進行分析做了對中國、意大利、西班牙等國的疫情分析。這些數據都是經過在隱私政策許可,獲得用戶授權,允許用于學術研究的。這130萬的用戶都至少佩戴了100天的華米可穿戴設備,以保證數據的可靠性。
如圖所示,圖中顯示的,對比官方的數據,2020年生理異常率與異常檢測算法計算的生理異常率吻合較好。此外,不包括新冠影響的2020年生理異常率曲線與新冠爆發前的2020年預測和檢測的生理異常率曲線重疊,這驗證了模型的基本可靠性。此后,這三條曲線迅速上升,說明曲線的上升與新冠有關,預測的暴發期也與實際情況相符。論文中還分析了武漢、北京等5個城市的數據。華米的大數據顯示,武漢市的預測感染率在1月28日左右達到峰值,而武漢市官方報告的確診感染率在2月8日達到最大值(這是由于當天對新冠的診斷標準做出了調整,導致當天突然急劇增加13436例新確診病例)。華米的大數據預測的發病高峰比官方公布的高峰提前11天。研究者認為,疾病剛開始出現到病毒核酸檢測診斷出結果必然存在一定的滯后。如果由癥狀的出現來確定,華米的預測非常符合此前科學的預計。
同樣,對于意大利和西班牙的新冠確診峰值的預測,華米的預測分別是3月13日和3月18日,比官方公布的數據提前了至少一周。
基于華米可穿戴醫療大數據預測的缺陷
當然,華米的研究者也在論文中指出了自己所設計的系統存在的不足。最大的影響來自節假日,如春節、圣誕節等,交通和人口轉移、社交活動,尤其是飲酒對被檢測者的生理體征數據帶來的影響。比如在飲酒就會讓用戶的RHR突然變高。雖然這種偶然性行為對整體大數據的影響會被大量的樣本數據稀釋,尤其是華米的系統是要求檢測數據連續5天呈現異常才被判定和疫情有關。但如果是遇上了長達一個星期假期的春節,連續5天以上飲酒的人數就會大大增加,就有可能造成數據的失真。所以,設計這個系統還需要對節假日的影響進行消除。
金陽遠