科技改變生活 · 科技引領未來
當對來自原始醫院系統之外的X射線進行測試時,受過訓練的可從胸部X射線檢測的深度學習模型表現較差,這表明AI工具在用于臨床環境之前應進行廣泛的測試。
根據發表在PLOS Medicine上的一項最新研究,設計用于篩選的卷積神經網絡(CNN)在五分之三的自然比較中獲得了比外部更好的內部表現。
這組作者說:“ CNN在X射線診斷疾病中的表現可能不僅反映了它們在X射線上識別特定于疾病的影像學發現的能力,還反映了它們利用混雜信息的能力,”作者說。“基于用于模型訓練的醫院系統的測試數據對CNN的效果進行評估,可能會夸大其在現實世界中的效果。”
隨著在醫療保健中使用CNN進行計算機輔助診斷的興趣日益濃厚,由紐約西奈山醫院領導的研究小組決定評估在一個醫院系統上訓練的深度學習模型能否很好地推廣到其他外部醫院系統。
該研究是在西奈山的伊坎醫學院進行的。研究人員使用來自三個機構的超過158,000例胸部X射線對深度學習模型進行了培訓和評估,這些機構包括美國國立衛生研究院臨床中心,西奈山醫院和印第安納大學患者護理網絡。
盡管在大多數比較中,CNN的內部性能“顯著超過”外部性能,但深度學習模型能夠“檢測出以高精度獲取X射線并對其作弊的醫院系統西奈山的新聞稿說:“根據培訓機構的患病率預測性任務”。
根據結果??,研究人員認為,應該在各種現實情況下對AI平臺進行全面評估,以確保其準確性。
“我們的發現應該讓那些正在考慮快速部署人工智能平臺,而沒有嚴格評估它們在實際臨床環境中的性能的人停下來,以反映出它們將被部署在何處,”伊坎醫學院的高級作者兼神經外科講師Eric Oermann醫學博士醫學在一份聲明中說。“訓練有素的進行醫學診斷的深度學習模型可以很好地推廣,但是這不能被認為是理所當然的,因為不同機構的患者人群和成像技術存在很大差異。”
丁熙華