國際政策趨勢

使用人工智慧來輔助醫療照護決策—給社會大眾的指南(2)

由韓國政府於1971年所設立的韓國高等科學技術學院(Korea Advanced Institute of Science and Technology, KAIST)中的韓國第四次工業革命政策中心(The Korea Policy Center for the Fourth Industrial Revolution, KPC4IR),在8月份時發布了《 使用人工智慧來輔助醫療照護決策──給社會大眾的指南》(Using AI to Support Healthcare Decisions: A Guide for Society)。透過裡面提出的幾個問題,可以幫助社會大眾更了解AI,使AI應用的推行能更為順利,造福社會。以下翻譯自該指南。


了解醫療AI所需提出的問題

AI依據的是何種資料?

資料是經由不同的管道所取得的。
 

實驗資料是為了尋找某個特定問題的答案而去蒐集的。研究人員通常會考慮到資料中可能存在的偏差還有缺失,並採取相應的措施來克服這些問題。
 

觀察性資料是從事某項行為的紀錄,比如從銀行提款或是搭乘大眾交通運輸工具,還有一些由機構所記錄的行政資料,如超速罰鍰或是醫院開立的處方箋。而這類資料來源的偏差和侷限性通常在使用於資料分析時才會想到。
 

這些資料來源對於開發AI都是有用的,但還是要考慮到其對於特定目的是否有益及其關聯性,特別是這些資料並不是為了該目的而蒐集的。

 

舉例來說,哪些因素可能導致已經戒酒的酒精成癮者再度復發。

 

工程師會把如年齡、慢性病資訊、基因資料等訊息(變數)的資料庫放在一起。

 

AI將檢視這些詳細的資料集,以確定其與酒癮復發者之間的關係。

 

如果上述的資料來源都只來自醫療資料,AI可能會錯失潛在的主因,如失業者或是不使用醫療資源者。

 

因此我們需要考慮以下幾點:

  • 用於訓練AI的資料是如何蒐集的?
  • 資料是否足以代表正在使用該AI的病患?
  • AI所找出的規律與關係是否足夠準確?

 

不是所有人都有辦法確認或評估這方面的細節,但是任何醫師、病患或是記者都可以堅持要求,明確地得知這方面的問題是如何解決的。應該要確保任何將AI應用於醫療照護服務的人都知道答案。

 

用於訓練AI的資料是如何蒐集的?

如果資料來自於實驗室數據,其蒐集目的是為了解答出某個特定研究問題,為研究的一部份。其品質指標應包含下列幾項:

  1. 龐大的受試者樣本
  2. 具有相似特徵的受試者組成對照組,以便與結果進行比較
  3. 錯誤的估算
  4. 討論研究結果如何被推導至現實生活中

 

AI系統如果使用含有這些指標的資料進行訓練,產生錯誤或是誤導性連結的風險就會降低。

 

觀察性資料分析現存資料並尋找變數之間的關係,而此作法的優點是能比實驗資料蒐集到更多的變數。雖然利用此類資料來訓練AI,亦是有可能找出正確的關聯性,但仍應清楚說明資料的來源,並提供如AI如何處理偏見等資訊。

 

我們亦須注意蒐集之資料是經由客觀的測量(如儀器所蒐集的生命跡象),還是主觀的自我報告(如問卷)所組成。主觀的資料可能帶有更多誤差或是偏見,因為人們的回答會因為不同的原因而產生變化,而且答案是自我選擇的(Self-selection)。

 

新加坡健康促進局正與蘋果公司合作開發一款名為LumiHealth的應用程式。該款應用程式是與醫師和公衛專家密切合作開發而成,將根據如年齡、性別和體重等健康因子來提供個人健康建議。這些建議是由AI運用真實世界的資料(經使用者同意而獲得)所產出,包括提醒使用者定期進行健康檢查。透過遵循應用程式所提供之建議,使用者可以達到每週的運動目標,並改善睡眠習慣及飲食健康。

 

一個健康應用程式能產出多個人化和關係性的建議,取決於其訓練資料的蒐集。LumiHealth使用的是精心挑選過的相關用戶資料,但不一定每個應用程式都能做到。如果一個應用程式使用其他應用程式使用者的觀察性資料,來建議一個人該何時去看醫師,那麼該建議很有可能因為健康的人傾向於使用類似的應用程式,而產生偏差。

 

資料是否足以代表正在使用該AI的病患?

如果資料不能代表目標人群,那麼該資料對於訓練AI並無用處。其可能缺少關於不同種族、性別、年齡層等資訊,且在某些情況下,這些缺少的資料對於健康有著重大的影響。舉例來說,心臟問題在不同的性別有著不同表徵,或者是資料只表現出有能力接受治療的患者,因此產生對於富裕者的偏差。

 

德國一款皮膚診斷AI的訓練和驗證資料來源,主要是以美國、澳洲、歐洲等白種人為主。如果該演算法對於皮膚病變的認知,大份部來自於在膚色較淺的病患上之表現,而膚色較深之病患的皮膚病變誤診風險就會增加。

 

如果該AI能可靠地輔助醫師進行診斷,那麼缺乏膚色較深的病患資料,不會使其失去功用。但是在擁有多個種族的國家,應該要知道這是對於某個族群資料的重大缺失,許多東亞及東南亞國家就面臨了此狀況。

 

克服資料的代表性問題是一項重大的挑戰。某些群體的資料在健康研究上代表性不足,所以其在資料中的代表性亦不足。

 

隱私問題經常出現在社會大眾對於AI和資料使用的討論上。人們擔心暴露其個人醫療資料可能會造成歧視,因此某些罕見或是遺傳疾病的資訊,需要更強大的匿名化程序來保護。

 

社會大眾的擔憂影響到人們對於資料分享的意願,而此舉將進一步影響到AI所提供之建議的準確度,因為訓練的資料庫太小,所以無法得出可靠的結論。研究人員和開發商透過透明化及展示為了檢查AI是否可靠而採取的步驟, 將加強人們對於提供其資料的信心。

 

在COVID-19大流行期間,新加坡推出了一款名為TraceTogether的手機應用程式,做於接觸追蹤之使用。其應用原理為在安裝了該應用程式的裝置間,互相交換藍牙訊號,每部裝置皆可偵測到附近裝有該程式的裝置。該程式會估算出使用者間的距離,以及半徑2公尺內所有接觸者的接觸時長,這些加密紀錄會保留在每個使用者的裝置上至少21天。若使用者被確認曾與COVID-19陽性案例接觸過,可以授權新加坡衛生部(MOH)存取其位於TraceTogether上的資料。MOH將解讀這些資料,並獲得在過去21天內與該使用者密切接觸者的手機號碼,以便進行接觸追蹤,要求接觸者進行隔離與檢測。

 

TraceTogether無法獲得社會大眾的信任,在2020年6月該程式推出後的3個月,僅有約30%的民眾下載了該程式,無法達到若要接觸追蹤程式發揮效用,所需的50%~70%使用率,許多新加玻民眾認為這是一種電話監控措施。直到2020年12月,其使用率依舊沒有顯著的成長。然而,新加坡政府透過分發一項具有相同功能的替代設備,終於達到了70%的使用率。
 

新加坡接觸追蹤程式的經驗顯示出,現實世界的資料限制可能被程式開發商嚴重低估了。即使該資料會使設計優良的程式發揮其應有的功效,但是人們也不一定會有意願提供。其中一些隱憂可能會因為其技術本身強化了透明度,而有所緩解,但在大多數的情況下,緩解的狀況並不常發生。我們必須反過來思考,應用程式是否被提供了,足以使其保持可靠性繼續運作的相關資料。

 

檢視訓練資料是否符合AI的預期效用,有助於減少系統產生錯誤或是誤導性連結的風險。

 

AI所找出的規律與關係是否足夠準確?

將資料輸入演算法,演算法分析資料,找出變數間的規律。隨著資料的增加,AI可以了解變數之間的關係,並應用這些關係進行調整。

 

快速地找出資料中的規律,是AI運用在醫療照護領域的一個重要優勢,但其亦帶來了挑戰。AI找出的規律可能開始不具有相關性。

 

人口層面的資料包含許多變數資訊,如年齡、性別、種族、婚姻狀況、工作、郵遞區號等等,這類型的資料通常被稱為「巨量資料」(big data)。AI如果搜尋夠多的「巨量資料」,其將無可避免地發現,毫無關聯的變數間其規律與關係性,而這被稱為「資料挖掘」(data dredging)。

 

這顯示出當AI被編寫為在資料集中尋找規律時,需要有一個具體的問題來讓其查詢答案,因而減少其尋找出影響模型功效的隨機關係之風險。

 

為了確保資料間的關係性是正確的,任何將AI應用於醫療領域的人,都應該確認AI是否使用了巨量的資料進行訓練,以及資料科學家如何確定AI使用的資料變數是最具相關性的。此外,即使是使用巨量資料訓練過的AI,也可以使用獨立的資料集再進行嚴格的測試。下一章節將會對此進行近一步說明,而AI供應商應該要確認上述的行動是否有被執行。


使用人工智慧來輔助醫療照護決策—給社會大眾的指南(1)
使用人工智慧來輔助醫療照護決策—給社會大眾的指南(3)
使用人工智慧來輔助醫療照護決策—給社會大眾的指南(4)