國際政策趨勢

使用人工智慧來輔助醫療照護決策—給社會大眾的指南(4)

由韓國政府於1971年所設立的韓國高等科學技術學院(Korea Advanced Institute of Science and Technology, KAIST)中的韓國第四次工業革命政策中心(The Korea Policy Center for the Fourth Industrial Revolution, KPC4IR),在8月份時發布了《 使用人工智慧來輔助醫療照護決策──給社會大眾的指南》(Using AI to Support Healthcare Decisions: A Guide for Society)。透過裡面提出的幾個問題,可以幫助社會大眾更了解AI,使AI應用的推行能更為順利,造福社會。以下翻譯自該指南。


我們可以放多少決定權在AI上?

AI的表現取決於資料的品質,以及其對於患者和疾病所做出的假設。考量到所有因素,AI似乎可以具備更良好的品質,但對於其預期效用來說是否足夠了呢?
 

而這其中需要思考到的幾個重要的面向為 :

  • AI實際的表現為何?
  • AI的可靠性是否有經過適當的審查?
  • AI是否對現實世界提供了有用的建議?

 

AI實際的表現為何?

我們需要知道一些基本的效能衡量標準,這些標準評估了AI在預測事物或是提出建議上的表現,其中一個衡量標準為準確度(AI預測正確的頻率)。

 

Google Health在泰國開發了一款AI系統,以輔助判讀糖尿病視網膜病變,並加速該疾病的診斷過程。整個視網膜病變檢驗過程需要花費長達10週的時間,由護理師拍攝病患眼底照片後,再交由專家進行分析。而AI可以將整個過程縮短為10分鐘,且準確率高達90%。

 

不過,選擇正確的方式來衡量效能是很重要的,我們應該要小心,不要過於去依賴理論上的準確度。在酒精成癮復發預測AI這個例子上,假設在該資料集中,每100個康復者就有10個在2年後實際復發。而該AI若擁有85%的準確度,就意味著在這100名康復者中,其預測錯誤15名。代表該AI有可能將每位復發者都預測成不會復發,如果其預期目的是找出需要幫助的成癮者,可能無法起到太大的作用。

 

即使該AI系統擁有高度的可靠性,且其背後受到最佳的資料所支持。臨床醫師也應該依據其他醫學證據,來考量AI所提出的建議,並做出最後的決定。

 

AI的可靠性是否有經過適當的審查?

除了準確度之外,我們也應該考慮到AI在做出預測時的可靠性。獨立的資料集可以用來測試AI,在運用其訓練出來的關係性,對於從未見過的資料進行預測時的表現。而這就是AI的可靠性。

 

最好的辦法就是保留一部份的訓練資料,並觀察AI對於其正在搜尋或是預測之事物的表現。有時,一個在訓練資料表現良好的AI,在新資料上做出的預測卻很糟糕。這可能是因為模型沒有剔除掉無關的變數,或者是因為模型只學習到了訓練資料的表面,而不是其潛在的關係性。一個無法對於相似資料做出一致性預測的AI是不可靠的。

 

如果一款應用程式是由公私部門合作開發,那麼就會有更多的機會來審查其可靠性。舉例來說,經由公私部門合作開發的一項技術,很有可能為了觀察其在現有作法或是人類判斷中的表現,而進行臨床試驗。

 

新加坡的LumiHealth就是由蘋果公司與新加坡衛生部合作開發而成。為了能正式授權應用於公衛領域,該程式需要滿足嚴格的標準。因與公衛專家緊密地合作,使其不只依賴志願者所提供的資料集,從而降低了其資料不具代表性的風險。

 

AI是否對現實世界提供了有用的建議?

能夠確定這一點的其中一個方法,就是找出AI是否能表現得比人類更出色的證據。如果醫療領域的專業人士能參與進AI的開發或是運用,這將成為一個好現象。臨床醫師或許可以找出一種測試,比較AI與受過專業訓練的醫師之間的表現。

 

德國的皮膚診斷AI與58名來自國際的皮膚科醫師團隊進行測試,對同一張皮膚病變影像進行診斷。其判讀出了近87%的可疑皮膚病變表徵,而臨床醫師的識別率則是79%。這是一個好現象,表示AI對於臨床醫師在治療決策上提供有用的幫助。

 

而AI亦可以受外部驗證,這表示其受到現實世界的測試。其中一個例子,一家AI醫療軟體公司在醫療場域中測試其程式,觀察其在實際運用的表現是否如測試時一般準確。該過程將由獨立於AI開發商的專家所領導,且將會揭露過程中出現的失敗及意外事件。

 

測試過程亦將確認該技術,在使用中受到人為錯誤所影響時其運作表現。如,Google Health的眼部疾病診斷程式,因受到護理師拍攝的照片品質所影響,最終無法發揮其應有的功效。

 

最後,我們要了解的是風險。一個為人們提供關於飲食和運動的一般性建議之生活應用程式,或許只需要一般的可靠性。但是,AI若出現錯誤對於真實世界的影響是十分巨大的。因此,我們應該期望能看到強而有力的測試資料、試驗與其確效。 
 

一個可靠的未來

將AI應用於臨床輔助治療病患具有非常大的前景。從在傳染病流行期間快速地篩選出新的候選藥物;嚴重疾病的輔助診斷;幫助醫院管理醫療資源;到輔助衛生機關促進人民健康的生活方式,AI已經證明了其價值。

 

但是,若在背後支撐著AI的資料之品質,沒有受到適當地審查,AI的可靠性沒有受到測試,就會出現問題。從嚴重疾病的誤診、種族歧視的加劇到經濟上的健康不平等,AI發生錯誤可能會產生攸關生死的影響。人們經常存在著對於「機器人搶走人類工作」的恐懼,對於隱私的擔憂,以及對於AI輔助產生的決策,如果被證明是錯誤的,誰又該負起責任的疑問。與其拋棄掉可以幫助我們的工具,不如現在就開始討論AI應該要達成的標準,這對我們會更有幫助。

 

透過應用這些知識,社會大眾可以確保AI開發商對於現代醫學的挑戰所開出之解方,在不同國家和群體間,能以最小的誤差充分利用現有資料和知識,且減緩不平等現象的加劇。這些AI將為臨床醫師提供可信賴的現實世界建議。

 

隨著越來越多人提出本指南中所指出的問題,亦會有更多的權威專家期待為他們解答。透過這種方式,我們創造出了一種負責任之討論的良性循環,並在最終創造出一個更高標準的AI輔助醫療決策之指南。


使用人工智慧來輔助醫療照護決策—給社會大眾的指南(1)
使用人工智慧來輔助醫療照護決策—給社會大眾的指南(2)
使用人工智慧來輔助醫療照護決策—給社會大眾的指南(3)