國際政策趨勢

使用人工智慧來輔助醫療照護決策—給社會大眾的指南(1)

由韓國政府於1971年所設立的韓國高等科學技術學院(Korea Advanced Institute of Science and Technology, KAIST)中的韓國第四次工業革命政策中心(The Korea Policy Center for the Fourth Industrial Revolution, KPC4IR),在8月份時發布了《 使用人工智慧來輔助醫療照護決策──給社會大眾的指南》(Using AI to Support Healthcare Decisions: A Guide for Society)。透過裡面提出的幾個問題,可以幫助社會大眾更了解AI,使AI應用的推行能更為順利,造福社會。以下翻譯自該指南。


為什麼需要這份指南?

人工智慧(AI)是一種運用大量資料來做評估和預測,去做這些以人類的「計算能力」無法做到或是做得快速又準確的軟體。它是擁有「智慧」的,因為它能在資料中找出規律並對其進行驗證,而不是只會聽從指令。例如,在基因資料中找出疾病罹患風險的規律,而此時人類對此還是處於毫無頭緒的狀態。
 

在醫療照護領域,AI在分析疾病發展的資料上取得相當大的進展。其亦被使用在分析可以用於製作新藥的分子上,更精確的醫療診斷,預測病患對於治療的反應,以及改善如病床床位等醫療資源的規劃上。
 

COVID-19加速了這些新技術的進程。例如,BenevolentAI平台花了一個週末的時間,就找出一種可用於治療新疾病的藥物,而傳統的方法則需花費8年的時間。不過,這種快速的技術進程,是以減少充分進行測試的時間為代價。
 

隨著AI的快速發展,有越來越多的醫療照護機構開始使用它。且越來越多的人們重視AI系統的可靠性問題(訓練資料的品質),以及我們是否可以利用它們來做正確的事。
 

社會大眾必須提出這些問題,才能確保AI被負責任地使用。這種問責制所帶來的變化,使病患能詢問結果及其依據,讓各方面的醫療照護制度能得到改善。
 

同樣地,醫師和病患需要知道在做出改變生命的決策之時,其所依賴的AI資訊有多高的可靠性。
 

但是,如果立法部門、醫療機構、記者、醫師和病患不知道該對一套新的突破性AI軟體,其可靠性及適用範圍提出哪方面的質疑,如果他們傳遞了錯誤的資訊或是做出錯誤的決策,只因對於AI模型的使用不了解,該由誰來負責?
 

該份指南並非是為了培養AI專家,亦非為了顯示AI的趣味之處,而是為了幫助在醫療領域的人們,在運用AI上能更為順利。該指南的目標是為了病患、立法部門、記者、臨床醫師與醫療決策者提供議題,以討論一項技術其預期效用是否足夠穩固。並將關於AI的對話從複雜和令人生畏的,轉變為一個讓我們確信可以改善醫療領域的技術,且避免掉未改善前其所帶來的傷害。

 

術語

演算法(Algorithm)

一組用於尋找或是計算某物的數學指令。演算法可以被AI使用於尋找在資料中事物與事物(變數)間的關係。
 

人工智慧(Artificial intelligence, AI)

一個機器或是系統,像人類一般運用資料和規則,做出評估或預測。
 

巨量資料(Big data)

一種資料類型,其數量非常巨大,內容及種類也不同,且變化快速。在醫療領域,該類資料包含了許多變數(如年齡、性別、身高、體重、飲酒量、抽菸習慣、慢性病等),且亦可是不同的格式(如聲音、影片、書面記錄等)。
 

通則性(Generalisability)

衡量使用一組資料所得出的結果是否具有通則性。例如,一個不具有通則性的AI,只能幫助特定族群診斷出骨骼狀況。
 

模型(Model)

一個AI運用來表示如何從其從未見過的資料中,得出結論的方程式。如,一個關於抽菸習慣變化的新訊息,可以用在預測肺癌病例的模型中。
 

可靠性(Reliability)

一個AI的可信度,或是AI該如何持續生產出,我們所預期的結果(例如,更準確地辨識出,進行手術後病情會改善的患者)。從技術上來說,其亦表示AI能每次穩定產出相同結果的能力。
 

變數(Variable)

一個因素或是特性,可能是數字,如體重、身高、溫度或收入。亦有可能分屬不同類別,如眼睛或頭髮顏色、種族、工作領域或興趣。

 

AI如何應用於治療病患?

AI的目的是用來幫助醫療人員快速與精確地工作,並提高整體流程效率。
 

目前,AI系統僅能應用於特定的任務上,以輔助醫師的決策。它不能執行複雜的任務,如下臨床決策,且醫師在決定治療方案時,可以考慮到如病患的風俗文化等,AI所不能考慮到的地方。
 

依照目前的科技發展,在不久的將來很有能出現「AI可以輔助醫師,但無法取代他」。
 

在南韓,有一款名為「VUNO Med」AI輔助診斷系統,可以讀取醫學影像或分析生物訊號。VUNO的BoneAge評估軟體,可以將骨齡與年齡進行比較。例如,一個8歲小孩的骨齡是9歲的話,將會被評估為生長過快。
 

在德國,一款輔助診斷的AI已經被應用於判讀潛在的皮膚癌細胞病變。它與一群由58名皮膚科醫師所組成的國際團隊進行測試,結果證明它能更精確地判讀出可疑病變的表徵。
 

另一方面,Google Health所開發的眼睛疾病診斷軟體存在著一個重大缺陷,就是許多由護理師拍攝的影像品質不夠高,超過五分之一的影像系統無法辨識,導致需要花費更多的功夫來重新拍攝這些影像。只有當醫療人員經過專業的系統使用培訓後,診斷預測系統理論中的準確度才有可能成真。

 

醫療領域的AI類型

臨床決策輔助工具

臨床醫師用於執行工作的醫療器材和軟體。AI被使用於診斷影像、預測治療結果、手術機器人和對使用醫療器材的病患進行遠端監控。
 

病患決策輔助工具

由病患或是照護者直接使用的醫療器材。包括輔助自我診斷的聊天機器人或是其他線上工具,健康追蹤設備等生活應用程式。
 

醫療照護管理系統

用於改善運作與管理的工具,包括資源分配、降低成本(透過減少重複的測試)和自動化如配藥等流程。


新療法開發

被使用於開發新藥或是新療法。

可靠性問題

使用AI來輔助診斷、預測治療結果或是檢傷分類,將可能改變我們的生活。
 

民眾和醫療人員可能會對此有些存疑。AI的運作方式常被視為一個黑盒子,這使得人們難以對其結論提起質疑,且亦會對AI使用個人資料的方式感到擔憂。
 

AI的隱私問題經常被人們所提起,但可靠性問題卻總是被忽略,也許是因為人們不知道該如何去質疑它。雖然讓人們對於其資料的安全抱持著信心也是很重要的,但資料是否有被善加利用亦是重點之一。任何一個人都不可能只因為研究受試者的資料被受到妥善保護,就同意使用一項只有10個研究樣本的技術。
 

隱私的保證不足以證明一項科技是具有功效的,資料的品質與AI的可靠性才是我們必須重視的問題點。
 

低品質的資料(或是無法解讀的資料)會影響AI的準確度。AI的偏見來自於資料的缺失、訓練資料既有的偏見或演算法中的錯誤。如同其他的資料分析方法,將資料用於非原先蒐集之目的,將造成錯誤或誤導性的連結。且我們亦無法確定AI模型在沒有經歷過現實世界的嚴格測試下,AI的表現有多少可性度。
 

所以對於品質和可靠性,我們需要檢查以下幾點:

  • 了解資料的來源
  • 資料的蒐集或選擇均符合其使用目的
  • 清楚說明該目的的限制與設想
  • 解決偏見
  • 在現實世界中經過適當的測試


我們該如何知道該AI有經過這些檢查?無論是記者、立法機關、臨床醫師、病患或家屬,都可藉由一些問題來了解這些情況,而這些問題會在以下幾個章節進行說明。


使用人工智慧來輔助醫療照護決策—給社會大眾的指南(2)
使用人工智慧來輔助醫療照護決策—給社會大眾的指南(3)
使用人工智慧來輔助醫療照護決策—給社會大眾的指南(4)