2025年2月1日 星期六

開發醫療器材的良好機器學習實務—指導原則

IMDRF

IMDRF/AIML WG/N88 FINAL: 2025

Good machine learning practice for medical device development: Guiding Principles

IMDRF前言:

您可以下載、展示、列印、翻譯、修改和複製本作品的全部或部分內容,供您個人使用、用於研究和教育目的。或您是某個組織的成員,為組織內部使用,前提是您或您的組織不將複製品用於任何商業目的,並保留所有免責聲明作為該複製品的一部分。如果您使用本作品的任何部分,則必須包含以下免責聲明。

免責聲明:

IMDRF保留所有其他權利,未經IMDRF書面明確許可,您不得以任何方式(電子或其他方式)複製本作品的全部或部分內容。有關複製和權利的請求和查詢應發送至 IMDRF 秘書處。
將本文件部分或全部納入另一份文件,或翻譯成英語之外語言,並不衍生或表示IMDRF對任何事項之認可方式。

概述:

人工智慧(AI)技術,包括機器學習,係潛在地由每天醫療保健實務生成大量資料,從而獲得新的重要見解,從而移轉醫療保健樣貌。渠等使用的演算法能自實際使用裡學習,並潛在地使用該等資訊提高產品的性能。但是,由於開發期間的性質為迭代運算和資料驅動,此等過程亦存在獨有的考慮因素。該份文件為整體產業建立一套通用原則,以促進開發安全性、有效果和高品質的醫療器材所融入之人工智慧(AI)。在醫療器材的整個生命週期中應用該等原則非常重要。

該份文件中提出的良好機器學習實務(GMLP)的十項指導原則是呼籲國際標準組織(ISO)、國際間主管機關和相關各協同機構宜採取行動,進一步推進良好機器學習實務(GMLP)。合作領域包括研究、創建教育工具和資源、國際調和及共識標準,為法規政策和法規指引提供資訊。該等指導原則可用於採納其他產業的實務,使其適合醫療技術和醫療保健,為該領域開發全新的做法。

以生成式人工智慧為代表的醫療保健領域人工智慧技術的持續進步,凸顯明確描述產品的預期用途/預期目的,並確定其法規現狀的重要性。此外,生成式人工智慧能加強良好機器學習實務(GMLP)的重要性,包括基本的軟體工程實務。例如,包含生成式人工智慧的醫療保健技術,可能採用不是源自於醫療器材製造商的基礎模型,從而潛在地具有獨特的風險。生成式人工智慧亦會從根本上挑戰展現器材性能的既有面向。測量性能以及特徵、偵測該等模型中的誤差的法規科學逐漸成熟,以應對此項挑戰。

隨著人工智慧醫療器材領域的不斷發展,良好機器學習實務(GMLP)和共識標準亦須持續發展。凡與吾人國際公共衛生合作夥伴建立牢固合作夥伴關係,係與該領域實現負責任的創新關係重大。因此,吾人期待這項合作任務得以為未來的 IMDRF 工作和其他國際參與提供資訊。

參考資料:

(見原文件內容)

指導原則:

1. 該器材的預期使用/預期目的已得到充分理解,並且在整個產品生命週期中利用多種學科的專業知識:深入瞭解醫療器材的預期使用/預期目的 包括臨床工作流程中的前後環境,以及預期的益處、相關的患者風險,有助於確保人工智慧支援的醫療器材,在該器材的產品全生命週期內達到具有臨床意義的需求。多種學科專業知識提供特定於上下文的見解和經驗,告知預期使用/預期目的,並提高器材的安全性和有效果。

2. 良好的軟體工程、醫療器材設計和保全實務在整個產品生命週期中實施:模型設計的實施和維護須關注各基本要素:強固的軟體工程實務、可用性、資料品質保證、資料管理、網路保全和品質管理實務。該等實務包括有系統的風險管理和設計流程,須得以適宜地記錄和溝通決策和佐證說明,並確保可追溯性、可重複性、資料真實性、保密性、完整性和可獲得性。仔細考慮模型展開、監督和維護所需的基礎設施。該等做法有助於支援患者權利、安全性和福利,包括通過合乎倫理地使用患者資料。

3. 臨床評估包括使用的資料集,具有目標患者群體代表性質:資料收集協定旨在確保目標患者群體的相關特徵(例如:年齡、性別、性向、種族、民族、地理位置、醫療狀況)、預期使用環境和測量輸入事項,在資料集中資料量足夠大小的樣本中得以充分地代表之,資料集得以使用於訓練、測試和監督,以便將結果合理地通用化,宜於應用到預期對此感興趣的人群。此等通用性對於臨床評估(clinical evaluations)至關重要,對於管理任何非預期偏差(unexpected bias,亦稱冗贅型偏差,參見另文介紹)或資料集漂移、在預期患者群體中促進適當和可推廣的性能、評鑑可用性、以及識別模型可能表現不如預期的情況和次級情況(包括隨著時間的推移出現的情況)。

4. 訓練用資料集須獨立於測試資料集:訓練資料集和測試資料集是經過挑選及善加維護以恰當地區隔而不致相互依賴。須考慮並處理所有潛在的依賴根源,包括涉及患者、身體部位及資料採集的各種相關因素,以確保獨立性。外部確證的涵蓋程度係成比例於風險。

5. 擇取參考標準品須適合預期目的:適合預期目的參考標準須採用已接受的開發方法,確保得能收集到臨床相關且特徵合宜的資料,並了解參考標準的侷限性。包括根據器材的預期使用/預期目的選擇參考標準的理由,以及評鑑其是否適合應對預期使用環境。如果可用,擇取的參考標準便使用在模型開發和測試過程,以促進和展現在目標患者群體中模型的強固性和普世通用性。擇取參考標準係基於寬廣的共識(若確有此共識)和適當的專業知識。

6. 擇取模型和設計係根據可獲得資料及預期使用/預期目的器材而量身訂製:擇取模型和設計進行評估,並顯示適合可獲得資料,支援主動緩解已知風險,如:過度擬合、性能衰退及保全等風險。與產品相關的臨床利益和風險已得到充分理解,以之用於得到臨床上有意義的性能目標以供測試,並支援產品在實現其預期使用/預期目的方面的安全性和有效性。考慮因素包括對總體預期患者群體及其次級群體的衝擊,以及器材之輸入、輸出和臨床使用條件的不確定性和變動性。

7. 評鑑該器材的重點,為預期使用環境下人類與人工智慧交互溝通,包括人類與人工智慧交互溝通的性能,而不僅止於器材自身。該器材的性能係在預期使用環境和臨床工作流程的背景下進行評鑑,並考慮適用於相關使用者:醫療保健提供者、患者和護理人員的互動。強調人類因素的多種考慮事項,例如:使用者技能、用戶專業知識、使用者對模型輸出和限制的理解、過度依賴的潛在可能性、器材自主性水準和使用者錯誤,以正常使用和合理可預見的錯誤使用的情況為背景。

8. 測試展現在臨床期間相關條件的器材性能:制定和執行方法學和統計學面向全面性的試驗計劃,以獨立於訓練資料集生成之臨床相關的器材性能資訊。考慮因素包括目標患者群體、相關次級群體、臨床環境、運用人類與人工智慧團隊、量測輸入和潛在的攪動因素。

9. 向使用者提供明確且基本的資訊:目標受眾(例如:作為醫療保健專業人員或患者)獲得適合他們需求的資訊:清晰、上下文相關。此中包括產品的預期使用/預期目的和使用說明、利益和風險、適當次級群體的模型性能、研究方法學、用於訓練和試驗模型的資料特徵、可接受的輸入、已知限制、用戶界面的闡釋方式、模型的臨床工作過程的整合,以及盡可能地建立模型輸出的基礎。使用者尚須了解器材修改和更新的範圍和時間。使用者應獲得某種將商品狀態傳達給製造商的界面。

10. 監督已部署模型的性能,並管理重新訓練的風險:部署的模型能夠在「實際」使用時維持適當程度的持續監督,並基於風險考量關注維護或改進的安全性和性能。此外,在部署後重新訓練模型時,會採取適當的控制措施以管理可能衝擊模型安全性和性能的過度擬合、非預期偏差或模型衰減的風險,例如:資料集漂移。

© All Rights reserved. 版權聲明
註1:該文引述多份IMDRF已出版指導原則,此處未予摘錄,有興趣者請參見原文件。
註2:該指導原則,宜配合醫療器材的機器學習實務靈活運用。
(本篇竟)

沒有留言: