© All Rights reserved. 版權聲明。
黃、品質評估術語 |
||
序號 |
名詞 |
定義與說明 |
黃1 |
性能測試performance testing |
在預期使用環境中評估系統或部件與規定的性能需求的依從性的測試行為。測試項目如:功能測試、準確性測試、健壯性測試、使用者交互測試、兼容性測試、安全性測試、基本性能測試、臨床試驗、法規符合性測試、長期穩定性測試。 |
黃2 |
獨立性能試驗 standalone
performance test |
通過直接比對模型在沒有醫生干預的情況下產生的結果和參考標準的結果,評估人工智慧醫療器材的性能。 此種試驗通常在沒有外部依賴或基礎設施支援的情況下進行,旨在評估器材在獨立運行環境中的表現,包括其處理能力、回應速度、準確性和穩定性等。 |
黃3 |
判讀者性能研究 reader performance study |
通過比對判讀者在獨立工作(如醫生閱讀影像)和結合人工智慧輔助診斷系統模型工作兩種狀態下,判讀(病例)資料的結果,評估人工智慧輔助診斷系統醫療器材的性能。評估項目如:診斷準確率、漏診率、檢出率、閱讀時間、判讀者滿意度、易用性。 |
黃4 |
多判讀者多病例研究 multi-readers multi-cases study |
通過判讀人員和病例的某種交叉組合方式開展的判讀者性能研究,評估人工智慧醫療器材的性能。 |
黃5 |
黑盒子測試black-box testing |
忽略系統或部件(硬體、軟體)的內部機制,只集中於回應所選擇的輸入和執行條件產生的輸出的一種測試。用於查證人工智慧醫療器材的功能是否符合預期。 註:此種測試專注于產品的輸入與輸出行為,不涉及內部演算法或資料處理過程。有助於判讀可靠性和有效性,毋須涉及複雜演算法機制或深入資料處理過程。 |
黃6 |
白盒子測試glass-box testing |
側重於人工智慧系統或部件內部結構與決策機制的測試。類型包括分支測試、路徑測試、語句測試。測試項目涉及模型的參數調整、資料質控、對抗生成和模型評估等多個環節。可供審查演算法的輸入輸出關係,檢查其邏輯和參數設置,識別潛在的偏差或錯誤,以及評估對特定資料的回應。旨在確保人工智慧系統透明度和可解釋性。 |
黃7 |
對抗措施 counter measure |
為減低脆弱性而採取的行動、裝置、技術或其它措施。用以應對和減輕潛在的威脅或攻擊。此等威脅可能包括(但不限於):惡意軟體、資料篡改、隱私洩露、以及利用人工智慧系統進行的攻擊。對抗措施可以涉及多個層面,包括:演算法層面的安全設計、資料加密、身份查證、存取控制、異常檢測和回應機制等。 |
黃8 |
對抗樣本adversarial examples |
基於原始資料上添加擾動到混淆系統判別目的之新樣本。 一種特殊輸入資料,用於人工智慧系統中製造錯誤輸出。此種技術通常在人工智慧模型的安全性和健壯性研究中加以討論,尤其是在醫療領域。在醫療器材中,對抗樣本可用以測試人工智慧系統的穩定性,比如醫學影像分析軟體可能被設計成能夠識別並抵抗對抗性圖像,以確保在真實世界中的準確性和可靠性。 |
黃9 |
對抗試驗 adversarial test |
使用對抗性樣本開展的試驗,或採用不同於目標樣本分佈的特選資料,做為壓力資料集進行的試驗,經由生成對抗樣本測試模型在面對輕微但刻意設計的輸入擾動時的性能。旨在評估機器學習模型健壯性。此種測試對於理解模型在現實世界中的穩定性至關重要,尤其是在目標檢測、人臉識別等安全關鍵應用中。對抗樣本經過精心設計的輸入,能夠在視覺上幾乎不可察覺的情況下,導致機器學習模型做出錯誤的預測。 |
黃10 |
陽性樣本 positive sample |
由參考標準確定為帶有某一種(或數種)特定特徵的樣本。 |
黃11 |
陰性樣本 negative sample |
除陽性樣本以外的樣本。 |
黃12 |
真陽性 true positive, TP |
被演算法判為陽性的陽性樣本。 |
黃13 |
假陽性 false positive, FP |
被演算法判為陽性的陰性樣本。 |
黃14 |
真陰性 true negative, TN |
被演算法判為陰性的陰性樣本。 |
黃15 |
假陰性 false negative, FN |
被演算法判為陰性的陽性樣本。 |
黃16 |
目的地區域 Target region |
<影像評估>根據參考標準從原始資料中劃分出的若干個包含特定類別目標的最小資料子集,子集元素為圖元,體素等。 |
黃17 |
分割區域 Segmentation region |
(影像評估)從原始資料中劃分出的若干個包含特定類別目標的最小資料子集(子集元素為圖元,體素等)。 |
黃18 |
病變定位 Lesion localization |
演算法檢出病變位置正確標識出參考標準確定的病變位置。 例如:在CT圖像中,基於局部顯著位置感知的異常遮罩合成方法可用於肺部疾病異常檢測與病變定位,幫助醫生快速準確地識別肺炎等疾病的感染區域,類似早期的磨玻璃影。此方法利用卷積神經網路(CNNs)提取特徵並進行分類,提高診斷的效率和準確性。在腦部影像中,利用深度學習實現對微出血的自動檢測以及基於解剖學尺度的定位,可以更精準地識別和定位腦微出血, |
黃19 |
非病變定位 Non-lesion localization |
演算法檢出病變位置未能正確標識出參考標準確定的病變所在位置。 |
黃20 |
病變定位率 Lesion localization fraction |
病變定位數量占由參考標準確定的全體病變數量的比例, 註:參見《召回率》定義。 |
黃21 |
非病變定位率 Non-lesion localization fraction |
非病變定位數量占全體病例數量的比例,非病變定位率可以大於1。 註:亦稱《平均假陽個數》。 |
黃22 |
假陽性率 false positive fraction |
假陽性病例數量(陰性病例中包含非病變定位)占全部陰性病例數量的比例。 |
黃23 |
靈敏度sensitivity |
召回〔率〕recall(亦稱《查全率》) (a)
真陽性樣本占全體陽性樣本的比例; (b)
分割區域與目的地區域的交集占目的地區域的比例。 此事項能反映模型在捕捉真正病患方面的準確性。高靈敏度意味著模型在實際病患中的誤診率較低,但可能會增加假陽性的數量。在某些應用場景,如:醫學診斷,確保不漏診(即高靈敏度)比避免誤診更為關鍵,因漏診可能導致病情延誤。 |
黃24 |
特異度 specificity |
真陰性病例占全體陰性樣本的比例。 註:亦稱《真陰性率》。 |
黃25 |
漏檢率 miss rate |
【1】減去靈敏度。 即圖像中實際存在的目標物體未能被演算法正確識別的比例。漏檢率越低,表示演算法的檢測性能越好。 漏檢率通常與FPPI(每幅圖像的平均誤檢率)一起使用,構成MR-FPPI曲線,此係評估業內人仕檢測等任務中演算法性能的一種常見方法。MR-FPPI曲線通過調整不同的檢測置信度閾值,展示漏檢率與誤檢率之間的權衡。此項指標有助於全面理解演算法在不同閾值下的表現,從而優化其在實際應用中的性能。 |
黃26 |
精確度precision |
陽性預測值 positive prediction value (a)
<演算法>真陽性樣本占被演算法判為陽性樣本的比例; (b)
<演算法>分割區域與目的地區域的交集占分割區域的比例; (c)
<演算法>病變定位數量占由演算法確定的全體病變數量的比例。 (d)
<資料>對於表示數量的精確或差異的程度。例如,2位十進位數字對比5位十進位數字。 註:亦稱《查準率》。 |
黃27 |
陰性預測值negative prediction value |
真陰性樣本占被演算法判為陰性樣本的比例。 |
黃28 |
準確率 accuracy |
<演算法>演算法診斷正確的樣本占全體樣本的比例。 <資料>對資料內容正確、形式有效的一種度量。 |
黃29 |
F1度量 F1-measure |
召回率和精確度的調和平均數。 |
黃30 |
約登指數 Youden index |
靈敏度與特異度之和減去1。 |
黃31 |
受試者操作特徵曲線 receiver operating characteristics curve, ROC |
(a)
以假陽性率為橫座標、真陽性率為縱座標,根據演算法在不同閥值設定下,對於給定的測試集得到的一系列結果繪製的曲線。 (b)
通過在一組預設的閾值下計算人工智慧演算法在測試集上的靈敏度(Sensitivity)以及特異度(Specificity)從而產生一組(1-Specificity,Sensitivity)操作點,將操作點依次連接形成受試者操作特徵曲線。 |
黃32 |
自由回應受試者操作特徵曲線 free receiving operating characteristics curve, fROC |
(a)
以非病變定位率為橫座標、病變定位率為縱座標,根據演算法在不同閥值設定下,對於給定的測試集得到的一系列結果繪製的曲線。 (b)
由演算法在一組閾值設定下對於給定的測試集得到的一組病變定位率/召回率為縱軸,及非病變定位率/平均假陽個數為橫軸構造的曲線。 |
黃33 |
候選自由受試者操作特徵曲線 alternative free receiver operating characteristics curve, AFROC
curve |
(a)
以假陽性率為橫座標、病變定位率為縱座標,根據演算法在不同閥值設定下,對於給定的測試集得到的一系列結果繪製的曲線。 (b)
由演算法在一組閾值設定下對於給定的測試集得到的一組病變定位率/召回率為縱軸,及假陽性率為橫軸構造的曲線。 |
黃34 |
精確度—召回率曲線 precision-recall curve, P-R curve |
(a)
以召回率為橫座標、精確度為縱座標,根據演算法在不同閥值設定下,對於給定的測試集得到的一系列結果繪製的曲線。 (b)
由演算法在一組閾值設定下對於給定的測試集得到的一組召回率為橫軸,精確度為縱軸構造的曲線。 |
黃35 |
曲線下面積area under curve, AUC |
(a)
曲線下與座標軸圍成的積分面積。 (b)
受試者操作曲線下的積分面積。 |
黃36 |
平均精確度 average precision, AP |
精確度—召回率曲線下與座標軸圍成的積分面積。 |
黃37 |
平均精確度均值 mean average precision, MAP |
在多目標檢測問題上,演算法對於各類目標的平均精確度的平均值。 |
黃38 |
交並比 intersection over union, IoU |
(a)
分割區域與目的地區域的交集佔分割區域與目的地區域併集的比例。 (b)
分割區域與目的地區域交疊的程度,可用Dice係數(分割區域與目的地區域的交集占分割區域與目標區域平均值的比例)或Jaccard係數(分割區域與目的地區域的交集占分割區域與目的地區域併集的比例)表示。 (c)
在自然語言處理其定義為兩個集合交集大小與併集大小之間的比例。 註:亦稱《Jaccard係數》。 |
黃39 |
Dice係數 Dice coefficient |
分割區域與目的地區域的交集占分割區域與目的地區域平均值的比例。 |
黃40 |
中心點距離 central distance |
分割區域中心與目的地區域中心的距離,該指標反映兩個集合的接近程度。 |
黃41 |
混淆矩陣 confusion matrix |
一種矩陣,它按一組規則記錄試探性實例的正確分類和不正確分類的個數。 註1:通常矩陣的列代表人工智慧的分類結果,而矩陣的行代表參考標準的分類結果。 註2:亦稱《含混矩陣》、《混淆矩陣》。 |
黃42 |
Kappa〔一致性〕係數, Kappa coefficient |
(a)
評估結果一致性的一種指標。 (b)
評估人工智慧診斷與參考標準診斷結果一致性的一種指標。 (c)
評估兩個或多個觀察者(或系統)對相同樣本進行分類或評估時的一致性程度的統計量。廣泛應用於各種領域,如醫學診斷、心理評估、機器學習分類任務等。 註:亦稱《Kappa係數》。 |
黃43 |
信噪比 signal-to-noise ratio |
信號平均功率水準與雜訊平均功率水準的比值。 |
黃44 |
峰值信噪比 peak signal-to-noise ratio |
(a)信號最大可能功率水準與噪音平均功率水準的比值。 (b)信號最大可能功率水準和影響它的表示精度的破壞性雜訊功率的比值。 |
黃45 |
結構相似性 structural similarity |
(a)衡量兩幅圖像相似度的一種指標。 (b)網路或資料集中的節點或元素之間的關係和模式的相似性。 註:可能涉及神經網路的架構相似性,即不同網路在結構上的相似性,如:層數、節點連接方式等。 |
黃46 |
餘弦相似度 Cosine Similarity |
通過測量兩個向量的夾角的餘弦值來度量它們之間的相似性。 註:此項目為自然語言處理評估的一種指標。 |
黃47 |
困惑度 Perplexity |
度量概率分佈或概率模型的預測結果與樣本的契合程度,困惑度越低則契合越準確。 |
黃48 |
字錯率 Word Error Rate |
將識別出來的字需要進行修改的字數與總字數的比值。 註:此項目為語音辨識評估的一種指標。 |
黃49 |
交叉熵 cross-entropy, CE |
一種度量兩個概率分佈之間差異的指標。常用的損失函數,廣泛應用於分類問題,尤其是在神經網路的訓練過程。交叉熵的目標是使模型預測的概率分佈盡可能接近真實標籤的概率分佈。 交叉熵在監督學習中尤為重要,因其通過最小化損失函數引導模型學習到更加準確的表徵。 |
黃50 |
互資訊 Mutual Information MI |
(a)對兩個隨機變數間相互依賴性的量度,或共用的信息量。 (b)兩個隨機變數的聯合熵與各自邊緣熵之差。 例如:在特徵選擇中,互資訊可以用來評估不同特徵與目標變數之間的相關性,從而篩選出最具資訊量的特徵。在決策樹學習中,互資訊可以作為資訊增益的替代或補充,用於判斷哪個特徵對劃分資料集最有幫助。 |
黃51 |
服務可得性 service availability |
服務客戶發起服務請求後,服務可訪問的時間占總服務時間的比例。 註:可得性的計算是在一系列預定義的時間段中,服務可用時間之和占預定義時間段之和的比例,可排除允許的服務不可用時間。 |
|
|
|
宇、應用情境術語 |
||
序號 |
名詞 |
定義與說明 |
宇1 |
電腦輔助 computer-aided |
涉及使用電腦完成部分工作的技術或過程。 |
宇2 |
電腦輔助診斷 computer-aided diagnosis |
輔助判斷患者是否患病、疾病的類型、嚴重程度、發展階段、干預措施等。 註:電腦輔助診斷旨在提供除計算機輔助檢測結果之上的額外資訊,此等資訊包含對患者是否患病、疾病的類型、嚴重程度、發展階段、干預措施等做出的判斷。 |
宇3 |
電腦輔助檢測 computer-aided detection |
通過檢測、標記、強調或其它方式輔助醫務人員注意醫療資料的可能異常情況。其結果供醫務人員參考。此類系統通過學習大量醫學影像資料,能夠識別並突出顯示潛在的關注區域,供醫生在早期階段發現疾病, |
宇4 |
電腦輔助分診 computer-aided triage, CAT |
自動分析醫療資料、給出初始解釋和鑑別分類、輔助醫務人員確定患者優先級。 此種系統通常通過分析患者的症狀、體癥、實驗室檢查結果等資訊,利用深度學習、自然語言處理和圖像識別等技術,快速識別高風險患者並提供初步的診斷建議。電腦輔助篩選系統可以顯著提高醫療資源的分配效率,減少患者等待時間,並在緊急情況下為醫生提供及時的資訊支援,從而改善患者的治預後期過程。 註:導診不屬於電腦輔助分診。 |
宇5 |
臨床決策支持 clinical decision support, CAS |
根據臨床知識和患者資料產生輔助決策的建議,該建議由醫務人員使用。 在醫療器材的工作流程中採用人工智慧技術,如:深度學習、神經網路等,以增強器材的智慧輔助診斷、治療、監督與生命支援等功能。此類產品通過處理大量醫療資料,提供輔助決策、資料處理、模型計算和分析等,旨在提高醫療效率和準確性。 註:在不同的國家和地區,臨床決策支持系統可能不屬於醫療器材。 |
宇6 |
患者決策輔助 patient decision assistant |
向患者提供建議或輔助決策,該決策由非醫務人員使用,結果僅供參考。這類輔助工具通常通過分析患者的病史、症狀、檢查結果和治療選項等資料,結合現今科技水準的醫學研究和臨床指引,生成個人化的治療建議或風險評估。可能包括(但不限於)以下功能:診斷輔導、推薦治療方案、風險評估、患者教育、支援醫學決定。 註:在不同的國家和地區,患者決策輔助系統可能不屬於醫療器材。 |
宇7 |
電腦視覺 computer vision |
功能單元獲取、處理和解釋可視資料的能力。 註:亦稱《人工視覺》artificial vision |
宇8 |
語音辨識 speed recognition |
通過功能單元對人的語音所表示資訊的感知與分析。 註:亦稱《自動語音辨識》 automated speed recognition, ASR |
宇9 |
自然語言處理 natural language processing |
自然語言理解和生成及其衍生技術,以從文本化的人類語言中獲取有意義的資訊。 |
宇10 |
知識圖譜 knowledge graph |
將海量知識及其相互聯繫組織在一張大圖中,用於知識的管理、搜索和服務; |
宇11 |
醫學影像處理 medical image processing |
一種對醫學圖像進行影像處理的方法, 一種資料結構,用於描述和組織醫療器材相關的實體、屬性和相互之間關係。此種圖譜通過節點表示實體,如:醫療器材、患者、醫療過程等,通過邊際表示實體之間的關係,如「應用於」、「治療」等。 註1:包括圖像重建、成像加速、圖像增強、圖像恢復(降噪、去偽影)、圖像分割、圖像配准、圖像識別、圖像分類、目標檢測、影像對應、圖像視覺化等。根據醫療器材應用情境可分為前處理應用和後處理應用。 註2:知識圖譜的構建主旨在整合與表示複雜的醫療知識,包括(但不限於)器材功能、使用方法、適應症、禁忌症、臨床試驗資料、患者回饋等。這些資訊通過結構化的形式存儲,便於電腦系統進行查詢、推理和決策支援。 註3:知識圖譜可以用於輔助診斷、治療方案推薦、藥物不良反應監測、患者風險評估等應用場景。將此等資訊以圖的形式表示,人工智慧系統能較佳理解醫療器材的使用環境與患者個體差異,從而提供更精準的醫療建議和服務。 |
沒有留言:
張貼留言