taiger 囼搿: 機器學習之冗贅型偏差廿問（六之四）

（見前篇）

© All Rights reserved. 版權聲明。

11. 如何偵測機器學習模型中的冗贅型偏差？

組織可採取合宜的查證及確證過程，偵測冗贅型偏差。通常係以三種測試方法偵測偏差，（參見ISO/IEC/IEEE 29119-1標準定義的測試事項）：

訓練資料的靜態測試，以識別涉及冗贅型偏差的風險；
機器學習模型的動態測試，包括資料前期處理，以評估功能上的正確性；
人工智慧系統的動態測試，為瀕危群體評估功能上的正確性；

組織須執行靜態資料測試和模型及人工智慧系統的動態測試；宜盡可能地在擬真條件下的逼真型使用者執行人工智慧系統測試。一般採用方式：漏洞回報、功能測試、獨立稽核及其它結構化人類回饋實務。

漏洞回報：通過結構化計劃和金錢補償，使用者、研究者和其他參與者受到激勵（如：賞金）發現和報告凡是與偏差相關的問題。漏洞回報賞金對於在現實或對抗性狀況下評鑑系統行為尤為重要。
功能測試：測試人員將人工智慧系統當做整體進行評鑑，旨在其將運用於生產環境。功能測試可以揭示文件化、流程、界面和其他系統元件中可能影響人工智慧系統行為或衝擊人類等問題。
獨立稽核：正式的透明型實際練習，獨立專家記錄遵守授權標準（如：非歧視法律要求，或是特定標準，如：ISO/IEC 12791）的情況。獨立稽核提供從外部、知情觀察地查看人工智慧系統的行為。
結構化人類回饋實務：

隨機性管制測試；
以結構化實驗方式評估人類搭配人工智慧的配置方式；
參與式牽涉型練習，如：研判、意見調查、焦點群眾訪問等，涉及潛在地受到影響的個人與社區；
產品管理與使用者交流、使用者經驗研究等活動，以找出優先順序和納入使用者，顧客回饋。

除了上述方式，組織亦可以通過其它方式偵測偏差，例如：分析模型在不同人口統計群體中的預測結果、進行公平性稽核、以及使用偏差偵測工具。採用統計檢驗有助於幫助確定不同群體在處理上的差異。

12. 可否概要說明機器學習的資料集靜態與動態測試？

靜態測試(static testing)

組織宜量測資料品質，凡是每個瀕危群體涉及冗贅型偏差皆屬之。靜態測試應挑選及排出優先順序合適的措施。靜態測試須文件化，包括挑選及排出優先順序的佐證說明事項，及獲得的結果。

組織挑選出來的量測措施須足供評鑑下列事項：

資料是否涵蓋不合宜且未平衡過的特色值、標籤內容或其它涉及類型；
資料是否具有代表性，且直接相關於預期產出的資料；
資料是否足夠差異化，無論是群體內部或是各群體之間；
內容缺失或損壞的實際例子的比例是否均勻分佈於每個瀕危群體；
資料格式及納入資料的數量是否在各群體係為一致的。

ISO/IEC 5259-2另提供資料品質措施的資訊及案例。資料品質評估過程依照ISO/IEC 5259-4，6.3節，，如下示：

活動事項：

採用資料品質措施；
比較資料品質結果對應到既定目標；
評鑑是否達到資料要求。

成果：

將上述資料品質措施與既定目標比較後，紀錄不同之處，並執行衝擊分析；
將資料品質評鑑結果文件化。

註：為每個瀕危群體（已識別出涉及冗贅型偏差者）量測訓練資料品質。

若訓練資料未包括某數值聯結到既有瀕危群體紀錄，但該瀕危群體卻從另外資料識別出來，則從其它既有資料的數值須做為元資料而執行資料品質查核過程，只要係稱群體能從可獲得資料中識別的出來。

例：某個信用型風險排列系統可透過利用資料訓練，特定地排除性別變數及其它潛在相關變數（如：姓名），即使如此，性別資訊仍然可以納入元資料，以利於基於性別測試冗贅型偏差。

實施指引：組織宜識別可獲得之訓練資料的剖繪，加以確證，以了解特定變數的分佈情形是否準確。例子如：識別紀錄中某種年齡層群體是否得到採用供訓練之用，而生產資料卻預期採用另一種年齡層群體

上述活動旨在確證潛在的挑選型偏差與涵蓋型偏差，又不能全方位地做，因為受限於評估者的知識面。

組織可以在準備資料階段識別潛在地導入型偏差，出現示因為「缺少資料」。

例：某個特定資料項目未在各輸入資料集裡一致地獲得之，組織可以轉嫁該資訊到保留紀錄，或者移除該資料項目。

動態測試(dynamic testing)

為人工智慧系統執行軟體動態測試時，試驗設計係按照預期行為的規範格式、系統結構、或執行該類活動的人員經驗而做成。

以人工智慧系統為背景環境的動態測試，給定輸入得到預期輸出，量測方法得出系統表現，是否符合統計預期行為。此類測試基於預期輸入資料。

模型測試宜在人工智慧系統構成的模型上執行。元件測試須在自動式前處理階段執行（參見ISO/IEC 23053, 8.3節），此等測試係軟體開發過程之一。

亦須測試整體人工智慧系統及其採用的各模型，從而確定是否呈現出冗贅型偏差。測試人工智慧系統的重要性，在於偏差可能源於人工智慧系統開發階段其他的人類決定，如：資料準備、資料處理步驟、使用者界面、或其它面向，凡是人類與系統交互作用及產出事項。適宜時，建議須採用使用者測試，以決定使用者界面的設計選擇項目是否增強了系統中偏差。此種人類認知偏差結果可能來自下列因素：

使用者或操作者過度依賴人工智慧系統或輸出；
使用者與人工智慧系統之間不恰當的回饋迴路；
使用者或操作者喪失對某種正常或偏移狀況的認知。

人工智慧系統與機器模型測試須足夠完整，須足以代表使用在生產時預期的輸入資料。宜分開使用測試資料及訓練資料。比較式功能矯正輸出事項的正確性，應從各群體間評估，包括瀕危群體；採用適宜量度，以決定人工智慧系統是否達到接受準則。評估時須納入各群體，從而確定輸出品質的差異是否能察覺出來。組織應決定該等差異按照接受準則是否能夠接受。評鑑偏差時的適宜量度參見ISO/IEC TR 24027，第7章。選擇出來的適宜量度應做出解釋及文件化。

各瀕危群體的極端資料輸入亦須經過測試，以識別模型的強固性變動，因為後者可能造成冗贅型偏差。獲得極端資料輸入的過程可以得益於人工智慧參與者及人工智慧使用者在試驗設計、執行試驗、結果評鑑及解釋。

評估冗贅型偏差須在預期使用及預期運作狀況的背景環境下執行。若要展開機器學習模型或人工智慧系統在另一種環境或不同的目標族群，可能改變其程度，從而顯露冗贅型偏差。

通用型人工智慧系統的動態偏差測試時，組織應設置標的，如：品質保證資料集的偏差標的（BBQ, Bias Benchmark for QA dataset）、維諾性別（Winogender）、真實有毒提示等；在切換人口統計群體資訊時系統地追蹤違反事實提示的結果，及低度內容的提示，如：指揮、壞小子。

13. 有哪些技術可以減少機器學習中的冗贅型偏差？

冗贅型偏差能夠從人工智慧系統與機器學習模組的演算式開發、訓練、資料儲存及組織作業過程等技術上加以處理。組織須盡可能挑選配合其產品生命週期特定階段適宜的技術。

註：參見ISO/IEC TR 24027，提供簡短介紹某些技術。

資料技術

資料技術能應用於人工智慧系統生命週期的各個階段。資料收集涉及做出識別資料來源、準備資料集、籌備資料供模型訓練之用。不過，想要按照人工智慧系統設計目標及瞄準使用者基層所定義出，寄望獲得期待的資料分佈型態，是個重大挑戰。

能夠處理資料相關挑戰的技術如下示：

改進過的實驗設計、資料收集與揀選；
依照樣本跨層級分佈類型做上採樣與下採樣；
應用資料增強技術，在重用既有資料集的時候，人為地增加資料集。
擷取額外的資料儲存，以提高相對於目標族群的資料代表性，可能與聯邦式學習等訓練技術相結合。
創建具有已知偏差的另類資料集，以測試人工智慧系統對冗贅型偏差的敏感性。當應用適當的量度時，此方法會提供有關既定人工智慧系統的冗贅型偏差的邊界條件視界；
在訓練資料集裡過濾掉低品質或有毒樣本；
在資料收集過程或模型評估時，儘量避免回饋迴圈或是最小化。

若在訓練資料裡發現資料偏差，組織應考慮調整資料以處理冗贅型偏差風險。例：當捨棄某項特色前，組織可以分析該特色供訓練資料關聯到傾向於瀕危群體的冗贅型偏差風險之成員。若是覺得資料偏差係屬冗贅，對策之一是為每一個代表性類別創造一個更平均的分佈式案例子群。

演算法及訓練技術

人工智慧系統由一或數個機器學習模組結合而成，各模組係自行或協同使用，若協同使用數個機器學習模組，可能在系統層級強化資料偏差。

修改模組規格或許可以處理冗贅型偏差，如下示：

應用規則化技術能確保預測不會失準或謬誤。重要的是文件化該項技術應用時的細節，尤其是數學上必備的限制。例：為成本功能的損失函數加上規則化條件，則規則化條件得以優先地學習不足分抽樣的資料，以確保即使有主要的資料案例，仍不會忘記其學習的案例。當資料不是獨立與同等地分佈的，上述規則就很重要。
可以採用限制條件以確保模型的客觀功能或行為遵循既知的普通關係，而非學習族群代理者或不正確行為方式，從而引發偏差結果。通常方式包括受限的優化過程、單一性或形狀設限、及交互作用設限。
可以建構雙重目標功能，則模型更新時帶入減少錯誤功能，予以改進擷取偏差的對應措施。例：某個目標的原本構建是跨越多個群體的指數型損失最小化，同時平均衝擊比率最大化。
更改決策閥值可能衝擊某些部份的人工智慧主體接收到正向結果。
擴大或更改離散化輸入變數的區間，可以改變人群細分段與正向結果之間的已學習到之關係。
使用套件式量度配合拆分式量度，可以獲得更全面的圖像並避免成為戲論。
可以應用 top-k 預測（註：係取概率最高的k個量）的採樣或平均值，而不是採用argmax （註：係取函數值最大化時對某個函數域的輸入或參數值）。
應用解耦分類標示技術，根據要求事項為分散式的群體使用不一樣的分類標示，以處理冗贅型偏差。
模型選擇考慮到採用不同超參數或輸入特色規格訓練出來的大族類模型，並在性能和偏差量測之間做出輕重權衡。
模型預測時應用多條規則，截長補短，互相彌補各自的長處與弱項，減輕可預見的不必要偏差或傷害情況。
在開發過程中引入可解釋的人工智慧技術，在特定模型或非特定模型模式下得以執行，有助於事後解釋人工智慧模型輸出的預測事項。此等解釋能引導到偵測和監督冗贅型偏差。合併可解釋的人工智慧與機器學習的運作方式，為組織提供一種方法學，可以自動化監督冗贅型偏差，並觸發矯正步驟以處理偏差。
使用聯邦式學習方法在分散式資料集上進行訓練，可以促進擷取從前未能採用的資料集。擷取更多資料能解決資料分佈型挑戰，即非獨立與同等地分佈型態。此法能提高人工智慧系統的準確性並減少冗贅型偏差。聯邦式學習有效率的良好案例是在醫療保健領域的疾病偵測。分散式訓練的其他各種選項，例如：增量式學習、循環式學習、或上述各方法的組合方式，亦可加以調適而減少冗贅型偏差。
對抗性機器學習方法可應用到處於劣勢之預測無需解碼的人口統計式資訊估計器。部署主要估計器持續進行訓練，從訓練資料中學習，並從對抗性模型接收回饋，直到對抗者未能再使用主要估計器的預測事項以預測群體成員的身份。

預訓練模型

訓練技術能應用在客製化預訓練機器學習模型，以調適人工智慧系統於特定部署條件產出結果。即使強調創建的人工智慧系統具有最小化的冗贅型偏差，仍然不可能認為實際世界發生的所有各式各樣情境都可以部署。為因應此等情境，組織能使用下列各種技術：

改變設定熱度（或類似項）所控制的系統輸出事項之隨機性；
採用較為簡單的人工智慧系統或運作規則做內容評議，以識別出有問題的產出，從而限制其送到使用者處；
細緻調適、再訓練、或採用按照真實物件訓練資料做轉換訓練、或以組織內部資料做轉換訓練；
提供預先核准之回覆事項供通用或常見的輸入問題；
強勢元提示詞適應多樣性使用者族群，及指示類模型可避開一成不變型、蔑視性、或其它有毒式主題。
納入使用者回饋和補救機制。
各種技術，包括持續學習及轉換學習，提供必須要的容納量，客製化人工智慧系統及因素，因應部署期間的冗贅型偏差。

（未完，見續篇）

taiger 囼搿

2025年1月5日星期日

機器學習之冗贅型偏差廿問（六之四）

沒有留言:

張貼留言

2025年1月5日 星期日

機器學習之冗贅型偏差廿問（六之四）

沒有留言:

張貼留言

2025年1月5日星期日