2024年12月29日 星期日

機器學習之冗贅型偏差廿問(一之六)

楔子

從一般人申請貸款時隱約感受到的種族歧視,又如在醫療診斷中的錯誤看法或治療方向,人工智慧(AI)系統中「冗贅型偏差」(unwanted bias,亦稱為「不必要的偏差」)可能會引出嚴重的後果。另一方面,特意強調的偏差可能在某種應用面相當有效,例如:在篩選貸款申請中的隱藏型風險狀況,或者引入對性別或種族的偏差從而彌補既成的社會偏見(例如:在代表性不足的產業可以配合需求項目增加聘用某類人員)。

人工智慧(AI)從資料中學習,因此由某些資料集訓練出來的人工智慧系統可能反映社會中已經存在的偏見,或由於系統設計時不充分,或資料缺乏代表性,而發生伴隨資料而來的偏差。

人工智慧(AI)系統學習資料集獲得的偏見可能會放大或加劇既有的問題,可能會偏向或忽略某些群體、事物、概念或結果。更甚而有之的是嘗試消除一種偏差,可能會在另一個未能察覺到的面向產生其他偏差。所有這些負面印象都可能導致惡劣後果。由於人工智慧系統經常被用來幫助企業或個人做出決策,因此冗贅型偏差是有可能引發大問題的。

由於不必要的偏差而導致的錯誤顯然會削弱眾人對人工智慧系統的信任感,從而降低接納此項新技術,更不用說人工智慧可以帶來的潛在益處。此篇短文係介紹如何處理人工智慧(AI)系統使用機器學習出現的冗贅型偏差。嘗試運用人工智慧系統生命週期適宜應用的緩解因應技術,處理冗贅型偏差。

© All Rights reserved. 版權聲明

 

1. 什麼是機器學習中的冗贅型偏差unwanted bias)?

冗贅型偏差指的是機器學習模型中出現的系統性錯誤,此等錯誤會導致不公平或歧視性的結果,通常反映出人工智慧系統訓練資料中存在的偏差。導致結果偏斜,不能準確代表資料的真實分佈。

常見的偏差類型如下示:

  • 資料偏差(data bias):係資料屬性,若未經處理,將導致人工智慧系統對不同主體、人員或群組表現較好或較差。
  • 人類認知型偏差(human cognitive bias):人類處理和理解資訊所發生的偏差,此型偏差可能影響人類判斷和做出決策。
  • 模型偏差(model bias):指模型中存在的系統誤差,此型誤差可能導致模型始終做出錯誤的預測。這些錯誤可能由許多來源引起,包括訓練數據的選擇、用於構建模型的特徵的選擇或用於訓練模型的演算法。。
  • 選擇型偏差(selection bias):當資料集的各類樣本未以代表其現實世界分佈方式收集時可能發生的資料偏差類型;
  • 統計型偏差(statistical bias):考慮到資料中往往帶有估計量,而偏移量是大多數估計量的固有性質,此型偏差係指估計量中相對於真實基礎值的一致地數值偏移類型;
  • 計算型偏差(computational bias):通過查找估計值與實際值之間的差值來計算偏差。若要找出某種方法的偏差,須執行甚多次估計,並將每次估計得到的誤差與實際值比較。加總每次的誤差值除以估計值的執行次數,可以得出係稱方法的偏差。

2. 部署人工智慧系統後,哪些人員會受到冗贅型偏差的影響

工作人員的需求

現代經濟運作的市場競爭需求,促使產業界與服務業界的資方愈來愈多地投資到基於人工智慧的數位監督、分析和協助做出決策的解決方案,以諮詢、建議、補充管理手法之需,且在某些情況下部份或完全地取代某些職務的員工做出決策。人工智慧在工作場所的使用案例包括下示:

  • 召募演算法,用於設計招聘廣告、篩選求職申請、測試求職者的能力、檢查他們的記錄、以及進行或評鑑各項面試作業;
  • 工作場所決策演算法,用於組織輪班工作、為工人分配日常任務、將工人分配到不同的團隊或專案,或提供通常的自助式人力資源活動(工資和福利、年假、病假、工作費用報銷);
  • 績效管理演算法,可以追蹤實體或數位式員工活動、檢查員工的電子郵件和其他消息、尋找關鍵字或進行觀點分析,根據產出或目標評估員工,使用客戶評分來衡量員工績效,最後將上述所有內容轉化為有關晉陞、獎勵獎金或解僱哪些員工的建議。

組織管理機構、員工及其代表之間的社會對話有助於識別和矯正冗贅型偏差。通過處理冗贅型偏差,同時展現人工智慧系統如何減少冗贅型偏差,組織可以改進員工對人工智慧系統的接受度。


弱勢的消費者

ISO 22458 能用在設計與交付包容式服務inclusive services),旨在為弱勢的消費者促進利益,同時最小化傷害風險。

消費者的弱勢,意指任何時刻可能會永久地或暫時地影響任何人的某種事項。相對於非弱勢消費者,弱勢消費者在與人工智慧系統交互作用,或者接受人工智慧系統做出的決策影響時,可能會出現負面結果的風險增加。

ISO 22458指出,適用於人工智慧系統如下示:

  • 採用包容式設計防範冗贅型偏差;
  • 定期評鑑人工智慧系統,關注冗贅型偏差作用在消費者的效應,尤其是後者處理弱勢的情況;
  • 凡是系統因某種方式出現冗贅型的偏差;
  • 凡是系統創造冗贅型的歧視效應;
  • 凡是系統引致傷害。

人工智慧衝擊評鑑的指引見ISO/IEC 42005

 

3. 哪些利害相關者涉及人工智慧系統的冗贅型偏差?

人工智慧系統的開發、訓練、準備、運作、部署及維護各階段,涉及各種類型的利害相關者,包括:

  • 資料集相關者:資料集來源群體、供應者、資料分析者、資料科學家;
  • 法規相關者:人工智慧倫理學家、政策制定者、法規監督機構;
  • 技術相關者:資料技術專家、人工智慧技術專家;
  • 營運相關者:使用者、操作者、人工智慧系統目標群體(target population)、尤須關注瀕危群體、系統部署的環境及運作者等;
  • 品質、風險、稽核相關者:品質管理者、風險管理者、第三者稽核與驗證機構。

各方利害相關者運用本職技能,得以促成人工智慧系統日常營運、異常管理、識別、處理和減少冗贅型偏差方面發揮出至關重要的作用。協同合作與透明化是確保人工智慧系統的公平及合乎倫理營運的關鍵要素。另外,利害相關者亦能協助創建指引文件、執行偏差稽核、倡導負責任的人工智慧實務。

(未完,見續篇

沒有留言: