(見前篇)
7. 如何避免資料來源的問題,影響到機器學習模型出現冗贅型偏差?
組織宜建立、實施及維護資料品質管理系統,以確保資料(包括:資料集、資料庫、訓練資料)的規劃、設計開發、查證與確證、展開、實施與維護、直到退役之每個階段,符合組織的資料品質政策與目標,且上述各項作業皆文件化,並保留紀錄。
首先須考慮元資料的內容,元資料的代表性與詳細程度須足以鑑別冗贅型偏差的潛在來源。元資料或資料集的文件化須足以使資料能受到冗贅型偏差的評估。
附圖為資料生命週期與資料品質管理的概略關係圖(參見ISO/IEC 5259-4,圖2)。
組織須為每個資料來源做成評估及文件化,如下示:
- 創建該資料集的預期使用及目的,包括特定任務;
- 識別資料集的創建者們,及贊助金的各種來源;
- 資料集的組成成分,包括:性質、尺度、標籤、相關度、錯誤性、贅餘度、噪音及資料集案例文稿中遺漏的資訊;
- 資料集內容物的完整性,如:保密型資訊、敏感型資料可能呈現個人專屬的識別標記、子群體及群體、各個利害相關者群體所缺少的特色等資訊;
- 資料集的使用規定與許可證;
- 資料集的準確度,包括:資料集帶有不準確資料的數量,及各個利害相關者群體的不準確性;
- 收集資料的時間段(所謂的「近時性」),包括為了準確度而收集之時間段的潛在效應;
- 資料集帶有的毒性資料、或針對性資料之適宜程度;
- 一致性,包括標籤,如:從註釋者間協議所量測到的一致程度;
- 跨越不同子群體間的資料集涵蓋程度,係與展開人工智慧系統時的背景環境直接相關;
- 慮及如何為未能觀察到的建構事項賦予近似型標籤,而引致非預期的衝擊;
- 資料收集與轉換成模型化之間的回饋往復作用與擴散效應的風險;
- 資料集的維護,包括:各利害相關者負責的支援、代管理者、按時更新、版本更動、保存做法、逾期資料集的安排、改進資料集的參與貢獻方式等;
- 追溯性,包括:涉及彙集或處理各自資料來源中的資料之其它系統;
- 可理解性,包括:各種符號標示、計量單位及語言種類;
- 可接受稽核程度,包括:已接受過的稽核、規劃中的稽核、潛在預期來臨的稽核;
- 個人可識別資訊的辨識性與保護程度;
- 某項給定個案之各種資料來源間的相關性;
- 面對目標群體的代表性;
8. 如果機器學習模型或資料集是向供應者(如:資料提供者)採購來的,需要注意哪些事項?
機器學習工具可能是採購而來、自行開發、或兩者兼而有之。在演算法則、機器學習演算法或開發機器學習模型階段使用何種技術,係有助於有效處理冗贅型偏差。
關於資料集的準備及提供,宜考慮人工智慧生產者與人工智慧夥伴具備保密協議,確切的範疇;如果法規要求事項對資料集予以公開的行為有所影響,應明示並做出佐證說明。
影響冗贅型偏差的人工智慧系統面向如下示:
- 演算法(algorithm)揀擇
- 超參數(hyperparameter)調整
- 模型偏差(model bias)
- 資料來源內含偏差
組織與第三者協議內容具備合宜措施,處理冗贅型偏差風險,包括ISO/IEC TS 12791內容及其衍伸事項。
- 在採購過程中,資料提供者按照法規要求,須備妥下列資料(需要時可獲得之):
- 資料起源,包括:訓練採用、確效及測試資料
- 資料品質管理政策及資料品質查核評鑑結果,包括:內部註釋者協議措施;
- 資料品質模型處理面向,如:採用的附加標籤過程、採用的機器學習模型類別或採用的演算法;
註:此等資訊可用於發現只有資料供應者才能看得到的機制相關的偏差,因為該等事項是其內部過程的一部分。
因採購行為而須由資料提供者備妥資訊,如下示:
- 資料收集方法
- 資料標籤工作者工作狀況時的資訊,因其會影響該人員的人類認知偏差,從而引發成果資料集的潛在冗贅型偏差;
- 進行資料標籤時的地理位置;
- 資料標籤工作者群的顯著地匯總型人口統計資料。
- 供冗贅型偏差風險管理之用的資料字典及直接相關的元資料集。
- 資料供應者宜確保工作者群內個別人士及群體的私密性得以維持。
- 預期之使用時背景環境及相關假設條件;
- 已知的系統侷限事項;
- 人類與人工智慧系統使用過程交互作用之建議做法;
- 可能影響冗贅型偏差之妥協事項,涉及演算法、機器學習演算法則及機器學習模型開發;
- 資料收集、修改與庋藏過程等可能涉及偏差者,如:插補或參數設置;
- 在人工智慧系統設計與開發階段為查證和確證所擬訂的測試攻略,包括:接收準則及機器學習模型化時使用近似因子等。
9. 自製或外購的資料集是否適用於組織的人工智慧系統目的,或與機器學習的預期使用,因應對策為何?
組織可利用制定的資料集評估準則,資料集的歷史資料、資料集的已知冗贅型偏差、供應商提供資料集的特色與建議應用方式、類似資料集的冗贅型偏差處理經驗,彙編為組織人工智慧系統機器學習的訓練階段運作對策指引,收集正向與負向現象或趨勢,重點關切事項為訓練階段可見的與潛在的冗贅型偏差,配合發現時的背景環境與相關運作事項文件化,採取對應措施,評估與管制風險,減少或盡力排除冗贅型偏差。
組織須實施及文件化機制以處理從發生情況識別出來的冗贅型偏差風險。參見ISO/IEC TR 24027第8.3.3.2節舉例說明緩和偏差的方法,可稱之為公平型演算法,如下示:
- 更進一步基於資料型態的方法,如為低代表性群體向上取樣,或是採用合成資料;
- 基於模型的方法,如添加規則化項目或約束項目、在優化期間強制企及某項目標、或呈現學習隱藏或減少特定變數的效應;
- 基於事後的方法,如根據預測結果識別出來某種特定於群組的決策閾值,以達到等效化的偽陽性率、或其他相關量度。
從相關於冗贅型偏差識別出來的風險,組織應考慮下列事項:
- 因為資料註釋事項(與真實世界分佈情況)不成比例之可獲得性而造成的偏差;
- 人類認知偏差類型,包括相關的資料註釋事項;
- 在生命週期內的過程類型及所做的決定,且可能會受到人類認知偏差的衝擊;包括資料註釋事項;
組織須實施文件化機制,以確保註釋活動不會創造冗贅型偏差,包括如下:
- 基於已知基礎事實創造輸入提供品質的量度;
- 進行案例查核;
- 提供明確說明或訓練予人類;
- 為人類訂定機制以回饋給資料註釋任務;
- 做出評估由自動地生成的標籤或註釋時的統計型偏差,
- 經由計算註釋者間協議,比較由數個人類為相同資料所生成的標籤;
- 由人類生成的標籤之間的差異之解譯方法。
由於人類認知偏差及人類失誤,不宜假設人工註釋就代表高品質。
10. 冗贅型偏差在機器學習模型中的類型與來源有哪些?
由於使用人工智慧系統,即使是平常預期使用的目標群體,由於系統產生偏差,可能會浮現未能預見的瀕危群體,資料集出現的冗贅型偏差可能導致對個人或群體的不公平對待,使刻板印象經久不退,並引發法律和倫理問題,潛在地可能導致傷害;使用此種模型的組織,可能會因此損害機器學習系統的可信度和可靠性,並面臨倫理或法律層面的後續效應。
註:瀕危群體(at-risk group)係指可能受到各冗贅偏差不利影響的各種利害相關者群體之中的子集合。
ISO/IEC 24027提供三種常見的偏差類型,如下示:
- 人類認知偏差類型:人類可能因為有意或無意之下做出某種行為、個人經驗促成某種行為、或是受到資訊及/或資料的誤導而出現某種行為;大致可以分為自動化型偏差、群體特性偏差、暗示性偏差、確認型偏差、內群體型偏差、外群體同質性型偏差、社會型偏差、基於規則的系統設計型偏差、要求型偏差;
- 資料帶有的偏差類型:統計型偏差、抽樣偏差、涵蓋型偏差、無回覆型偏差、非常態型偏差、缺乏代表性的抽樣偏差、缺乏代表性的標籤化過程、缺乏特色及標籤、資料處理過程偏差、辛普森悖論、資料積聚型偏差、分散式訓練過程等;
- 工程技術引致的偏差類型:特色工程化偏差、挑選演算法偏差、超參數調整型偏差、帶有資訊量多寡型偏差、模式型偏差、模型交互作用型偏差、模型表現型偏差。
附圖舉例說明資料特徵偏差經過人工智慧系統一番運作引致的冗贅型偏差。
註:辛普森悖論(Simpson's paradox),是或然率和統計學的一種現象,即在幾組資料各自出現某種趨勢時,可是將該幾組資料合併之後,反而喪失原先趨勢甚至會扭轉原先趨勢。此種現象常見於社會科學研究及醫學類的統計資料,當此等資料受到不恰當地演繹出因果關係時,可能得到與原先資料相反或扭曲的結論。
可採用如ISO/IEC 23894風險管理系統(另文介紹),搭配相關標準:
- ISO/IEC 25059 識別出各種瀕危群體可能變動的品質量度;附圖為品質模式類別示例。
- ISO/IEC 5259-2 識別出各種瀕危群體可能變動的資料品質量度;
沒有留言:
張貼留言