2024年12月31日 星期二

機器學習之冗贅型偏差廿問(二之六)

(見前篇

4. 如何管理人工智慧系統與機器學習,並考慮涉及的利害相關者?

考慮到人工智慧系統機器學習模型的利害相關者,任何個人、群體或組織,凡是可預見會正向或負向受到人工智慧系統非預期之冗贅型偏差的影響者,如下示:

  • 人工智慧系統操作者或中介者,
  • 組織內做出決策者,
  • 人工智慧夥伴(亦包括人工智慧稽核員),
  • 法規監管機構。

1:第三者機構執行部署人工智慧系統組織的稽核時,稽核團隊須考慮受稽核組織、受稽核組織的目標眾、顧客及其他各利害相關者等之多樣化,以防範冗贅型偏差影響稽核進行及稽核結果。

2:法規監管機構成員須考慮第三者機構的稽核員、受稽核組織及受稽核組織的目標群眾、顧客及其他各利害相關者等之多樣化,以防範冗贅型偏差影響審查過程及結果。

 

負責展開或運作人工智慧系統的組織,須考慮的利害相關者,如下示:

  • 誰是被自動化決策做出決定的人工智慧主體,或誰在共享人工智慧系統的運作環境;
  • 人工智慧系統提供的資訊接收者,尚非直接使用者,如:基於人工智慧導出資訊,由行政機構人員整理後由公眾事務機關做出決定。
  • 資料主體並非直接與人工智慧系統交互作用,但其資料卻供該系統訓練之用。

3:某個給出建議型式的人工智慧系統收到使用者某一項輸入,則人工智慧系統應用須具備彈性,得以從母語人士或非母語人士接收該項輸入。

4:分析資料型的人工智慧系統,從各方向收集來的資料集產出資訊,目標是對社會經濟資料集進行分析,將分析結果通知政策開發單位,若從歷史資料檢索引述而非由目前狀況導出,將可能擴散冗贅型偏差。

© All Rights reserved. 版權聲明


5. 組織規劃機器學習用的資料集須考慮哪些特色(feature)呢?

組織須文件化佐證說明為機器學習採用之特色所擇定的設計事項。若因冗贅型偏差而識別出來的風險risk),組織須採取措施,如下示:

  • 資料偏差(資料屬性之一,若資料未經處理,將導致人工智慧系統對不同主體、人員或群組表現較好或較差。)類型,係與將會呈現出來者、且與擇定之特色有關者;
  • 人類認知偏差(係指人類處理和理解資訊所發生的偏差)類型,係與將會因參與之個別人士所選擇的特色而呈現出來;
  • 遺漏或非預期特色價值、及不必要的失衡情況;
  • 在生命週期內的過程類型及所做的決定,且可能會受到人類認知偏差的衝擊;
  • 系統元件間的相互作用;
  • 因為資料集或特色事項(與真實世界分佈情況)不成比例之可獲得性而造成的偏差;
  • 涉及挑選特色事項的過程內含的偏差;
  • 群體分佈之類型所呈現之各種代理事項;
  • 在訓練、確證時的群體中各成員的分佈、或是系統預期的人類群聚之測試資料及其代表性事項等;
  • 在全部人類群體中正向或負向產出事項的分佈;
  • 其它可能相關的屬於統計型或計算型偏差。

註:代表性representativeness),係指定式評鑑下列兩者的程度:給定資料集之屬性趨近於繫連目標群體之統計屬性。代表性可經由使用資料的一個或多個量度予以量化,如:大小、分佈或組成。代表性試驗資料係供查證人工智慧系統是否達到目標群體功能正確性的可接受水準。

 

6. 在機器學習的分類和回歸任務中,冗贅型偏差是如何發生的?

人工智慧系統的表現,評估事項之一是性能評鑑。執行性能評鑑時採用的測試資料具有某種程度的代表性。為訓練機器學習的演算法而使用的訓練資料亦有其代表性,不宜特意經過設計而槓桿撬動後產生非代表性資料供訓練使用。

所謂資料集的資料代表性事項,可以是不同事項構成的函數:資料尺度、類型、幅員遼闊度及複雜度。資料集的歸屬度、排除事項,以及標示程度,亦將影響代表性事項。機器學習模型未能完成訓練,泰半皆可歸因於採用的訓練資料缺乏代表值、歸屬度分佈狀況、排除事項及標示程度

冗贅型偏差可能是由於資料集不平衡、訓練資料本身存在偏差、或演算法有缺陷而發生。它可能表現為某些群體在模型中的代表性不準確、偏低、偏高或不足,從而導致預測結果出現偏差。

(未完,見續篇

沒有留言: