MLOps在金融產業：模型的可解釋性與公平性

2021 iThome 鐵人賽

DAY 20

AI & Data

談MLOps - 模型、專案架構、產品化及維運系列第 20 篇

13th鐵人賽 mlops finaicial bias machine learning

bymiachang

團隊能去健身房後發現硬舉退步一百公斤的五隻雞

2021-09-20 20:52:49

1942 瀏覽

分享至

有一些模型像是邏輯回歸和決策樹，背後運作的原因相當簡單明瞭，容易解釋模型是如何得出其輸出的。但隨著更多特徵的添加或更複雜的機器學習模型的使用，可解釋性變得更加困難。

在使用與金融服務決策相關的算法預測時，了解模型考慮或未考慮哪些特徵很重要，在某些情況下，在採取行動之前對此類預測進行適當的人工審查可能很重要。在金融服務中，模型用戶可能需要了解每個模型的局限性、意圖和輸出，包括了解影響模型結果的因素。

有多種不同的方法可以幫助解釋機器學習模型：部分依賴圖、在全局或本地構建代理模型、定量輸入影響、LIME、Explanation 和 SHAP 等等。神經網路模型的可解釋性仍然是一個活躍的研究主題。

雖然機器學習中的可解釋性仍然是一個活躍的研究主題，但 SHAP 已成為一種流行的提取特徵重要性的統一方法，並在我們的數據集上下文中進行了詳細說明。 SHAP 的目標是透過生成兩個模型來計算每個特徵對預測的貢獻來解釋預測：一個包含特徵，另一個包含特徵隱瞞。給定樣本的預測差異與特徵的重要性有關。SHAP 值透過對特徵添加到模型的順序的所有排列進行平均來考慮特徵的相互依賴性，將這一想法擴展到線性模型或局部獨立特徵之外。

在SageMaker中輸出SHAP值

在 Amazon SageMaker 也能夠讓你獲得相關的SHAP 值（例如 LightGBM、XGBoost 或簡單的深度學習模型）。我們首先需要確保在我們本地的 Jupyter 工作環境中預先安裝了 SHAP 套件。該套件可以從一開始就透過由資料科學家提供生命週期配置的程式碼。

如果資料科學家用於模型訓練和開發的開發 VPC 配置為無法訪問互聯網，則可以從本地 PyPI 服務器或使用來自啟用了互聯網訪問的單獨 VPC 的 pip 鏡像下載該庫例如共享服務帳戶。導入後，可以將經過訓練的模型對像從 Amazon S3 複製到本地環境中。以下函數可以調用 SageMaker Experiments Trail 並解壓縮製模型對象。在這裡，我們的訓練容器將經過訓練的 XGBoost 模型對象存儲為一個名為 xgboost.pkl。

一旦模型對像被提取出來，我們就可以使用 SHAP 庫來計算和繪製整個訓練數據集或數據集子集的特徵重要性。雖然前一種方法在整個數據集中獲得全局特徵重要性，但也可以推導出局部重要性，然後可以將其作為風險管理和模型治理的詳細報告的一部分發布。

例如，如果模型預測客戶可能會拖欠信用卡付款，您可能需要通過識別導致決策的特徵來逆轉模型的決策，並在必要時採取糾正措施。

除了手動使用 SHAP 值在訓練後識別特徵重要性之外，SageMaker 最近還推出了 Amazon SageMaker Debugger，這是一項完全託管的服務，用於在訓練期間通過可視化深度學習模型的向量、張亮來調試模型，以及評估內置和自定義規則以檢查培訓工作並幫助發現錯誤。SageMaker Debugger 使客戶能夠在模型訓練迭代期間記錄特徵重要性和 SHAP 值，然後可以在 Amazon SageMaker Studio 中進行可視化。

可解釋性領域還處於起步階段並處於發展階段，諸如 SHAP 之類的模型在可解釋性方面的功效仍然存在爭議。也因此這些套件都僅是提供這些功能供使用者參考。

模型公平性

除了可解釋性之外，公平和安全的考慮也很重要。

公平性是一個非常複雜和廣泛的話題，如果要講細節的話會包含到非常廣的層面。而這邊我們只討論如何找出可能的偏差，以及知道可能有哪些因素會影響模型的公正。

從資料收集的時候，就應該去看資料及裡面是否存在什麼樣的偏見、偏差。並定期的針對資料的偏見，能夠有政策上的修正、資料上能夠找出這些指標，讓後續的資料搜集和建模能改善這個狀況。

一些常見的偏差像是：

• 抽樣偏差
當訓練資料集不能準確代表真實世界場景時發生。通過在所有潛在場景中訓練模型，可以減少或消除樣本偏差。

• 排除偏差
通常是在清理資料時，從資料集當中排除某些特徵而發生的。這是由於基於開發人員對數據的理解刪除了特徵而發生的。排除偏差可以通過在消除特徵之前進行適當的研究來減少或消除，也可以通過獲得領域專家 (SME) 對計劃消除的特徵的共識來減少或消除。

• 文化偏見/刻板印象偏見
與外貌、社會階層、地位和性別等問題相關的偏見。通過理解和避免文化和刻板印象偏見的結果，可以減少某些類型的偏見。這可能包括忽略職業和性別之間的統計關係。關鍵的緩解因素包括使用受過教育並了解這些問題的不同團隊，並使用適當的資料集訓練模型，以最大限度地減少文化和刻板印象偏見。

• 測量偏差
當用於觀察或測量的設備出現問題時會發生這種情況。由於設備問題，會出現系統值失真。通過利用多個設備來避免設備失真，並結合人工或 Amazon Mechanical Turk 的數據檢查來比較設備輸出，可以減少或消除測量偏差。

基於以上幾點，會建議大家盡量與風險、法律和合規團隊合作，評估構建和使用 ML 系統的法律、道德、監管和合規要求及其影響。畢竟整個系統可能包含：使用資料或模型的合法權利、涉及資料使用的生物識別、反歧視和特別金融產業案例的法律適用性等等。

Reference
[1]. Machine learning in finance