iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 5
0

除了這些技術和業務方面,另一件需要考慮的事情是模型對待用戶的公平性和包容性。
機器學習策略的一個關鍵方面是以包容的方式構建機器學習系統。

因此,在本單元中,我將向您展示如何識別機器學習中偏差的起源。
有時,它歸結為訓練數據本身。
然後,我將向您展示如何在整個機器學習開發過程中應用包容性鏡頭,從數據探索一直到評估訓練模型的性能。
所以,讓我們深入研究。

我們將首先觀看一個視頻,解釋機器學習偏差的來源,以及構建包容性機器學習系統的重要性。
在視頻之後,我將介紹一些方法,您可以通過這些方式了解機器學習系統和用戶的結果之間的權衡,以及這些權衡如何映射以評估您可以計算的指標。
從那裡開始,我將介紹機會均等,這種方法建立在這些評估指標之上,以實現更理想的結果。
無論任何敏感屬性如何,機器學習系統均等機會正確分類結果的結果。
最後,正如我們所知,機器學習系統是由數據推動的。
因此,從機器學習系統中獲得最佳結果需要您真正了解您的數據,這對於使機器學習系統具有包容性是正確的。
因此,在最後一節中,我將展示一個名為Facets的機器學習數據的開源可視化工具,它可以幫助您探索數據集的複雜性,並提供一些建議,以便在評估培訓的包容性時尋找什麼。
數據。

現在,想像一下,你正在嘗試教一台計算機識別鞋子。你可能最終會將它暴露給你自己的偏見。這就是機器學習中出現偏差的方式。
但首先,什麼是機器學習?嗯,它用於我們今天使用的許多技術。機器學習幫助我們從一個地方到另一個地方,
給我們建議,翻譯東西,甚至理解你對它的評價。

它是如何工作的?通過傳統的編程,人們可以一步一步地將解決方案編碼到問題中。
通過機器學習,計算機通過查找數據模式來學習解決方案,因此很容易認為沒有人為偏見。
但僅僅因為基於數據的東西並不會自動使其保持中立。
即使有良好的意圖,也不可能將自己與我們自己的人類偏見區分開來,因此我們的人類偏見成為我們以多種不同方式創造的技術的一部分。
存在交互偏見,就像最近的遊戲一樣,人們被要求為電腦畫鞋。大多數人都畫了這樣的。
因此,隨著越來越多的人與遊戲互動,計算機甚至都沒有認識到這些。潛在的偏見 -
例如,如果你正在訓練一台物理學家的計算機,並且你正在使用過往物理學家的照片,那麼你的算法最終將會偏向男性。
而選擇偏見 - 說你正在訓練一個識別面孔的模型。
無論您是從互聯網或自己的照片庫中獲取圖像,您是否確保選擇代表每個人的照片?
由於我們的一些最先進的產品使用機器學習,我們一直在努力防止這種技術使人類的負面偏見長期存在 -

過理解混淆矩陣,有助於理解包含以及如何在數據中的不同子組中引入包含。
雖然您可能熟悉在整個數據集上評估模型,但在子組上評估模型也很重要。
因此,我們將重點關注將性能降低到您希望提高性能的子組,而不僅僅是查看模型在整個數據集中的整體表現。

例如,假設您正在進行面部檢測。基本上,你正在建立一個機器學習模型來說明照片中是否有人臉。
這不一定是一個容易的問題。您的小組可能是男性,女性,成年人,兒童,有頭髮的人,禿頭的人。
您希望在所有這些子組中查看模型的性能,以確定需要改進的領域。

因此,我們評估機器學習中的性能的一種常見方式是使用混淆矩陣。
現在,還有其他類型問題的方法,但是出於本模塊的目的,我們將專注於混淆矩陣來解釋這些問題。這個想法是使用混淆矩陣來看待包含。

您可以通過首先創建混淆矩陣來實現此目的,但是您要對數據中的每個子組,即您對測量性能感興趣的子組執行此操作。
現在,在混淆矩陣中,您對標籤進行了比較,當然,這些標籤可能會或可能不一定反映您的基本事實,因為有時我們不一定能夠獲得基本事實。
但是,您將這些標籤與模型預測進行比較。
從這裡,我們看看積極和消極。所以在我們的標籤中,有些東西被認為是正確的,我們稱之為正面標籤,有些東西被認為是不正確的,我們稱之為負面標籤。
在機器學習方面,我們對有什麼有積極的預測,我們對那些不存在的東西有預測,那些被稱為否定。
我們在混淆矩陣中對此進行比較,以便理解決策機器學習系統的推斷,從真正的積極性開始,即當標籤說出某些東西並且模型預測它時。

因此,在面部檢測的情況下,當模型準確地預測圖像中存在面部時,真正的正面。
現在,當標籤說存在某些東西並且模型沒有預測它時,那就是假陰性。
因此,使用相同的面部檢測示例,模型不預測圖像中存在面部,而實際上標籤表明存在面部。
當標籤說它不存在而你的模型也沒有預測它時,這就是所謂的真陰性。
基本上,這意味著,使用這個面部檢測示例,不預測圖像中存在面部的模型是正確的,因為它也不存在於標籤中。
最後,這是假陽性的情況,標籤上說沒有臉,但機器學習模型預測應該有一張臉。
因此,在這種情況下,也許圖像中有一個雕像,模型錯誤地將該雕像識別為有臉。
但實際上,我希望你在這里關注的是假陰性和誤報。

請記住,假陰性是你錯誤地預測不到的東西,你排除的東西應該​​被包括在內,
而誤報是你錯誤預測的東西,你所包含的東西實際上並不在標籤中,而應該有被排除在外這些通常被稱為I類錯誤和其他領域的II類錯誤。
但是,對於標籤的四種不同類型匹配的這種基本分解的一個很酷的事情是,您可以開始計算大量不同的指標,這些指標可用於衡量模型中的包容性。

為了使機器學習更具包容性,我們傾向於真正關注假陽性率和假陰性率,以便了解子群可能對其產生的不利影響。
我們可以計算真正的正率,靈敏度或召回等因素

您可以從混淆矩陣中獲得的另一種計算示例是精度,它表示模型正確預測標籤的時間比例。
在此計算中,您只需要相應的真陽性和誤報測量。

假陽性率,假陰性率,真陽性率,精確度,召回率,這些都是很多要處理的指標。
那麼,為了使您的機器學習系統更具包容性,我們應該如何選擇要關注哪些指標?
答案取決於此。這取決於你的假陽性和假陰性的結果。
根據兩者之間的權衡,也許你可能希望你的機器學習模型具有低召回率,缺少很多東西,換取高精度,或者ML分類的有限數量的東西都是正確的。

假設是某些東西需要模糊但不是,因為模型不能預測它應該是什麼。這樣的事情可能會導致身份盜用,因為該圖像中的個人隱私可能會暴露出來。
因此,在此示例中,您可能希望盡可能減少錯誤否定。因此,您可以將您的指標集中在實現低假陰性率上。

您可能會遇到假陽性可能更好的情況。假設您正在研究垃圾郵件過濾模型。
假陰性將導致SPAM消息未被模型捕獲,因此您最終會在收件箱中看到它,這可能很煩人。
但是當你遇到誤報時會發生什麼?結果是,來自朋友或親人的消息可能被標記為垃圾郵件並從您的收件箱中刪除。這可能是完全的損失。
因此,在這種情況下,可能要關注的指標是盡可能地降低誤報率。

因此,一旦您弄清楚要關注哪些正確的評估指標,請確保您更進一步,並在數據中的不同子組中計算這些指標。
如此圖所示,您可以在子組中可視化評估度量標準的分佈,如藍色和綠色分佈所示,每個分佈代表數據中的單獨子組。
但是,一旦所有這一切都到位,那麼只需找到一個可接受的值並將這些值與子組進行比較即可。
例如,您可能會發現,您嘗試使用機器學習系統解決的問題可以接受0.1的誤報率。那麼現在,鑑於整體費率,您的子群體的費率如何?
通過整合這些方法,您可以更進一步了解如何使機器學習系統更具包容性。
因此,重申一下,評估指標是我們可以做的一些關鍵事項,用於衡量機器學習系統的包容性。
鑑於你的誤報和假陰性之間可接受的權衡取捨,這一點很重要。

知道如何計算模型跨子組的預測的評估指標,讓我們討論一種建立在這些指標之上的方法,以便在子組之間實現更好的性能。
我要介紹的方法被稱為機會均等,它就是這樣的。
假設您有一個適用於所有用戶的模型,無論他們是誰或來自哪裡。
理想情況下,所有符合我們模型生成的理想結果的用戶應該在所有用戶中獲得正確分類以獲得理想結果的平等機會。

像這樣的方法可以讓你仔細檢查你的模型,以便發現可能的關注領域。
一旦確定了改進的機會,您現在可以進行必要的調整,以在準確性和非歧視性之間取得更好的權衡,從而使您的機器學習模型更具包容性。

假設你有一個代表預測屬性的A.為簡單起見,我們將A視為二進制,並讓它代表某個受保護組的成員資格。
一個我們稱之為Y的二元結果,我們可以將Y的值等於1作為理想的結果。
建立一個Y的模型。所以,我們還需要Y帽我們的預測器。
在我們的示例中,預測變量始終是使用0到1之間的分數定義的閾值。
預測器可以使用依賴於A的閾值,其中我們可以針對不同的組使用不同的閾值。
因此,這裡的想法是A中有資格獲得積極結果的個體應該具有與不在A中的個體相同的機會進行正面分類。
更正式地說,這種願望與兩者中的相同真實陽性率相吻合。組。這就是機會均等背後的原則。

如果您的模型對某些群體而言不如其他群體有效,則可能會對不確定性最大的群體造成問題。
限制平等機會門檻會將不確定性的負擔轉移到群體之外,並轉移到模型的創建者身上,即可實現最佳分類器的激勵。

已經介紹了一些通過評估指標使您的機器學習模型更具包容性的方法。
但是,從模型中獲得最佳結果需要您真正了解您的數據。
然而,這裡的挑戰是,有時,數據集可能包含數億個數據點,每個數據點由數百甚至數千個特徵組成,這使得以直觀方式理解整個數據集幾乎是不可能的。
這裡的關鍵是利用可視化來幫助解開大數據集的細微差別和洞察力。

將討論一個名為Facets的開源數據可視化工具。
Facets是在Google開發的,是您使機器學習模型更具包容性的方法之一。

因此,Facets有兩個部分:概述和潛水。
通常用作預測任務。
該數據集由研究委員會整理,可以在同一可視化上比較多個數據集,例如訓練集和測試集。
通過Facets,可以阻礙機器學習的常見數據問題被推到了最前沿,例如意外的特徵值,具有高百分比缺失值的特徵,具有不平衡分佈的特徵或數據集之間的分佈偏差。

由於測試集中的尾隨期,標記值在訓練和測試數據集之間不同。
分面概述甚至可以按照分佈距離對這些差異進行排序。
遇到這樣的標籤不匹配會導致對數據進行訓練和測試的模型無法正確評估。
切換到Facets Dive,您可以在此幻燈片中看到它提供了一個易於自定義的直觀界面,用於探索跨數據集的不同功能的數據點之間的關係。
使用Facets Dive,您可以根據其特徵值控制每個數據點的位置,顏色和可視化表示。
更具體地,在該示例中,Facets Dive顯示UCI Census測試數據集中的所有數據點。
通過連續特徵,然後通過離散特徵,緊繫到另一維度來對數據點著色。
在Facets Dive中,如果數據點具有與其相關聯的圖像,則圖像可以用作視覺表示。


上一篇
[Day 4] Machine Learning 在商業應用上的發展層次
下一篇
[Day 6] Cloud Datalab
系列文
Machine Learning Study 30天學習筆記19

尚未有邦友留言

立即登入留言