iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 18
0

正如我們之前所說,如果您無法對數據進行基本分析,則無法進行機器學習。
因此,在本主題中,我們將專注於如何從原始數據創建和操作功能。
歡迎來到Feature Engineering,回想一下我們說要建立一個有效的機器學習模型需要做三件事。
首先,您需要將其擴展到大型數據集,我們只是使用Cloud ML查看它。
您需要做的第二件事就是所謂的特徵工程。因此,在本單元中,我們將討論如何創建這些優秀功能以及如何轉換輸入以使其為機器學習模型做好準備。
我們還將看到的是創建合成功能,這些功能最初不在您的數據集中,但會使您的模型執行得更好。我們將看一下這個,創建好的功能,轉換它們,創建合成功能,這三個東西一起稱為預處理。
因此,我們將了解如何在Cloud ML的上下文中進行預處理,從而允許您大規模地進行預處理。
在構建模型之後,還要查看超參數調整。
這是在這個數據集的上下文中使這些功能更好的方法,它們最終將被訓練。
因此,讓我們首先介紹如何將原始數據轉換為有用的特徵向量,然後可以在ML模型中正確使用。
那麼,讓我們來解決一個問題吧。
因此,您的最終目標是建立一個模型來預測一組給定投入的房屋價格。您想知道哪些類型的數據點可以從這個房子開始?有人說像房子的平方英尺,可能是土地的大小。房間數量怎麼樣?或者如果它在過去被售出,它的售價是多少?您可能已經猜到,位置,位置,位置可能是房價的主要影響因素。
對我來說,在加利福尼亞灣地區,我很痛苦地意識到。如果您的住房數據的原始數據已經乾淨並且您需要的關鍵字段將會在那裡,那不是很好嗎?哦,而且,它的格式是你可以通過ML模型進行培訓?
好吧,它永遠不會是這樣。良好的特徵工程,我們將要經歷的這個過程,平均可以佔用ML項目的50%到75%的時間。
我們甚至沒有開始他們方面的ML小時,對嗎?這只是讓數據正確,而且我們這樣做至關重要。
好吧,我們最終想在這裡做一下,在一個快速示例中顯示,在矢量左側的房屋中獲取原始數據,您需要將其映射到右側的一個或多個字段,並行,這就是我們如何可以在我們的ML模型中使用它進行訓練。
所以對於你們中的一些人來說,這可能看起來很簡單。但是,等等,你怎麼知道首先使用什麼功能或什麼是一個好的功能?


上一篇
[Day 17] Cloud AI Platform
下一篇
[Day 19] 何時停止訓練
系列文
Machine Learning Study 30天學習筆記19

尚未有邦友留言

立即登入留言