iT邦幫忙

1

機器學習:Feature Engineering 課程學習總結

  • 分享至 

  • xImage
  •  

總結:通過對features進行歸類和操作,讓features更加符合traindata的需求;
1 feature和target的關係:特點是否重要,要看它和目標的關係,比如在一個綫性關係的模型中,它和target之間的關係應該是綫性的;lmplot是用來繪製迴歸圖的,通過lmplot我們可以直觀地總覽數據的內在關係;
2 創建新的feature:兩種方案:
數學轉換:new feature = f(old features)
統計: new feature = count(old features boolean) 注:參數是feature的bool值
3 聯合和拆分features:
拆分: 比如Dates and times: 'Mon Sep 30 07:06:05 2013',對於有一定格式的數據,可以拆分之後並取得一些咨詢,例子拆分之後可以得到月份,時間等;
聯合:對於有關聯性的feature可以聯合起來;
分組:"the average income of a person's state of residence," 這裏就需要按照state來對收入進行分組;
4 Clustering With K-Means:用來分析數據的特性,是一種特點開發的技術;查看特點的離散分佈;
5 Principal Component Analysis(PCA):Cluster是依據data的接近程度來分析feature的特性的,而PCA是根據數據的變化來芬妮下feature的特性的;兩種用法:描述特點的技術和生成合成features;
可以用於:
處理冗餘數據:儅數據冗餘嚴重的時候,可以用來把這些數據的影響減少到最小(冗餘的意思是很多都一樣 ,資訊的變化接近于0);
處理異常數據:儅變化明顯與原始features不同的時候,可以判斷為異常數據;
減少噪音:調整信號和噪音的比例;
機器學習的算法難以處理高度相關的features,PCA可以把相關聯的features轉化成不相關的組合,這樣就很容易處理了;

感想:創建新的feature可以讓自己的traindata更有個體優勢,加粗的部分都是我覺得很重要的部分;


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言