1. 週期性 - 週間星期或月, 季, 年, 秒, 分, 時等, 特別是規律性的 pattern
2. 自特定(事件/活動)時間點起 - 有兩種形式, 自x年x月x日 00:00:00 起. 另一種是到下個耶誕節前還有xxx天.
3. 某段時間差 - datetime_feature_1 - datetime_feature_2 -> 產生新的 date_diff feature
1. 經計算而來的距離 - 通常可以從地圖上計算到重要點距離, 若有基礎設施建築物的額外數據, 就可以加距離最近的商店, 到醫院, 到附近最好的學校等。
2. cluster 中心點 - 若沒有基礎設施建築物的額外數據, 則可從訓練測試數據中提取地圖上的地點。例如房地產資料集中, 使用網格對正方形範圍執行新地圖, 並在每個正方形內找到最昂貴的房屋。或者可以將數據點彙整到群集中, 然後使用群集中心點。另一種方式可以找到一些特殊區域, 例如擁有非常古老建築的區域, 可以包括圍繞該特定點的數量, 增加與此區域的距離。
3. 整合/匯總/聚合統計 (aggregated statistics) - 使用坐標的另一個主要方法是計算區域周圍對象的整合/匯總/聚合統計數據, 用決策樹處理coordinates時候,稍微旋轉一下coordinates會讓決策樹的預測更精確.
常見的一些missing values, 包括NaN, empty string, 或者是例如9999的outliers。可以直接畫出 Histogram 看分佈形狀或離異值的柱狀.
處理的三大類方法:
1. -999, -1, etc - missing values 直接替換成不在feature值域範圍內的數,-999,-1等等
2. missing values替換成mean或者median value
3. Reconstruction value - 可加一個 Binary feature 的 isnull feature,標記每個feature在每一行是否missing value。