LightGBM - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 13

3

自我挑戰組

自然語言技術與AI/ML初探系列第 13 篇

LightGBM

2019鐵人賽

團隊InfoSec Horadrim

2018-10-28 18:07:21

18634 瀏覽

分享至

LightGBM (GB指gradient boosting方法) 使用基於直方圖的算法。例如，它將連續的特徵值分桶(buckets)裝進離散的箱子(bins)，這使得訓練過程中變得更快。LightGBM採用了對增益最大的節點進行深入分解的方法。這樣節省了大量分裂節點的資源。下圖是XGBoost的分裂方式。

以下是LightGBM的分裂方式

其中離散數值的資料欄位宣告範例如下

在為LGBM構造資料集之前，應該將分類特徵轉換為整型integer。即使你通過categorical_feature傳遞引數，它也不接受字串值。

建樹過程上，leaf-wise分裂方法能產生比level-wise分裂方法更復雜的樹，能使得模型得到更高準確率。然而，它有時候或導致over fitting，但是我們可以通過設置 max-depth 參數來防止過擬合的發生。

和其他模型XGBoost, CatBoost, LightGBM的重要超參數比較

LightLGB核心參數
Boosting：也稱 boost， boosting_type 默認是 gbdt 。gbdt的效果比較經典穩定
num_thread：也稱作 num_thread , nthread 指定thread的個數。
Application：有regression, binary, multi-class, cross-entropy, lambdarank. 默認為 regression。

程式碼：

參考來源
CatBoost、LightGBM、XGBoost，這些演算法你都瞭解嗎？
https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/510420/
XGBoost過時了？LightGBM核心解析
https://hk.saowen.com/a/9d4cf70280f9a72a085ec7f7790b80654ca12cd52afcc3edcc9bc209d495c62d

文字/文件視覺化

系列文

自然語言技術與AI/ML初探共 30 篇

目錄

RSS系列文訂閱系列文

29 人訂閱

完整目錄

直播研討會

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22199 篇

完賽人數

600 人

AI Driven Design ─ 以 OpenAI (ChatGPT+DALL-E) 自動 CI/CD 產生特教網頁遊戲

Cloud Summit 臺灣雲端大會 |

27 分

Connectivity Cloud－安全無處不在

Cloud Summit 臺灣雲端大會 |

32 分

Pact 合約測試 - 確保微服務架構溝通的可靠性

Hello World Dev Conference |

36 分

Community Driven DevOps

DevOpsDays |

65 分

Azure Kubernetes Service with GitOps

Kubernetes Summit |

92 分

Container Security 101: Managing User Permissions for Volumes

Kubernetes Summit |

24 分

Code-Driven Development and Monitoring of Machine Learning Services on Kubernetes

Kubernetes Summit |

38 分

資安新時代來臨：新想法、新規定、新管理－身分認證、掃描工具、資料保護的進化

臺灣資安大會 |

28 分

徹底運行 Service Mesh：在全球與邊緣部署 Kubernetes

Kubernetes Summit |

28 分

國家級駭客攻防戰：從血淚教訓到 DevSecOps 實踐

Hello World Dev Conference |

39 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙