iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0
AI & Data

嘗試在AI世界闖蕩系列 第 5

Day 5 AI的主要演算法-2(類推學派、符號學派)

  • 分享至 

  • xImage
  •  

接續前一天的部分~


Pedro Domingos的演算法分類:
https://ithelp.ithome.com.tw/upload/images/20230917/201631022fyoRhck9i.jpg


  1. 迴歸分析Regression Analysis:用來做預測的建模技術。
    (1)線性迴歸分析Linear Regression:訓練樣本來分析自變數與因變數關係(方向與強度),而關係是線性的。
    (2)多項式迴歸分析Polynominal:非一次方線性函數。
    (3)邏輯迴歸Logistic Regression:透過log轉換產生0-1值,進行二分類。

類推學派Analogical Reasoning:物以類聚的概念!用兩個物件間的相似性來作資訊分類判斷與分析。

  • 用兩個物件間的相似性來作資訊分類判斷與分析。
  1. K近鄰演算法K-Nearest Neighbor,簡稱KNN:
  • Machine Learning 中最簡單直觀的演算法。
  • 是資料間的距離遠近程度進行分類。(離某一類較近就分到哪一類)⇒因此常使用在需要進行分類的問題上
  • 簡單理解方式就有如『蓬生麻中,不扶而直;白沙在涅,與之俱黑。』的概念。
  • 應用:推薦系統、圖像辨識、文章分類
  • 優點:簡單易懂、型態不受限制、很多種類別的預測中效果較好、Robust
  • 缺點:
    1. 由於需不斷計算各點間的距離,所以成本高
    2. 樣本不平均,個類別數量特別多或少時就會容易有預測不準確情況產生

K值是預測準確度的關鍵,但在選擇時是沒有依據的!(越大⇒可能包含到相關程度不高的樣本,越小⇒容易受到干擾)

  1. 支持向量機Support Vector Machine,簡稱SVM:靠樣本相似性與距離的計算。
  • 目的是找到一條具有區分力不會有模糊空間導致誤判的線來劃分。
  • 利用核函數Kernak Function來處理非線性的問題。
  • 步驟:➊特徵選擇 ➋尋找SVM線 ➌驗證SVM的線 4.優化調整SVM
  • 優點:不需大量樣本、可處理非線性與高維度樣本,少有過度擬合Overfitting問題、不怕異常值
  • 缺點:訓練時長長、解釋性弱、不適合多分類

符號學派Symbolism:重視因果關係法則。

  • 主要代表為專家系統、決策樹與各種集成式演算法。
  1. 決策樹Decision Tree:由上而下,依照不同屬性值,逐一分類的監督式分類演算法。
  • 內部節點Internal Node:評估欄位。
  • 分支Branch:欄位輸出結果。
  • 樹葉節點Leaf:分類的類別標記。
  • 建構需要列出Internal Node的屬性的優先順序(依資料獲利能力Information Gain+不利資訊獲利能力熵值Entropy決定)[其中Gain大⇨凌亂程度小,分類越佳,Gain小⇨凌亂程度小,分類越差]
  • 步驟:➊選出所有重要相關的特徵變數 ➋將所有樣本看成一個節點 ➌利用Entropy,找出最有區別、純度高、Entropy低屬性當內部分割節點。
  • 優點:可解釋與視化、容易且泛用、不易受異值影響
  • 缺點:樣本不平衡、過度擬合(改善:規定樹的深度、輸入最低的閥值、修剪決策樹)、地區最佳化

參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 4 AI的主要演算法-1(貝式推理統計學派)
下一篇
Day 6 AI的主要演算法-3(符號學派)
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言