iT邦幫忙

2023 iThome 鐵人賽

DAY 19
0
AI & Data

嘗試在AI世界闖蕩系列 第 19

Day 19 AI核心應用:自然語言處理(NLP)

  • 分享至 

  • xImage
  •  

自然語言處理重要性

  1. 瞭解知識重要性
  2. 知識主要除除在文字中
  3. 互動溝通的重要性
  4. 資訊爆炸時代的必須性
    ⇨執行正確決策行動

自然語言處理挑戰

https://ithelp.ithome.com.tw/upload/images/20230930/20163102SlHsVWzs04.jpg


自然語言處理階層分析架構

  1. 語法分析Syntacctic Analysis:利用語文的法則去瞭解一個句子內,詞與詞之間應該有的正確順序組合,與其依定程度遵守的文法。
  2. 語意分析Semantic Analysis:瞭解一個句子內詞與詞彼此的關係,與句子要表達的意涵與意圖。
  3. 由上而下階層架構
    ①斷詞Token:要分析的文本共有幾個詞。
    ②停用詞Stop Words:那些詞是重要、那些詞是可以忽略的。
    ③詞性標註POS:句子內的詞,其屬性是形容詞、動詞、名詞的哪一個。
    ④詞向量Word Vectors:分析每個詞自身特徵為什麼。
    ⑤句法剖析Parsing:瞭解這個句子的結構、詞與詞之間彼此關係、何者是主詞或受詞。
    ⑥命名實體識別Named Entity Retrieval(NER):句子內有哪些專有名詞。
    ⑦分析句子主要意涵與意圖Semantic:文本分類、摘要抽取、意圖分析。

自然語言處理開發架構

https://ithelp.ithome.com.tw/upload/images/20230930/20163102hDq6gIwwrG.jpg

  1. 基於法則NLP(Rule-Based NLP)
  • 1980年代專家系統時期主要方法
  • 靠if 、then、else法則來處理
  • 硬式法則,必須完全一致才可以啟動法則
  • 只能用在領域範圍小、句法簡單、關鍵字少而明確小型QA系統
  1. 基於機器學習方法NLP(ML Based NLP)
    雖比法則學派更有效且精確,但在複雜、非結構語音辨識、語音生成、機器翻譯方面無法突破人類心理閥值。
    ➊利用直觀實用知識去帶法則
    ➋由下而上Bottom Up取代由上而下Top Down
    ➌由模仿取代理解
    ➍特徵工程取代法則:透過特徵抽取後,可利用SVM樸素貝式推理、KNN、Decision Tree等演算法來抽取關鍵詞。
    ➎不同任務不同Model:不同特徵工程、不同選用演算法。
    ➏預處理重視:注重文字預處理,內涵詞語句階段的所有語法分析工具與語意分析工具(斷詞、句法剖析Parsing)
    架構圖:
    https://ithelp.ithome.com.tw/upload/images/20230930/201631028otNdZDeYV.jpg
  2. 基於深度學習NLP(DL Based NLP)
    2015年後,衝破在複雜、非結構語音辨識、語音生成、機器翻譯方面障礙。
    ➊特徵工程方面:少了人為特徵工程階段。
    ➋資料預處理方面:需求度不高,自己學會並執行類似斷詞、停用詞、詞性標註及句法剖析工作。
    ➌詞向量方面:利用詞向量取代傳統的法則與機器學習所重視計算詞出現頻率的特徵功能,所以需要非常大量運算力與訓練成本。
    架構圖:
    https://ithelp.ithome.com.tw/upload/images/20230930/20163102I6QxIYlrvP.jpg
  3. 混合型NLP(Mixed NLP Framework)
    上述三個結合。

參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 18 AI核心應用:自然語言處理
下一篇
Day 20 AI核心應用:自然語言處理(NLP)
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言