14.2%企業願意聘用大資料人才
Cloud Future Built Today
IT EXPLAINED 數位轉型攻略 VII
技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
2023 iThome 鐵人賽
DAY
26
0
AI & Data
進入AI的世界
系列 第
26
篇
➤D-26 核心應用☞自然語言處理-2(主要架構)
15th鐵人賽
epoch
團隊
臣無禮
2023-10-11 13:02:43
583 瀏覽
分享至
主要架構
階層分析架構
語法分析(Syntactic Analysis):
利用語文法則去瞭解一個句子內,詞與詞之間應該有的正確順序、組合,與其一定程度遵守的「文法」。
語意分析(Semantic Analysis):
瞭解一個句子內詞與詞彼此的關係,以及句子所欲「表達的涵義」。
由上而下的階層或架構:
Ⅰ. 斷詞(Token):分析文本共有幾個詞(Words)(中文稱為字,英文稱為詞,後以詞統稱)。
Ⅱ. 停用詞(Stop Words):那些詞是重要、值得分析的,哪些是可以忽視的,例如:the、of、a、for等。
Ⅲ. 詞性標註(POS):句子內的詞,其屬性為何(形容詞、動詞、名詞)。
Ⅳ. 詞向量(Word Vectors):分析每個詞自身的特徵。
Ⅴ. 句法剖析(Parsing):瞭解這個句子結構、詞與詞彼此之間關係、哪個是主詞、哪個是受詞、哪個是謂詞。
Ⅵ. 命名實體識別(Named Entity Retrieval, NER):句子內有哪些主要的專有名詞。
Ⅶ. 分析句子主要意涵與意圖(Semantic):文本分類、摘要抽取、意圖分析等。
開發架構
基於法則的NLP(Rule Based NLP)開發架構:
1980年代專家系統時期的主要方法,NLP處理要靠if、then、else的法則來處理。這是一種「硬式」法則,必須完全一致才可以啟動法則。只能應用在領域範圍較小、句法簡單、關鍵字少而明確的小型QA系統。
基於機器學習方法的NLP開發架構(ML Based NLP):
Ⅰ. 利用直觀實用的知識取代法則:實際練習如何描述、如何騎腳踏車來取代瞭解說話的文法結構。
Ⅱ. 由下而上(Bottom Up)取代由上而下(Top Down):機器學習法是由下面的實例(Instance)往上自然瞭解語言的法則,而法則學派則是由上面的「法則」指導下面的「語言產出」。「機器學派是人類真正練習說話的方式;法則學派是『語言學家』認為語言應該要有的結構」。
Ⅲ. 由模仿取代理解:由大量語料的模仿人類真正說話的方式,來取代語言學家由法則的角度來瞭解、分析語言結構。
Ⅳ. 「特徵工程」取代「法則」:「特徵工程」為機器學派在NLP中最重要的,對於語言文字的理解必須先由人類專家來篩選該文本具有的特徵。
Ⅴ. 不同任務不同Model:有不同的特徵工程、不同選用的演算法。
Ⅵ. 預處理的重視:傳統機器學習方法及演算法的NLP,非常注重文字的「預處理」,包括詞與句階段的所有語法分析工具與語意分析工具,例如:斷詞、句法剖析(Parsing)等。
基於深度學習的NLP開發架構(DL Based NLP):
傳統機器學習演算法雖比法則學派在NLP上的處理更有效與精確,例如:非結構的語言辨識、語音生成、機器翻譯等。直到2015年後,一舉衝破障礙,在語音辨識、機器翻譯等方面達到95%正確率,逐漸取代傳統機器學習。
Ⅰ. 特徵工程方面:少了人為特徵工程階段,深度學習本身會自己學習與執行文字特徵抽取與篩選。
Ⅱ. 資料預處理方面:對於「預處理」(Preprocessing)並不是特別需要,由於其由大數據來學習,故在自我學習中,深度學習語言模型(Language Model)都已經自己學會並執行類似斷詞、停用詞、「詞性標註」,及「句法剖析」的工作。
Ⅲ. 詞向量方面:最主要核心工具就是所謂的「詞向量」(Word Vector),取代傳統的「法則」與機器學習所重視的計算詞「出現頻率」(Word Frequency)特徵工程。深度學習在NLP主要問題是需要非常大量的訓練資料,也需要非常大量的運算力及訓練成本,例如:BERT、GPT-3等。
混合型NLP開發架構(Mixed NLP Framework):
未來趨勢會是三種開發架構之結合的「混合型NLP模式」,例如:深度學習主攻下層「特徵抽取」(Feature Extracting),加上法則學派的「知識圖譜」、「專家系統」來增加語法結構性及上層知識邏輯推理的正確性。也可以再加上「資訊抽取」及「分類」非常有效的SVM、隨機森林、貝氏推理等機器學習法則來提升整體效率。
參考資料
人工智慧-概念應用與管理 林東清著
留言
追蹤
檢舉
上一篇
➤D-25 核心應用☞自然語言處理-1(基本概念與應用)
下一篇
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
系列文
進入AI的世界
共
30
篇
目錄
RSS系列文
訂閱系列文
3
人訂閱
26
➤D-26 核心應用☞自然語言處理-2(主要架構)
27
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
28
➤D-28 核心應用☞自然語言處理-4(特徵抽取2)
29
➤D-29 核心應用☞自然語言處理-5(主要演算模式1)
30
➤D-30 核心應用☞自然語言處理-6【完】(主要演算模式2)
完整目錄
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22207
篇
完賽人數
600
人
看影片追技術
看更多
領域驅動設計應用與實踐
MWC
|
25 分
國軍醫院 DevOps 的第一哩路到最後一哩,以國軍高雄總醫院為例
DevOpsDays
|
38 分
OT 資安防護生產現場實務
精品科技 ─ 捍衛您的資料堡壘
|
49 分
企業資安事件化繁為簡必備良方 Cortex XDR
IT EXPLAINED
|
40 分
「系統被大流量衝垮了怎麼辦?」—用30分鐘濃縮1年的高流量維運經驗談
iThome鐵人賽
|
31 分
BenchmarkDotNET 科學化 .NET 應用效能調校
Hello World Dev Conference
|
39 分
加速驅動科學分析,突破數據價值 — HP x NVIDIA 資料科學應用研討會
IT EXPLAINED
|
41 分
Enhanced EC Recommendations: Trustworthy Validation with Large Language Models for Two-Tower Model
Hello World Dev Conference
|
43 分
生成式 AI 在永續發展的創新應用
數位永續高峰會
|
32 分
如何做雲端資產盤點、強化雲端安全態勢
Cloud Summit 臺灣雲端大會
|
22 分
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
可不可以執行HTML檔案,裏面帶帳號及密碼然後連上網頁?
更新後 會啥原本可以 用 PIN 登入 WINDOWS卻不行了
Dell PowerEdge R430硬件更換問題
請教Smart IT及神網的比較
[.NET] 如何更新專案中的轉移套件?
outlook密件副本
Fortigate SD-WAN設定問題
有關AI模型的回應不一樣問題
有公司參與CMMI評鑑嗎?
VMware workstation 16 player download esxi
AI 賦能 DevOps,開啟創新應用!
GenAI 加速企業創新落地,更需要全新 IT 戰略
Windows 10支援倒數,聯繫微軟夥伴諮詢
立即標記行事曆,7/2 探索 AI 與雲端的無限未來!
僅需 6~12週快速建立 GenAI 策略與路線圖
熱門回答
Dell PowerEdge R430硬件更換問題
可不可以執行HTML檔案,裏面帶帳號及密碼然後連上網頁?
群暉NAS新增HA
請教Smart IT及神網的比較
AWS主機進入休眠
熱門文章
<tr>可以在後端做判斷做隱藏嗎.可以哦.來看看怎麼做
二、三天學一點點 Rust:來!先從建立專案開始(1)
track 所有 traffic 的來源及
二、三天學一點點 Rust:來!先從建立專案開始(2)
二、三天學一點點 Rust:來!那些變數們(3)
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}