iT邦幫忙

鐵人檔案

第 11 屆 iThome 鐵人賽
回列表
AI & Data

深入淺出搜尋引擎和自然語言處理 系列

自然語言處理是一門結合了人工智慧及語言學的學科。在墨爾本大學攻讀碩士的第一年,我接觸到了自然語言處理這個學門,從此愛上了它,之後的研究也因此朝這方向走下去。這一次系列文的主要對象是給不熟悉人工智慧、機器學習等領域,卻抱有一探究竟之念頭的朋友們。在這次系列文的前方,我悄悄加入了「深入淺出」等字,意思是我不打算在文中鑽進機器學習、神經網路之應用,畢竟過去就曾有許多作者寫過像Hidden Markov Model, RNN, LSTM, …等眾多可以應用在自然語言處理的技術,若有需要我會在文中提到或引用這些文章讓大家參考,盡量以不重複的主題來書寫這個系列文。

鐵人鍊成 | 共 30 篇文章 | 133 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21: 讓電腦讀懂人類的提問!關於問答系統

問答系統是一個自動為一自然語言問題找出答案(組)的任務。 這是Google的問答系統(我也不知道為什麼Google會幫歐巴馬放上這張圖XD)。 我們能夠用資...

2019-09-22 ‧ 由 丹尼爾胡 分享
DAY 22

Day 22: 原來語言翻譯有四種程度?關於機器翻譯

雖然在現代,機器翻譯是個常見的功能(Google翻譯、Bing、...等),但事實上機器翻譯至今仍是個AI-hard的挑戰。 根據Vaquios三角形,翻譯被...

2019-09-23 ‧ 由 丹尼爾胡 分享
DAY 23

Day 23: 語言是有跡可循的!關於語言模型

如同我們在Day 4講到自然語言生成時提到的,語言模型在做的就是將機率指向一個序列的文字。 語言模型有許多延伸的應用,例如:語音辨識、拼字檢查、機器翻譯、查詢...

2019-09-24 ‧ 由 丹尼爾胡 分享
DAY 24

Day 24: Hangman猜字遊戲和訓練集處理

距離完成我的三十天鐵人賽剩下最後的七篇文章了。我打算用一個遊戲--Hangman猜字遊戲來結束這個系列。昨天說到語言模型,語言模型可以以字詞為單位作N-gram...

2019-09-25 ‧ 由 丹尼爾胡 分享
DAY 25

Day 25: 三種AI猜字方法

第一種猜字方法:隨機猜字 為了設下一個基準,我們先設計一種AI方法--每次從26個字母中隨機選取一個字母來猜。這裡我先將26個字母存到 list 中,再用 nu...

2019-09-26 ‧ 由 丹尼爾胡 分享
DAY 26

Day 26: N-Gram Smoothing 平滑方法

Day 24時結尾提到幾個存在的問題:「(1) 當文集資料量變大時,每個東西出現的機率會將得非常低,所得到的最終機率也會非常低;(2) 若是有個東西出現在文集的...

2019-09-27 ‧ 由 丹尼爾胡 分享
DAY 27

Day 27: 猜字AI加強版 -- Bigram Guesser

除了考慮字母出現的機率和在各種長度中各個字母出現的機率,今天我們也把字母的排列順序列入考量。例如,我們看到一個字 m _ s s,我們知道他有很高的機率會是母音...

2019-09-28 ‧ 由 丹尼爾胡 分享
DAY 28

Day 28: 文字相似度- 語言學

當我們在進行字義分析時可能會遇到一種狀況: "This is a good movie." → :)"This is a gre...

2019-09-29 ‧ 由 丹尼爾胡 分享
DAY 29

Day 29: 電腦怎麼知道「說」跟「曰」意義相近?關於文字相似度

總覽 今天我們要使用昨天說到的Lin similarity來計算字與字之間的相似度。我們將會使用Brown Corpus作為訓練文集,以及Wordnet中的文字...

2019-09-30 ‧ 由 丹尼爾胡 分享
DAY 30

達標好文 Day 30: 總結、心得與展望

總結與心得 本來想分兩個段落來寫總結和心得,只是寫著寫著發現,這兩個段落相輔相成。這次我的主題是關於我個人非常喜歡的自然語言處理,儘管內容沒有太多涉入當今的st...

2019-10-01 ‧ 由 丹尼爾胡 分享