iT邦幫忙

鐵人檔案

第 11 屆 iT 邦幫忙鐵人賽
回列表
AI & Data

深入淺出搜尋引擎和自然語言處理 系列

自然語言處理是一門結合了人工智慧及語言學的學科。在墨爾本大學攻讀碩士的第一年,我接觸到了自然語言處理這個學門,從此愛上了它,之後的研究也因此朝這方向走下去。這一次系列文的主要對象是給不熟悉人工智慧、機器學習等領域,卻抱有一探究竟之念頭的朋友們。在這次系列文的前方,我悄悄加入了「深入淺出」等字,意思是我不打算在文中鑽進機器學習、神經網路之應用,畢竟過去就曾有許多作者寫過像Hidden Markov Model, RNN, LSTM, …等眾多可以應用在自然語言處理的技術,若有需要我會在文中提到或引用這些文章讓大家參考,盡量以不重複的主題來書寫這個系列文。

鐵人鍊成 | 共 30 篇文章 | 79 人訂閱 訂閱系列文 RSS系列文
DAY 1

達標好文 Day 1: 自然語言處理簡介

明明整個網路中有成千上萬的資料,為什麼Google能在一秒內告訴我答案?搜尋引擎以及各網站的搜尋功能到底是怎麼運作的?為什麼我在搜尋列輸入一大串字之後,搜尋引擎...

2019-09-02 ‧ 由 丹尼爾胡 分享
DAY 2

Day 2: 語音辨識從何而來?電腦也懂名詞?關於語音辨識和詞性標注

還記得第一次使用手機上的「Hey, Siri」或是「Ok, Google」功能時的自己有多興奮嗎?在接下來幾天的文中,我會講解昨天提到的幾個自然語言處理主要課題...

2019-09-03 ‧ 由 丹尼爾胡 分享
DAY 3

Day 3: 親手讓電腦幫你標動詞和名詞吧!

昨天的文中我們說到詞性標註,今天讓我們透過NLP界經典的Python Library-NLTK,親手讓電腦幫我們標注文中的詞性。如系列簡介所說,在這30天中,我...

2019-09-04 ‧ 由 丹尼爾胡 分享
DAY 4

達標好文 Day 4: AI也會寫文章?關於自然語言生成

今天介紹NLP常見任務的第三項:自然語言生成(Natural Language Generation) 自然語言處理的一大目標是要讓電腦讀懂人類在說什麼,就如同...

2019-09-05 ‧ 由 丹尼爾胡 分享
DAY 5

Day 5: AI連自動幫文集歸類主題都做得到?關於主題模型

昨天說到語言模型,今天要來介紹另一個模型--主題模型(Topic Model)。主題模型能夠幫助人們短時間理解原本幾乎不可能讀得完的大型非結構化的文集,例如科學...

2019-09-06 ‧ 由 丹尼爾胡 分享
DAY 6

Day 6: 原來Google這樣Search!關於資訊檢索

什麼是資訊檢索呢?大家最清楚的例子莫過於網路搜尋引擎了。當你在Google Search上輸入一段你想查詢的字,作為一個使用者通常會跟搜尋引擎有以下的互動: (...

2019-09-07 ‧ 由 丹尼爾胡 分享
DAY 7

Day 7: 親手寫個檢索系統吧(ㄧ)文件預處理

語言是由文字組合出來的。作為一個人類,我們能夠將一篇文章分割成好幾個部分來閱讀和理解,為了讓電腦理解一篇文章,它也必須能夠這麼做。 第一步就在於文字的預處理和正...

2019-09-08 ‧ 由 丹尼爾胡 分享
DAY 8

Day 8: 認識文件矩陣以及索引的建立

在Day 6的文章中,我們說到在進行搜尋時,我們首要關心的是查詢的詞與文件間的相似度。我用一個例子作為開端:假如我們有三個檔案,分別叫做doc1, doc2以及...

2019-09-09 ‧ 由 丹尼爾胡 分享
DAY 9

Day 9: 親手寫個檢索系統吧(二)倒排索引

1. 預處理 今天的實作我們會使用華爾街日報的的文件集,我有預先將文件集切割成只有兩萬份文件的集合,這份文件集能夠從以下的code中下載。在今天的實作中,我們會...

2019-09-10 ‧ 由 丹尼爾胡 分享
DAY 10

Day 10: TF-IDF 文件加權與實作

在搜尋技術中TF-IDF是個很基礎而重要的統計方式。什麼是TF-IDF呢?而又為什麼需要TF-IDF? TF-IDF的全名是Term Frequency - I...

2019-09-11 ‧ 由 丹尼爾胡 分享