2022 年末 ChatGPT 的爆紅,讓所有人的日常生活和工作方式都發生了巨大的變化。對於我來說,過去需要花很多時間完成的 1000 字心得和讀書筆記都可以交...
在正式開始學習前,我想先聊聊我所知道的自然語言處理。 在人類漫長的文明史中,語言無疑地佔據了非常重要的一部分,因為有了這項堪稱神器的工具,我們可以把內心的想法明...
在了解什麼是 NLP 以及它可以用在那些地方之後,我們可以進一步思考如何實際把文本變成電腦看的懂、可以處理的資料。 我們在日常生活中,隨時會接觸到許多文本資料,...
今天是介紹文本前處理的第二篇,我們要來聊聊非常重要的斷詞 ( Tokenization )。 我們平常書寫文章都是用一串完整的句子,譬如: I recently...
今天是介紹文本前處理的第三篇,我們已經介紹了四種文本前處理的方式,今天就來把最後兩種講完吧! 今天主要想聊的重點是如何將單詞還原成基本的形式,而這樣做的目的是把...
通過前面一系列的文本前處理,我們成功將雜亂無章的文本整理完畢,讓電腦可以好好地處理每一個單詞。 不過在一個完整的句子中,每一個單詞被賦予的含意並不是只有它本身被...
命名實體辨別(Named Entity Recognition, NER)也是 NLP 中很重要的任務,它的目的是從句子中提取出關鍵的資訊。 我們昨天提到的詞性...
在前兩天的內容中,我們依序介紹了標註詞性(POS Tagging)和提取實體(NER)的技術,對於探索句子的本質又更近了一步,接下來就可以進入到解析句子結構的主...
接下來幾天,就讓我們來聊聊有關於資訊檢索的基本概念吧! 在 NLP 領域中,資訊檢索 ( Information Retrieval, IR ) 是一項應用非常...
反向索引 ( Inverted Index ) 是資訊檢索中非常重要的一種資料儲存方式,我們接下來要介紹的 TF-IDF 和 BM25 都會用到這個概念。 反向...