自然語言處理 NLP 前言 其實在寫到今天的文章之前,我對於NLP都只是略有耳聞,但不知道他的細節,但在賽前我在規劃要介紹甚麼的時候,請chatGPT給我一點靈...
自然語言處理(Natural Language Processing, NLP),是人工智慧的一個重要分支,跨足人工智慧和語言學領域的學科。主要目標是讓電腦(機...
Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 昨天我們有提到這次的資料處理,主要包含了以下...
Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 昨天我們有提到,從功能、應用端思考缺少哪些資...
Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 當原始資料透過爬蟲抓下來,並存入資料庫後,一...
Github, Over Engineering 提到搜尋引擎,大家最直接的會想到 google。若說以一個使用者的角度而言,相信大家都用過 google,也不...
因為一直以來在學校裡接收到的東西都還是學術導向居多,對於業界到底怎麼應用 NLP 技術,讓它落地,更甚至是以此獲利都不慎了解。因此六月多的時候發現卓騰在招實...
延續上一篇( 連結 ) 做法,我們換一個資料庫,試試看NLP BM25 的搜尋功能如何。資料庫來源:COVID-19 metadata.csv downloa...
前言 在自然語言處理的諸多課題如信息檢索( information retrieval )和文本探勘( text mining )當中,我們希望找出重要的單詞或...
前言 上次我們提到,語言模型( language model, LM )就是賦予一段文句機率值。在自然語言處理的許多情境中皆仰賴語言模型: 拼字檢查( Spe...
前言 當我們在 Google 搜尋引擎輸入 The most incredible 時,系統會推薦你高熱度的關鍵字:我們不禁產生疑問:系統是如何預測關鍵字的呢?...
前言 當我們要使用機器學習演算法來解決自然語言的問題,我們首先必須將文字進行量化( quantification )。而透過數字來表示語言的演算法,就稱之為語言...
前言 上一回我們將詞性標籤依序排列建構出片語組塊( phrase chunk ),描繪出相應的分析樹,藉由簡單的文法結構來分析句子。當我們在進行語塊分析時並不會...
前言 前一回我們利用 WordNetLemmatizer 來還原詞條的衍生形體,在這之中我們引入了一項神奇武器而順利地還原詞形,今天我們就來揭開它神秘面紗!...
前言 上次我們斷開了英文文本的鎖鏈,將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理,因此...
今天開始,我們要進入一個新的主題「Adaptation」。這是指在預訓練模型和Fine-tune之間對模型額外做一個「適應」(Adaptation)的動作,讓B...
當本系列文章提到BERT時,最初是指Google所開發的BERT,但後續基本就是指所有運用Transformer和預訓練模式的語言模型。今天這篇文章就是在廣義的...
前言 今天我們將繼續介紹正則表達式,這次的任務圍繞在自然語言處理中流程的文本清理(text cleaning)。我們或許都曾聽過Garbage in, garb...
在此之前,我們已經介紹過BERT的核心概念遷移學習Transfer Learning以及它的輸入輸出。那麼接下來的問題就是BERT將詞語轉換為包含了上下文資訊的...
關鍵字搜尋與自然語言處理的關聯 在正式介紹標題所提到的regular expression之前,我們先來聊聊為什麼搜尋關鍵字與自然語言處理有關。在瀏覽網頁時,我...
BERT輸出了什麼? 回應上一篇關於詞嵌入Token Embedding的討論,BERT的輸出就是文本序列中每個詞單位的高維向量表示,你也可以把它當成一連串抽取...
如何從實戰層面認識BERT BERT的研究與應用可以分為不同的層次。你可以鑽研BERT的模型技術細節,瞭解它為什麼這麼有效,甚至可以發現其中有問題的設計來加以改...
從芝麻街角色到改變NLP的模型 如果你用Google以「BERT」作為關鍵字搜尋圖片,那麼你會發現一個奇特的現象:一隻黃色的玩偶與奇怪的網狀結構模型混雜在一起。...
前言 生活在網際網路以及智慧型手機普及的今天,與外國朋友聊天、出國旅行、與國外客戶開商務會議,縱使不熟悉當地語言,只要開啟Google Translate,語言...
一. 為何需要斷詞最主要的原因就是中文的最小一個單位就是一個詞,通常不能直接餵一個句子給你的語言模型處理,這樣模型連詞跟詞的關係都不知道,所以我們需要先利用斷詞...
其實google的話就會有很多相關自然語言處理的定義與文章,自然語言處理英文為Natural Language Processing,通常稱作NLP,是人工智慧...
TL;DR 本文延續 TopicRank 的思想,使用 HAC 先將候選詞分群,希望最後的結果能涵蓋到較多主題。詞圖的構成為:以候選詞為節點;除了同主題下的節點...
TL;DR 本文引入主題的概念,利用聚合式階層分群法(HAC) 將字面相近的詞彙歸入同一個主題,視為網路中的一個節點。將所有的主題節點構成全聯接圖,而邊的權重則...
TL;DR 此文章試圖改進原始的 TextRank 的演算法的明顯缺陷:沒有利用到位置資訊。藉由將 PageRank 算法中原有的 Random surfer...
均一教育平台身為台灣目前規模最大的線上教育平台之一,團隊打拼的方向一是建構優質而免費的線上學校,二是透過功能開發、師資培訓,協助老師、家長能夠更省時省力地陪...