iT邦幫忙

自然語言處理相關文章
共有 60 則文章
鐵人賽 AI/ ML & Data DAY 23

技術 [Day 23] 自然語言處理 NLP

自然語言處理 NLP 前言 其實在寫到今天的文章之前,我對於NLP都只是略有耳聞,但不知道他的細節,但在賽前我在規劃要介紹甚麼的時候,請chatGPT給我一點靈...

鐵人賽 AI & Data DAY 5

技術 【Day5】淺談NLP-自然語言處理

自然語言處理(Natural Language Processing, NLP),是人工智慧的一個重要分支,跨足人工智慧和語言學領域的學科。主要目標是讓電腦(機...

鐵人賽 Software Development DAY 13

技術 [Day 13] NLP - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 昨天我們有提到這次的資料處理,主要包含了以下...

鐵人賽 Software Development DAY 12

技術 [Day 12] Data Pipeline - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 昨天我們有提到,從功能、應用端思考缺少哪些資...

鐵人賽 Software Development DAY 11

技術 [Day 11] 資料前處理 - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 當原始資料透過爬蟲抓下來,並存入資料庫後,一...

鐵人賽 Software Development DAY 2

技術 [Day 02] 什麼是搜尋引擎 I - 在 IT 邦尋求答案是否少了些什麼 |【搜尋引擎製作錄】

Github, Over Engineering 提到搜尋引擎,大家最直接的會想到 google。若說以一個使用者的角度而言,相信大家都用過 google,也不...

技術 【實習心得】卓騰語言科技

  因為一直以來在學校裡接收到的東西都還是學術導向居多,對於業界到底怎麼應用 NLP 技術,讓它落地,更甚至是以此獲利都不慎了解。因此六月多的時候發現卓騰在招實...

技術 Semantic search BM25 COVID-19 dataset 自然語言BM25搜尋新冠文獻資料

延續上一篇( 連結 ) 做法,我們換一個資料庫,試試看NLP BM25 的搜尋功能如何。資料庫來源:COVID-19 metadata.csv downloa...

鐵人賽 AI & Data DAY 11

技術 [常見的自然語言處理技術] 重不重要?TF-IDF 會告訴你

前言 在自然語言處理的諸多課題如信息檢索( information retrieval )和文本探勘( text mining )當中,我們希望找出重要的單詞或...

鐵人賽 AI & Data DAY 10

技術 [常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (II)

前言 上次我們提到,語言模型( language model, LM )就是賦予一段文句機率值。在自然語言處理的許多情境中皆仰賴語言模型: 拼字檢查( Spe...

鐵人賽 AI & Data DAY 9

技術 [常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (I)

前言 當我們在 Google 搜尋引擎輸入 The most incredible 時,系統會推薦你高熱度的關鍵字:我們不禁產生疑問:系統是如何預測關鍵字的呢?...

鐵人賽 AI & Data DAY 8

技術 [常見的自然語言處理技術] Bag-of-Words Model:簡單直觀的統計語言模型

前言 當我們要使用機器學習演算法來解決自然語言的問題,我們首先必須將文字進行量化( quantification )。而透過數字來表示語言的演算法,就稱之為語言...

鐵人賽 AI & Data DAY 7

技術 [自然語言處理基礎] 語法分析與資訊檢索 (II)

前言 上一回我們將詞性標籤依序排列建構出片語組塊( phrase chunk ),描繪出相應的分析樹,藉由簡單的文法結構來分析句子。當我們在進行語塊分析時並不會...

鐵人賽 AI & Data DAY 6

技術 [自然語言處理基礎] 語法分析與資訊檢索 (I)

前言 前一回我們利用 WordNetLemmatizer 來還原詞條的衍生形體,在這之中我們引入了一項神奇武器而順利地還原詞形,今天我們就來揭開它神秘面紗!...

鐵人賽 AI & Data DAY 5

技術 [自然語言處理基礎] 文本預處理(II):正規化,就是一視同仁

前言 上次我們斷開了英文文本的鎖鏈,將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理,因此...

鐵人賽 AI & Data DAY 8

技術 【Day 8】Adaptation!適應!讓BERT更好地過渡到下游任務!

今天開始,我們要進入一個新的主題「Adaptation」。這是指在預訓練模型和Fine-tune之間對模型額外做一個「適應」(Adaptation)的動作,讓B...

鐵人賽 AI & Data DAY 5

技術 【Day 5】BERT家族的成員們

當本系列文章提到BERT時,最初是指Google所開發的BERT,但後續基本就是指所有運用Transformer和預訓練模式的語言模型。今天這篇文章就是在廣義的...

鐵人賽 AI & Data DAY 3

技術 [自然語言處理基礎] Regular Expression (II): 文本清理

前言 今天我們將繼續介紹正則表達式,這次的任務圍繞在自然語言處理中流程的文本清理(text cleaning)。我們或許都曾聽過Garbage in, garb...

鐵人賽 AI & Data DAY 4

技術 【Day 4】輸出之後,BERT轉換的Embedding怎麼用?

在此之前,我們已經介紹過BERT的核心概念遷移學習Transfer Learning以及它的輸入輸出。那麼接下來的問題就是BERT將詞語轉換為包含了上下文資訊的...

鐵人賽 AI & Data DAY 2

技術 [自然語言處理基礎] Regular Expression (I): 「Ctrl + F」立馬找出關鍵字

關鍵字搜尋與自然語言處理的關聯 在正式介紹標題所提到的regular expression之前,我們先來聊聊為什麼搜尋關鍵字與自然語言處理有關。在瀏覽網頁時,我...

鐵人賽 AI & Data DAY 3

技術 【Day 3】BERT的輸出與它們的意義

BERT輸出了什麼? 回應上一篇關於詞嵌入Token Embedding的討論,BERT的輸出就是文本序列中每個詞單位的高維向量表示,你也可以把它當成一連串抽取...

鐵人賽 AI & Data DAY 2

技術 【Day 2】詞嵌入與BERT的輸入

如何從實戰層面認識BERT BERT的研究與應用可以分為不同的層次。你可以鑽研BERT的模型技術細節,瞭解它為什麼這麼有效,甚至可以發現其中有問題的設計來加以改...

鐵人賽 AI & Data DAY 1

技術 【Day 1】誰是BERT?如何BERT?BERT的基礎介紹

從芝麻街角色到改變NLP的模型 如果你用Google以「BERT」作為關鍵字搜尋圖片,那麼你會發現一個奇特的現象:一隻黃色的玩偶與奇怪的網狀結構模型混雜在一起。...

鐵人賽 AI & Data DAY 1

技術 [序章] 自然語言處理初探

前言 生活在網際網路以及智慧型手機普及的今天,與外國朋友聊天、出國旅行、與國外客戶開商務會議,縱使不熟悉當地語言,只要開啟Google Translate,語言...

鐵人賽 自我挑戰組 DAY 2

技術 [Day2] 斷詞介紹

一. 為何需要斷詞最主要的原因就是中文的最小一個單位就是一個詞,通常不能直接餵一個句子給你的語言模型處理,這樣模型連詞跟詞的關係都不知道,所以我們需要先利用斷詞...

鐵人賽 自我挑戰組 DAY 1

技術 [Day1] 何謂自然語言處理

其實google的話就會有很多相關自然語言處理的定義與文章,自然語言處理英文為Natural Language Processing,通常稱作NLP,是人工智慧...

鐵人賽 AI & Data DAY 3

技術 [D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)

TL;DR 本文延續 TopicRank 的思想,使用 HAC 先將候選詞分群,希望最後的結果能涵蓋到較多主題。詞圖的構成為:以候選詞為節點;除了同主題下的節點...

鐵人賽 AI & Data DAY 2

技術 [D2] 我說在座的各位都是__:TopicRank (Bougouin et al. 2013)

TL;DR 本文引入主題的概念,利用聚合式階層分群法(HAC) 將字面相近的詞彙歸入同一個主題,視為網路中的一個節點。將所有的主題節點構成全聯接圖,而邊的權重則...

鐵人賽 AI & Data DAY 1

技術 [D1] 偏心的 TextRank: PositionRank (Florescu and Caragea, 2017)

TL;DR 此文章試圖改進原始的 TextRank 的演算法的明顯缺陷:沒有利用到位置資訊。藉由將 PageRank 算法中原有的 Random surfer...

技術 利用自然語言處理協助學生度過難關——均一 AI 工程師柏任技術分享

均一教育平台身為台灣目前規模最大的線上教育平台之一,團隊打拼的方向一是建構優質而免費的線上學校,二是透過功能開發、師資培訓,協助老師、家長能夠更省時省力地陪...