iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

1 Like 0 留言 29657 瀏覽

鐵人賽 AI & Data DAY 1

[自然語言處理NLP]BERT系列Model的應用、訓練技巧與實戰系列第 1 篇

技術【Day 1】誰是BERT？如何BERT？BERT的基礎介紹

從芝麻街角色到改變NLP的模型如果你用Google以「BERT」作為關鍵字搜尋圖片，那麼你會發現一個奇特的現象：一隻黃色的玩偶與奇怪的網狀結構模型混雜在一起。...

wow1310s ‧ 2021-09-04

11 Like 1 留言 19276 瀏覽

鐵人賽 AI & Data DAY 1

深入淺出搜尋引擎和自然語言處理系列第 1 篇

達標好文技術 Day 1: 自然語言處理簡介

明明整個網路中有成千上萬的資料，為什麼Google能在一秒內告訴我答案？搜尋引擎以及各網站的搜尋功能到底是怎麼運作的？為什麼我在搜尋列輸入一大串字之後，搜尋引擎...

丹尼爾胡 ‧ 2019-09-02

1 Like 0 留言 18198 瀏覽

鐵人賽 AI & Data DAY 10

當自然語言處理遇上深度學習系列第 10 篇

技術 [常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (II)

前言上次我們提到，語言模型（ language model, LM ）就是賦予一段文句機率值。在自然語言處理的許多情境中皆仰賴語言模型：拼字檢查（ Spe...

Friedrich1942 ‧ 2021-09-18

0 Like 0 留言 18136 瀏覽

鐵人賽 AI & Data DAY 2

[自然語言處理NLP]BERT系列Model的應用、訓練技巧與實戰系列第 2 篇

技術【Day 2】詞嵌入與BERT的輸入

如何從實戰層面認識BERT BERT的研究與應用可以分為不同的層次。你可以鑽研BERT的模型技術細節，瞭解它為什麼這麼有效，甚至可以發現其中有問題的設計來加以改...

wow1310s ‧ 2021-09-05

0 Like 0 留言 18097 瀏覽

鐵人賽 AI & Data DAY 11

當自然語言處理遇上深度學習系列第 11 篇

技術 [常見的自然語言處理技術] 重不重要？TF-IDF 會告訴你

前言在自然語言處理的諸多課題如信息檢索（ information retrieval ）和文本探勘（ text mining ）當中，我們希望找出重要的單詞或...

Friedrich1942 ‧ 2021-09-19

7 Like 1 留言 12345 瀏覽

鐵人賽 AI & Data DAY 10

深入淺出搜尋引擎和自然語言處理系列第 10 篇

達標好文技術 Day 10: TF-IDF 文件加權與實作

在搜尋技術中TF-IDF是個很基礎而重要的統計方式。什麼是TF-IDF呢？而又為什麼需要TF-IDF？ TF-IDF的全名是Term Frequency - I...

丹尼爾胡 ‧ 2019-09-11

3 Like 0 留言 11661 瀏覽

鐵人賽 AI & Data DAY 3

深入淺出搜尋引擎和自然語言處理系列第 3 篇

技術 Day 3: 親手讓電腦幫你標動詞和名詞吧！

昨天的文中我們說到詞性標註，今天讓我們透過NLP界經典的Python Library-NLTK，親手讓電腦幫我們標注文中的詞性。如系列簡介所說，在這30天中，我...

丹尼爾胡 ‧ 2019-09-04

5 Like 0 留言 11499 瀏覽

鐵人賽自我挑戰組 DAY 2

30天初步了解自然語言處理-自學筆記系列第 2 篇

技術 [Day2] 斷詞介紹

一. 為何需要斷詞最主要的原因就是中文的最小一個單位就是一個詞，通常不能直接餵一個句子給你的語言模型處理，這樣模型連詞跟詞的關係都不知道，所以我們需要先利用斷詞...

eating ‧ 2021-09-02

1 Like 0 留言 9925 瀏覽

鐵人賽 AI & Data DAY 3

[自然語言處理NLP]BERT系列Model的應用、訓練技巧與實戰系列第 3 篇

技術【Day 3】BERT的輸出與它們的意義

BERT輸出了什麼？回應上一篇關於詞嵌入Token Embedding的討論，BERT的輸出就是文本序列中每個詞單位的高維向量表示，你也可以把它當成一連串抽取...

wow1310s ‧ 2021-09-06

1 Like 0 留言 9761 瀏覽

鐵人賽 AI & Data DAY 8

當自然語言處理遇上深度學習系列第 8 篇

技術 [常見的自然語言處理技術] Bag-of-Words Model：簡單直觀的統計語言模型

前言當我們要使用機器學習演算法來解決自然語言的問題，我們首先必須將文字進行量化（ quantification ）。而透過數字來表示語言的演算法，就稱之為語言...

Friedrich1942 ‧ 2021-09-16

4 Like 0 留言 9482 瀏覽

鐵人賽 AI & Data DAY 7

深入淺出搜尋引擎和自然語言處理系列第 7 篇

技術 Day 7: 親手寫個檢索系統吧（ㄧ）文件預處理

語言是由文字組合出來的。作為一個人類，我們能夠將一篇文章分割成好幾個部分來閱讀和理解，為了讓電腦理解一篇文章，它也必須能夠這麼做。第一步就在於文字的預處理和正...

丹尼爾胡 ‧ 2019-09-08

3 Like 1 留言 7875 瀏覽

鐵人賽 AI & Data DAY 5

深入淺出搜尋引擎和自然語言處理系列第 5 篇

技術 Day 5: AI連自動幫文集歸類主題都做得到？關於主題模型

昨天說到語言模型，今天要來介紹另一個模型--主題模型(Topic Model)。主題模型能夠幫助人們短時間理解原本幾乎不可能讀得完的大型非結構化的文集，例如科學...

丹尼爾胡 ‧ 2019-09-06

1 Like 0 留言 7650 瀏覽

鐵人賽 AI & Data DAY 4

[自然語言處理NLP]BERT系列Model的應用、訓練技巧與實戰系列第 4 篇

技術【Day 4】輸出之後，BERT轉換的Embedding怎麼用？

在此之前，我們已經介紹過BERT的核心概念遷移學習Transfer Learning以及它的輸入輸出。那麼接下來的問題就是BERT將詞語轉換為包含了上下文資訊的...

wow1310s ‧ 2021-09-07

6 Like 0 留言 7176 瀏覽

鐵人賽 AI & Data DAY 2

深入淺出搜尋引擎和自然語言處理系列第 2 篇

技術 Day 2: 語音辨識從何而來？電腦也懂名詞？關於語音辨識和詞性標注

還記得第一次使用手機上的「Hey, Siri」或是「Ok, Google」功能時的自己有多興奮嗎？在接下來幾天的文中，我會講解昨天提到的幾個自然語言處理主要課題...

丹尼爾胡 ‧ 2019-09-03

6 Like 1 留言 7150 瀏覽

鐵人賽 AI & Data DAY 6

深入淺出搜尋引擎和自然語言處理系列第 6 篇

技術 Day 6: 原來Google這樣Search！關於資訊檢索

什麼是資訊檢索呢？大家最清楚的例子莫過於網路搜尋引擎了。當你在Google Search上輸入一段你想查詢的字，作為一個使用者通常會跟搜尋引擎有以下的互動： (...

丹尼爾胡 ‧ 2019-09-07

3 Like 0 留言 7105 瀏覽

鐵人賽 AI & Data DAY 1

當自然語言處理遇上深度學習系列第 1 篇

技術 [序章] 自然語言處理初探

前言生活在網際網路以及智慧型手機普及的今天，與外國朋友聊天、出國旅行、與國外客戶開商務會議，縱使不熟悉當地語言，只要開啟Google Translate，語言...

Friedrich1942 ‧ 2021-09-09

9 Like 2 留言 6901 瀏覽

鐵人賽 AI & Data DAY 4

深入淺出搜尋引擎和自然語言處理系列第 4 篇

達標好文技術 Day 4: AI也會寫文章？關於自然語言生成

今天介紹NLP常見任務的第三項：自然語言生成(Natural Language Generation) 自然語言處理的一大目標是要讓電腦讀懂人類在說什麼，就如同...

丹尼爾胡 ‧ 2019-09-05

1 Like 0 留言 6179 瀏覽

鐵人賽 Software Development DAY 11

IT邦鐵人賽文章搜尋引擎系列第 11 篇

技術 [Day 11] 資料前處理 - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故，過多細節的部分，會挑重點講述，如有疑問歡迎留言討論當原始資料透過爬蟲抓下來，並存入資料庫後，一...

tainvecs ‧ 2022-09-26

0 Like 0 留言 6166 瀏覽

鐵人賽 Software Development DAY 12

IT邦鐵人賽文章搜尋引擎系列第 12 篇

技術 [Day 12] Data Pipeline - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故，過多細節的部分，會挑重點講述，如有疑問歡迎留言討論昨天我們有提到，從功能、應用端思考缺少哪些資...

tainvecs ‧ 2022-09-27

0 Like 0 留言 6048 瀏覽

鐵人賽 Software Development DAY 13

IT邦鐵人賽文章搜尋引擎系列第 13 篇

技術 [Day 13] NLP - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故，過多細節的部分，會挑重點講述，如有疑問歡迎留言討論昨天我們有提到這次的資料處理，主要包含了以下...

tainvecs ‧ 2022-09-28

0 Like 0 留言 6046 瀏覽

鐵人賽 AI & Data DAY 6

當自然語言處理遇上深度學習系列第 6 篇

技術 [自然語言處理基礎] 語法分析與資訊檢索 (I)

前言前一回我們利用 WordNetLemmatizer 來還原詞條的衍生形體，在這之中我們引入了一項神奇武器而順利地還原詞形，今天我們就來揭開它神秘面紗！...

Friedrich1942 ‧ 2021-09-14

2 Like 0 留言 5748 瀏覽

鐵人賽 AI & Data DAY 26

深入淺出搜尋引擎和自然語言處理系列第 26 篇

技術 Day 26: N-Gram Smoothing 平滑方法

Day 24時結尾提到幾個存在的問題：「(1) 當文集資料量變大時，每個東西出現的機率會將得非常低，所得到的最終機率也會非常低；(2) 若是有個東西出現在文集的...

丹尼爾胡 ‧ 2019-09-27

1 Like 0 留言 5603 瀏覽

鐵人賽 AI & Data DAY 5

[自然語言處理NLP]BERT系列Model的應用、訓練技巧與實戰系列第 5 篇

技術【Day 5】BERT家族的成員們

當本系列文章提到BERT時，最初是指Google所開發的BERT，但後續基本就是指所有運用Transformer和預訓練模式的語言模型。今天這篇文章就是在廣義的...

wow1310s ‧ 2021-09-08

0 Like 0 留言 4832 瀏覽

鐵人賽 AI/ ML & Data DAY 23

深度學習的學習之旅：從理論到實作系列第 23 篇

技術 [Day 23] 自然語言處理 NLP

自然語言處理 NLP 前言其實在寫到今天的文章之前，我對於NLP都只是略有耳聞，但不知道他的細節，但在賽前我在規劃要介紹甚麼的時候，請chatGPT給我一點靈...

bin ‧ 2024-10-01 ‧團隊NUTC imac

0 Like 0 留言 4768 瀏覽

鐵人賽 AI & Data DAY 7

當自然語言處理遇上深度學習系列第 7 篇

技術 [自然語言處理基礎] 語法分析與資訊檢索 (II)

前言上一回我們將詞性標籤依序排列建構出片語組塊（ phrase chunk ），描繪出相應的分析樹，藉由簡單的文法結構來分析句子。當我們在進行語塊分析時並不會...

Friedrich1942 ‧ 2021-09-15

5 Like 0 留言 4745 瀏覽

鐵人賽 AI & Data DAY 8

深入淺出搜尋引擎和自然語言處理系列第 8 篇

技術 Day 8: 認識文件矩陣以及索引的建立

在Day 6的文章中，我們說到在進行搜尋時，我們首要關心的是查詢的詞與文件間的相似度。我用一個例子作為開端：假如我們有三個檔案，分別叫做doc1, doc2以及...

丹尼爾胡 ‧ 2019-09-09

0 Like 0 留言 4703 瀏覽

鐵人賽 AI & Data DAY 5

當自然語言處理遇上深度學習系列第 5 篇

技術 [自然語言處理基礎] 文本預處理(II)：正規化，就是一視同仁

前言上次我們斷開了英文文本的鎖鏈，將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理，因此...

Friedrich1942 ‧ 2021-09-13

2 Like 0 留言 4651 瀏覽

鐵人賽 AI & Data DAY 24

深入淺出搜尋引擎和自然語言處理系列第 24 篇

技術 Day 24: Hangman猜字遊戲和訓練集處理

距離完成我的三十天鐵人賽剩下最後的七篇文章了。我打算用一個遊戲--Hangman猜字遊戲來結束這個系列。昨天說到語言模型，語言模型可以以字詞為單位作N-gram...

丹尼爾胡 ‧ 2019-09-25

4 Like 0 留言 4514 瀏覽

鐵人賽 AI & Data DAY 23

深入淺出搜尋引擎和自然語言處理系列第 23 篇

技術 Day 23: 語言是有跡可循的！關於語言模型

如同我們在Day 4講到自然語言生成時提到的，語言模型在做的就是將機率指向一個序列的文字。語言模型有許多延伸的應用，例如：語音辨識、拼字檢查、機器翻譯、查詢...

丹尼爾胡 ‧ 2019-09-24

3 Like 0 留言 4476 瀏覽

鐵人賽 AI & Data DAY 19

深入淺出搜尋引擎和自然語言處理系列第 19 篇

技術 Day 19: AI能辨識專有名詞？關於命名實體辨識

過去12天都在講搜尋引擎技術和資訊檢索，這幾天要拉回來繼續介紹自然語言處理界的常見任務了！命名實體辨識(Named Entity Recognition)，顧...

丹尼爾胡 ‧ 2019-09-20

技術 【Day 1】誰是BERT？如何BERT？BERT的基礎介紹

達標好文 技術 Day 1: 自然語言處理簡介

技術 [常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (II)

技術 【Day 2】詞嵌入與BERT的輸入

技術 [常見的自然語言處理技術] 重不重要？TF-IDF 會告訴你

達標好文 技術 Day 10: TF-IDF 文件加權與實作

技術 Day 3: 親手讓電腦幫你標動詞和名詞吧！

技術 [Day2] 斷詞介紹

技術 【Day 3】BERT的輸出與它們的意義

技術 [常見的自然語言處理技術] Bag-of-Words Model：簡單直觀的統計語言模型

技術 Day 7: 親手寫個檢索系統吧（ㄧ）文件預處理

技術 Day 5: AI連自動幫文集歸類主題都做得到？關於主題模型

技術 【Day 4】輸出之後，BERT轉換的Embedding怎麼用？

技術 Day 2: 語音辨識從何而來？電腦也懂名詞？關於語音辨識和詞性標注

技術 Day 6: 原來Google這樣Search！關於資訊檢索

技術 [序章] 自然語言處理初探

達標好文 技術 Day 4: AI也會寫文章？關於自然語言生成

技術 [Day 11] 資料前處理 - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

技術 [Day 12] Data Pipeline - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

技術 [Day 13] NLP - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

技術 [自然語言處理基礎] 語法分析與資訊檢索 (I)

技術 Day 26: N-Gram Smoothing 平滑方法

技術 【Day 5】BERT家族的成員們

技術 [Day 23] 自然語言處理 NLP

技術 [自然語言處理基礎] 語法分析與資訊檢索 (II)

技術 Day 8: 認識文件矩陣以及索引的建立

技術 [自然語言處理基礎] 文本預處理(II)：正規化，就是一視同仁

技術 Day 24: Hangman猜字遊戲和訓練集處理

技術 Day 23: 語言是有跡可循的！關於語言模型

技術 Day 19: AI能辨識專有名詞？關於命名實體辨識

標記使用者

技術【Day 1】誰是BERT？如何BERT？BERT的基礎介紹

達標好文技術 Day 1: 自然語言處理簡介

技術【Day 2】詞嵌入與BERT的輸入

達標好文技術 Day 10: TF-IDF 文件加權與實作

技術【Day 3】BERT的輸出與它們的意義

技術【Day 4】輸出之後，BERT轉換的Embedding怎麼用？

達標好文技術 Day 4: AI也會寫文章？關於自然語言生成

技術【Day 5】BERT家族的成員們