iT邦幫忙

nlp相關文章
共有 123 則文章
鐵人賽 AI & Data DAY 20

技術 Day 20: 從文章中獲取有用的資訊!關於資訊抽取

The president of the United States is Donald Trump. (美國總統是川普。) 資訊抽取技術在看到這句話時,會...

鐵人賽 AI & Data DAY 19

技術 Day 19: AI能辨識專有名詞?關於命名實體辨識

過去12天都在講搜尋引擎技術和資訊檢索,這幾天要拉回來繼續介紹自然語言處理界的常見任務了! 命名實體辨識(Named Entity Recognition),顧...

鐵人賽 AI & Data DAY 3

技術 [Day3] 知名企業使用Dialogflow的案例

Dialogflow 官方列出的三大案例分享,分別是KLM航空,達美樂和Ticketmaster,這三間公司都是跨國企業,擁有相當龐大的產品客戶。 三種案例也分...

鐵人賽 AI & Data DAY 18

技術 Day 18: 透過搜尋結果評估搜尋引擎的效果(二)

昨天說到使用三種統計方法來評估搜尋引擎,分別是準確率、精確率以及召回率。今天我們要接著說到幾個搜尋引擎的衡量指標。 第一個方法稱為Precision@k,它衡量...

鐵人賽 AI & Data DAY 17

技術 Day 17: 透過搜尋結果評估搜尋引擎的效果(一)

今明兩天要來說說,我們可以如何判斷和評估一個搜尋引擎的效果。 先從三個在統計學和機器學習領域基礎而重要的評估方式說起:準確率(Accuracy)、精確率(Pre...

鐵人賽 AI & Data DAY 16

技術 Day 16: Google搜尋時怎麼預測你的心?關於完成與擴展查詢

日常生活中,當我們在用搜尋引擎查詢時應該都經常受一個功能的輔助: 預測查詢,或稱為完成查詢,顧名思義,這功能用於輔助使用者完成他們的查詢。 完成查詢除了能輔助...

鐵人賽 AI & Data DAY 15

達標好文 技術 Day 15: 神奇的法杖 - 提高效率的WAND演算法

今天我們要介紹用來提升查詢效率的WAND演算法。 在這個演算法中我們會為每一個字詞記錄一個數值,這個數值稱為maximum contribution。一個字詞的...

技術 【Day 02】ML x NLP懶人包

在「Google Developers Machine Learning」這個組別中可以說是相較其他組別較多人挑戰的題目之一。為了不希望自己寫的內容會和其他邦友...

鐵人賽 AI & Data DAY 14

技術 Day 14: 怎麼提高搜尋速度呢?關於效率搜尋

搜尋的速度是影響使用者對一個搜尋引擎體驗的一個因素,對於活在2019的你來說,很難想像在Google Search時你要等兩秒(不包含網路封包傳送的時間)才能等...

鐵人賽 AI & Data DAY 13

技術 Day 13: 可是資料是不斷增加的啊!關於動態索引建構

這幾天我們都在「靜態」的情況下建構倒排索引,文集中的文件數不變、空間使用不會有太大變化,也沒有及時新增或修改。即便如此,要建構這樣的靜態索引還是可能會出現一些難...

鐵人賽 AI & Data DAY 12

技術 Day 12: 親手寫個檢索系統吧(三)索引壓縮

今天我們要來實作倒排索引的空間壓縮。這裡我們會利用昨天文中介紹的VByte壓縮法壓縮倒排索引中的文件ID doc_ids 以及文件-詞頻列表 doc_term_...

鐵人賽 AI & Data DAY 11

技術 Day 11: Google要如何儲存成千上萬個網站的位置?關於索引壓縮

如同我們前幾天所寫的倒排索引,多數搜尋引擎為了查詢的效率,會將索引儲存在記憶體當中。如此,需要足夠的記憶體才能夠將所有索引儲存起來。如果我們能夠從索引的資料型態...

鐵人賽 AI & Data DAY 10

達標好文 技術 Day 10: TF-IDF 文件加權與實作

在搜尋技術中TF-IDF是個很基礎而重要的統計方式。什麼是TF-IDF呢?而又為什麼需要TF-IDF? TF-IDF的全名是Term Frequency - I...

鐵人賽 AI & Data DAY 9

達標好文 技術 Day 9: 親手寫個檢索系統吧(二)倒排索引

1. 預處理 今天的實作我們會使用華爾街日報的的文件集,我有預先將文件集切割成只有兩萬份文件的集合,這份文件集能夠從以下的code中下載。在今天的實作中,我們會...

鐵人賽 AI & Data DAY 8

技術 Day 8: 認識文件矩陣以及索引的建立

在Day 6的文章中,我們說到在進行搜尋時,我們首要關心的是查詢的詞與文件間的相似度。我用一個例子作為開端:假如我們有三個檔案,分別叫做doc1, doc2以及...

鐵人賽 AI & Data DAY 7

技術 Day 7: 親手寫個檢索系統吧(ㄧ)文件預處理

語言是由文字組合出來的。作為一個人類,我們能夠將一篇文章分割成好幾個部分來閱讀和理解,為了讓電腦理解一篇文章,它也必須能夠這麼做。 第一步就在於文字的預處理和正...

鐵人賽 AI & Data DAY 6

技術 Day 6: 原來Google這樣Search!關於資訊檢索

什麼是資訊檢索呢?大家最清楚的例子莫過於網路搜尋引擎了。當你在Google Search上輸入一段你想查詢的字,作為一個使用者通常會跟搜尋引擎有以下的互動: (...

鐵人賽 AI & Data DAY 5

技術 Day 5: AI連自動幫文集歸類主題都做得到?關於主題模型

昨天說到語言模型,今天要來介紹另一個模型--主題模型(Topic Model)。主題模型能夠幫助人們短時間理解原本幾乎不可能讀得完的大型非結構化的文集,例如科學...

鐵人賽 AI & Data DAY 4

達標好文 技術 Day 4: AI也會寫文章?關於自然語言生成

今天介紹NLP常見任務的第三項:自然語言生成(Natural Language Generation) 自然語言處理的一大目標是要讓電腦讀懂人類在說什麼,就如同...

鐵人賽 AI & Data DAY 3

技術 Day 3: 親手讓電腦幫你標動詞和名詞吧!

昨天的文中我們說到詞性標註,今天讓我們透過NLP界經典的Python Library-NLTK,親手讓電腦幫我們標注文中的詞性。如系列簡介所說,在這30天中,我...

鐵人賽 AI & Data DAY 2

技術 Day 2: 語音辨識從何而來?電腦也懂名詞?關於語音辨識和詞性標注

還記得第一次使用手機上的「Hey, Siri」或是「Ok, Google」功能時的自己有多興奮嗎?在接下來幾天的文中,我會講解昨天提到的幾個自然語言處理主要課題...

鐵人賽 AI & Data DAY 1

達標好文 技術 Day 1: 自然語言處理簡介

明明整個網路中有成千上萬的資料,為什麼Google能在一秒內告訴我答案?搜尋引擎以及各網站的搜尋功能到底是怎麼運作的?為什麼我在搜尋列輸入一大串字之後,搜尋引擎...

鐵人賽 AI & Data DAY 30

達標好文 技術 [魔法小報] 深度學習在聊天機器人(Chatbot)的技術與應用

鐵人賽第三十篇,想帶大家來探討聊天機器人(Chatbot)這塊的發展。 圖片來源:https://chatbotsmagazine.com/why-the-...

鐵人賽 AI & Data DAY 29

達標好文 技術 [魔法小報] 深度學習在自然語言處理(NLP)的技術與應用

自然語言處理(NLP)的目標是設計演算法來讓電腦「理解」自然語言以執行一些任務,依難易度舉例如下: 簡單 拼寫檢查(Spell Checking) 關鍵字搜...

鐵人賽 Everything on Azure DAY 26

技術 [DAY26] 使用Azure Machine Learning Studio做自然語言情感分析(3):機器學習模型(Logistic迴歸)、 模型評價及佈署

在前兩篇,我們將影片評論的資料做了資料處理,也根據自然語言分析的幾個基本概念做了資料過濾及詞彙Entity的抽取及計算相關機率。在今天的實作,我們將繼續帶大家進...

鐵人賽 Everything on Azure DAY 25

技術 [DAY25] 使用Azure Machine Learning Studio做自然語言情感分析(2):自然語言分析資料過濾篇及NLP簡單概論

在上一個章節,我們備妥了影片評論的資料,並且將0和1與負面及正面情緒做了前置的對照處理。上一篇的連結如下:[DAY24] - 使用Azure Machine L...

鐵人賽 Everything on Azure DAY 24

技術 [DAY24] 使用Azure Machine Learning Studio做自然語言情感分析(1):資料處理及分類篇

[DAY24] 使用Azure Machine Learning Studio做自然語言情感分析(1):資料處理及分類篇 前面的文章正好把應用程式的開發及部署都...

鐵人賽 AI & Data DAY 14

達標好文 技術 [魔法陣系列] Recurrent Neural Network(RNN)之術式解析

Recurrent Neural Network(RNN)是神經網絡的一種,常應用在處理時間、空間序列上有強關聯的訊息,尤其在 NLP (Natural Lan...

鐵人賽 Modern Web DAY 24
我每天都接一個API 系列 第 24

技術 [30apis] Day 23 : Bitext API (語意處理)

Bitext 是一間主攻自然語言處理(Natural Language Processing NLP)的新創,他們的產品主要是讓機器能夠讀懂人類的文字,比方說判...

鐵人賽 AI & Machine Learning DAY 15

技術 英文自然語言處理基礎

提醒: 本篇文章的code在這裡 概述 所謂自然語言處理,就是希望可以讓電腦讀懂人類的文字。不過,這篇文章只會處理已經存成文字檔的文字,暫時不會提到手寫文字辨識...