iT邦幫忙

自然語言處理相關文章
共有 59 則文章
鐵人賽 AI & Data DAY 16

技術 Day 16: Google搜尋時怎麼預測你的心?關於完成與擴展查詢

日常生活中,當我們在用搜尋引擎查詢時應該都經常受一個功能的輔助: 預測查詢,或稱為完成查詢,顧名思義,這功能用於輔助使用者完成他們的查詢。 完成查詢除了能輔助...

鐵人賽 AI & Data DAY 28

技術 Day 28: 文字相似度- 語言學

當我們在進行字義分析時可能會遇到一種狀況: "This is a good movie." → :)"This is a gre...

鐵人賽 AI & Data DAY 18

技術 Day 18: 透過搜尋結果評估搜尋引擎的效果(二)

昨天說到使用三種統計方法來評估搜尋引擎,分別是準確率、精確率以及召回率。今天我們要接著說到幾個搜尋引擎的衡量指標。 第一個方法稱為Precision@k,它衡量...

鐵人賽 AI & Data DAY 22

技術 Day 22: 原來語言翻譯有四種程度?關於機器翻譯

雖然在現代,機器翻譯是個常見的功能(Google翻譯、Bing、...等),但事實上機器翻譯至今仍是個AI-hard的挑戰。 根據Vaquios三角形,翻譯被...

鐵人賽 AI & Data DAY 15

技術 Day 15: 神奇的法杖 - 提高效率的WAND演算法

今天我們要介紹用來提升查詢效率的WAND演算法。 在這個演算法中我們會為每一個字詞記錄一個數值,這個數值稱為maximum contribution。一個字詞的...

鐵人賽 Software Development DAY 2

技術 [Day 02] 什麼是搜尋引擎 I - 在 IT 邦尋求答案是否少了些什麼 |【搜尋引擎製作錄】

Github, Over Engineering 提到搜尋引擎,大家最直接的會想到 google。若說以一個使用者的角度而言,相信大家都用過 google,也不...

鐵人賽 AI & Data DAY 20

技術 Day 20: 從文章中獲取有用的資訊!關於資訊抽取

The president of the United States is Donald Trump. (美國總統是川普。) 資訊抽取技術在看到這句話時,會...

鐵人賽 AI & Data DAY 21

技術 Day 21: 讓電腦讀懂人類的提問!關於問答系統

問答系統是一個自動為一自然語言問題找出答案(組)的任務。 這是Google的問答系統(我也不知道為什麼Google會幫歐巴馬放上這張圖XD)。 我們能夠用資...

鐵人賽 AI & Data DAY 3

技術 [自然語言處理基礎] Regular Expression (II): 文本清理

前言 今天我們將繼續介紹正則表達式,這次的任務圍繞在自然語言處理中流程的文本清理(text cleaning)。我們或許都曾聽過Garbage in, garb...

鐵人賽 AI & Data DAY 11

技術 Day 11: Google要如何儲存成千上萬個網站的位置?關於索引壓縮

如同我們前幾天所寫的倒排索引,多數搜尋引擎為了查詢的效率,會將索引儲存在記憶體當中。如此,需要足夠的記憶體才能夠將所有索引儲存起來。如果我們能夠從索引的資料型態...

鐵人賽 AI & Data DAY 12

技術 Day 12: 親手寫個檢索系統吧(三)索引壓縮

今天我們要來實作倒排索引的空間壓縮。這裡我們會利用昨天文中介紹的VByte壓縮法壓縮倒排索引中的文件ID doc_ids 以及文件-詞頻列表 doc_term_...

鐵人賽 AI & Data DAY 17

技術 Day 17: 透過搜尋結果評估搜尋引擎的效果(一)

今明兩天要來說說,我們可以如何判斷和評估一個搜尋引擎的效果。 先從三個在統計學和機器學習領域基礎而重要的評估方式說起:準確率(Accuracy)、精確率(Pre...

鐵人賽 AI & Data DAY 29

技術 Day 29: 電腦怎麼知道「說」跟「曰」意義相近?關於文字相似度

總覽 今天我們要使用昨天說到的Lin similarity來計算字與字之間的相似度。我們將會使用Brown Corpus作為訓練文集,以及Wordnet中的文字...

鐵人賽 Software Development DAY 13

技術 [Day 13] NLP - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 昨天我們有提到這次的資料處理,主要包含了以下...

鐵人賽 AI & Data DAY 13

技術 Day 13: 可是資料是不斷增加的啊!關於動態索引建構

這幾天我們都在「靜態」的情況下建構倒排索引,文集中的文件數不變、空間使用不會有太大變化,也沒有及時新增或修改。即便如此,要建構這樣的靜態索引還是可能會出現一些難...

鐵人賽 AI & Data DAY 14

技術 Day 14: 怎麼提高搜尋速度呢?關於效率搜尋

搜尋的速度是影響使用者對一個搜尋引擎體驗的一個因素,對於活在2019的你來說,很難想像在Google Search時你要等兩秒(不包含網路封包傳送的時間)才能等...

鐵人賽 自我挑戰組 DAY 1

技術 [Day1] 何謂自然語言處理

其實google的話就會有很多相關自然語言處理的定義與文章,自然語言處理英文為Natural Language Processing,通常稱作NLP,是人工智慧...

鐵人賽 Software Development DAY 12

技術 [Day 12] Data Pipeline - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 昨天我們有提到,從功能、應用端思考缺少哪些資...

鐵人賽 Software Development DAY 11

技術 [Day 11] 資料前處理 - 果然我的自然語言處理搞錯了。|【搜尋引擎製作錄】

Github, Over Engineering 礙於篇幅緣故,過多細節的部分,會挑重點講述,如有疑問歡迎留言討論 當原始資料透過爬蟲抓下來,並存入資料庫後,一...

鐵人賽 AI & Data DAY 30

達標好文 技術 Day 30: 總結、心得與展望

總結與心得 本來想分兩個段落來寫總結和心得,只是寫著寫著發現,這兩個段落相輔相成。這次我的主題是關於我個人非常喜歡的自然語言處理,儘管內容沒有太多涉入當今的st...

鐵人賽 AI & Data DAY 27

技術 Day 27: 猜字AI加強版 -- Bigram Guesser

除了考慮字母出現的機率和在各種長度中各個字母出現的機率,今天我們也把字母的排列順序列入考量。例如,我們看到一個字 m _ s s,我們知道他有很高的機率會是母音...

鐵人賽 AI & Data DAY 25

技術 Day 25: 三種AI猜字方法

第一種猜字方法:隨機猜字 為了設下一個基準,我們先設計一種AI方法--每次從26個字母中隨機選取一個字母來猜。這裡我先將26個字母存到 list 中,再用 nu...

鐵人賽 AI & Data DAY 1

技術 [D1] 偏心的 TextRank: PositionRank (Florescu and Caragea, 2017)

TL;DR 此文章試圖改進原始的 TextRank 的演算法的明顯缺陷:沒有利用到位置資訊。藉由將 PageRank 算法中原有的 Random surfer...

鐵人賽 AI & Data DAY 2

技術 [D2] 我說在座的各位都是__:TopicRank (Bougouin et al. 2013)

TL;DR 本文引入主題的概念,利用聚合式階層分群法(HAC) 將字面相近的詞彙歸入同一個主題,視為網路中的一個節點。將所有的主題節點構成全聯接圖,而邊的權重則...

技術 利用自然語言處理協助學生度過難關——均一 AI 工程師柏任技術分享

均一教育平台身為台灣目前規模最大的線上教育平台之一,團隊打拼的方向一是建構優質而免費的線上學校,二是透過功能開發、師資培訓,協助老師、家長能夠更省時省力地陪...

技術 【實習心得】卓騰語言科技

  因為一直以來在學校裡接收到的東西都還是學術導向居多,對於業界到底怎麼應用 NLP 技術,讓它落地,更甚至是以此獲利都不慎了解。因此六月多的時候發現卓騰在招實...

鐵人賽 AI & Data DAY 3

技術 [D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)

TL;DR 本文延續 TopicRank 的思想,使用 HAC 先將候選詞分群,希望最後的結果能涵蓋到較多主題。詞圖的構成為:以候選詞為節點;除了同主題下的節點...

技術 Semantic search BM25 COVID-19 dataset 自然語言BM25搜尋新冠文獻資料

延續上一篇( 連結 ) 做法,我們換一個資料庫,試試看NLP BM25 的搜尋功能如何。資料庫來源:COVID-19 metadata.csv downloa...

鐵人賽 AI & Data DAY 5

技術 【Day5】淺談NLP-自然語言處理

自然語言處理(Natural Language Processing, NLP),是人工智慧的一個重要分支,跨足人工智慧和語言學領域的學科。主要目標是讓電腦(機...