iT邦幫忙

nlp相關文章
共有 123 則文章

技術 Semantic search BM25 COVID-19 dataset 自然語言BM25搜尋新冠文獻資料

延續上一篇( 連結 ) 做法,我們換一個資料庫,試試看NLP BM25 的搜尋功能如何。資料庫來源:COVID-19 metadata.csv downloa...

技術 語義檢索 Semantic Search NLP ( BM25 +wordcloud+LSA summary )

本文將完成: 語義檢索 從 IMDB影評檔(100則)--> 從文字欄位'IMDB_plot',找出BM25分數最高者。--> 以worldclo...

鐵人賽 自我挑戰組 DAY 2

技術 Day 15:AWS是什麼?30天從動漫/影視作品看AWS服務應用 -《雲端情人》part 2

前篇提到Samatha的運作原理與可能使用的AWS服務,今天續提她與Theodore在工作使用系統上的相似之處。某種程度上Spike Jonze是否也是在暗喻科...

鐵人賽 AI & Data DAY 8

技術 【Day 8】Adaptation!適應!讓BERT更好地過渡到下游任務!

今天開始,我們要進入一個新的主題「Adaptation」。這是指在預訓練模型和Fine-tune之間對模型額外做一個「適應」(Adaptation)的動作,讓B...

鐵人賽 AI & Data DAY 4

技術 [自然語言處理基礎] 文本預處理(I):斷開文本的鎖練

前言 上次我們提到原始文本往往夾帶大量無意義的字符,於是我們利用了正則表達式來清理資料。然而此時的文本由大量的語句所構成,各個語句中又帶有複雜的文法結構(例如倒...

鐵人賽 AI & Data DAY 6

技術 【Day 6】BERT由Transformer模型構建而成

前五天,我們講解了BERT模型的核心概念、輸入輸出以及模型的類型,現在讓我們進入模型的結構、原理部分,來談一談作為BERT模型的原始架構的Transformer...

鐵人賽 AI & Data DAY 5

技術 【Day 5】BERT家族的成員們

當本系列文章提到BERT時,最初是指Google所開發的BERT,但後續基本就是指所有運用Transformer和預訓練模式的語言模型。今天這篇文章就是在廣義的...

鐵人賽 AI & Data DAY 4

技術 【Day 4】輸出之後,BERT轉換的Embedding怎麼用?

在此之前,我們已經介紹過BERT的核心概念遷移學習Transfer Learning以及它的輸入輸出。那麼接下來的問題就是BERT將詞語轉換為包含了上下文資訊的...

鐵人賽 AI & Data DAY 2

技術 [自然語言處理基礎] Regular Expression (I): 「Ctrl + F」立馬找出關鍵字

關鍵字搜尋與自然語言處理的關聯 在正式介紹標題所提到的regular expression之前,我們先來聊聊為什麼搜尋關鍵字與自然語言處理有關。在瀏覽網頁時,我...

鐵人賽 AI & Data DAY 3

技術 【Day 3】BERT的輸出與它們的意義

BERT輸出了什麼? 回應上一篇關於詞嵌入Token Embedding的討論,BERT的輸出就是文本序列中每個詞單位的高維向量表示,你也可以把它當成一連串抽取...

鐵人賽 AI & Data DAY 2

技術 【Day 2】詞嵌入與BERT的輸入

如何從實戰層面認識BERT BERT的研究與應用可以分為不同的層次。你可以鑽研BERT的模型技術細節,瞭解它為什麼這麼有效,甚至可以發現其中有問題的設計來加以改...

鐵人賽 AI & Data DAY 1

技術 【Day 1】誰是BERT?如何BERT?BERT的基礎介紹

從芝麻街角色到改變NLP的模型 如果你用Google以「BERT」作為關鍵字搜尋圖片,那麼你會發現一個奇特的現象:一隻黃色的玩偶與奇怪的網狀結構模型混雜在一起。...

鐵人賽 AI & Data DAY 1

技術 [序章] 自然語言處理初探

前言 生活在網際網路以及智慧型手機普及的今天,與外國朋友聊天、出國旅行、與國外客戶開商務會議,縱使不熟悉當地語言,只要開啟Google Translate,語言...

技術 用 Azure Speech Studio x ChatGPT 幫你生逐字稿

用 Azure Speech Studio x ChatGPT 幫你生逐字稿 團隊草創初期,為了要拓展業務,總是需要到處跟客戶介紹自己公司的產品、服務和戰績。這...

鐵人賽 自我挑戰組 DAY 29

技術 [Python]Natural Language Toolkit

http://www.nltk.org/NLTK 是一個主流用於自然語言處理的 Python 庫 import nltk nltk.download() p...

鐵人賽 自我挑戰組 DAY 28

技術 [Python]如何Speech to Text: SpeechRecognition

https://pypi.org/project/SpeechRecognition/ pip3 install SpeechRecognition Coll...

鐵人賽 自我挑戰組 DAY 24

技術 [Python][OpenCV]如何利用Tesserect OCR做翻譯器

借用google的翻譯功能 from googletrans import Translator 主模組參數設定 class tesserectOCR():...

技術 [Python][Arabic]陽春翻譯工具

參考使用源碼為以下:https://github.com/amrelarabi/English-Arbic-Translator程式一開始載入字典檔並初始化字典...

鐵人賽 自我挑戰組 DAY 23

技術 [Python][OpenCV]如何利用Tesserect OCR做辨識

https://zh.wikipedia.org/wiki/Tesseracthttps://help.ubuntu.com/community/OCR imp...

技術 如何在亞馬遜上數據採集並找到最暢銷的產品

毫無疑問,為了在亞馬遜上獲得可觀的利潤,選擇最佳的銷售產品至關重要。為了找出哪種產品賣得最好,我們需要進行產品研究以了解市場。在本文中,我將討論5個技巧,這些技...

鐵人賽 AI & Data DAY 30

達標好文 技術 Day 30: 總結、心得與展望

總結與心得 本來想分兩個段落來寫總結和心得,只是寫著寫著發現,這兩個段落相輔相成。這次我的主題是關於我個人非常喜歡的自然語言處理,儘管內容沒有太多涉入當今的st...

鐵人賽 AI & Data DAY 29

技術 Day 29: 電腦怎麼知道「說」跟「曰」意義相近?關於文字相似度

總覽 今天我們要使用昨天說到的Lin similarity來計算字與字之間的相似度。我們將會使用Brown Corpus作為訓練文集,以及Wordnet中的文字...

鐵人賽 AI & Data DAY 28

技術 Day 28: 文字相似度- 語言學

當我們在進行字義分析時可能會遇到一種狀況: "This is a good movie." → :)"This is a gre...

鐵人賽 AI & Data DAY 27

技術 Day 27: 猜字AI加強版 -- Bigram Guesser

除了考慮字母出現的機率和在各種長度中各個字母出現的機率,今天我們也把字母的排列順序列入考量。例如,我們看到一個字 m _ s s,我們知道他有很高的機率會是母音...

鐵人賽 AI & Data DAY 26

技術 Day 26: N-Gram Smoothing 平滑方法

Day 24時結尾提到幾個存在的問題:「(1) 當文集資料量變大時,每個東西出現的機率會將得非常低,所得到的最終機率也會非常低;(2) 若是有個東西出現在文集的...

鐵人賽 AI & Data DAY 25

技術 Day 25: 三種AI猜字方法

第一種猜字方法:隨機猜字 為了設下一個基準,我們先設計一種AI方法--每次從26個字母中隨機選取一個字母來猜。這裡我先將26個字母存到 list 中,再用 nu...

鐵人賽 AI & Data DAY 24

技術 Day 24: Hangman猜字遊戲和訓練集處理

距離完成我的三十天鐵人賽剩下最後的七篇文章了。我打算用一個遊戲--Hangman猜字遊戲來結束這個系列。昨天說到語言模型,語言模型可以以字詞為單位作N-gram...

鐵人賽 AI & Data DAY 23

技術 Day 23: 語言是有跡可循的!關於語言模型

如同我們在Day 4講到自然語言生成時提到的,語言模型在做的就是將機率指向一個序列的文字。 語言模型有許多延伸的應用,例如:語音辨識、拼字檢查、機器翻譯、查詢...

鐵人賽 AI & Data DAY 22

技術 Day 22: 原來語言翻譯有四種程度?關於機器翻譯

雖然在現代,機器翻譯是個常見的功能(Google翻譯、Bing、...等),但事實上機器翻譯至今仍是個AI-hard的挑戰。 根據Vaquios三角形,翻譯被...

鐵人賽 AI & Data DAY 21

技術 Day 21: 讓電腦讀懂人類的提問!關於問答系統

問答系統是一個自動為一自然語言問題找出答案(組)的任務。 這是Google的問答系統(我也不知道為什麼Google會幫歐巴馬放上這張圖XD)。 我們能夠用資...