iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 15593 瀏覽

鐵人賽自我挑戰組 DAY 28

軟體開發隨筆雜記--試著解決問題系列第 27 篇

技術 [Python]如何Speech to Text: SpeechRecognition

https://pypi.org/project/SpeechRecognition/ pip3 install SpeechRecognition Coll...

KaliChen ‧ 2020-10-13

0 Like 0 留言 2124 瀏覽

鐵人賽自我挑戰組 DAY 24

軟體開發隨筆雜記--試著解決問題系列第 24 篇

技術 [Python][OpenCV]如何利用Tesserect OCR做翻譯器

借用google的翻譯功能 from googletrans import Translator 主模組參數設定 class tesserectOCR():...

KaliChen ‧ 2020-10-09

0 Like 0 留言 2827 瀏覽

鐵人賽自我挑戰組

軟體開發隨筆雜記--試著解決問題系列第 32 篇

技術 [Python][Arabic]陽春翻譯工具

參考使用源碼為以下:https://github.com/amrelarabi/English-Arbic-Translator程式一開始載入字典檔並初始化字典...

KaliChen ‧ 2020-11-05

0 Like 0 留言 2841 瀏覽

鐵人賽自我挑戰組 DAY 23

軟體開發隨筆雜記--試著解決問題系列第 23 篇

技術 [Python][OpenCV]如何利用Tesserect OCR做辨識

https://zh.wikipedia.org/wiki/Tesseracthttps://help.ubuntu.com/community/OCR imp...

KaliChen ‧ 2020-10-08

0 Like 0 留言 2632 瀏覽

技術如何在亞馬遜上數據採集並找到最暢銷的產品

毫無疑問，為了在亞馬遜上獲得可觀的利潤，選擇最佳的銷售產品至關重要。為了找出哪種產品賣得最好，我們需要進行產品研究以了解市場。在本文中，我將討論5個技巧，這些技...

erika ‧ 2020-06-11

10 Like 4 留言 2321 瀏覽

鐵人賽 AI & Data DAY 30

深入淺出搜尋引擎和自然語言處理系列第 30 篇

達標好文技術 Day 30: 總結、心得與展望

總結與心得本來想分兩個段落來寫總結和心得，只是寫著寫著發現，這兩個段落相輔相成。這次我的主題是關於我個人非常喜歡的自然語言處理，儘管內容沒有太多涉入當今的st...

丹尼爾胡 ‧ 2019-10-01

3 Like 0 留言 2344 瀏覽

鐵人賽 AI & Data DAY 29

深入淺出搜尋引擎和自然語言處理系列第 29 篇

技術 Day 29: 電腦怎麼知道「說」跟「曰」意義相近？關於文字相似度

總覽今天我們要使用昨天說到的Lin similarity來計算字與字之間的相似度。我們將會使用Brown Corpus作為訓練文集，以及Wordnet中的文字...

丹尼爾胡 ‧ 2019-09-30

3 Like 0 留言 3487 瀏覽

鐵人賽 AI & Data DAY 28

深入淺出搜尋引擎和自然語言處理系列第 28 篇

技術 Day 28: 文字相似度- 語言學

當我們在進行字義分析時可能會遇到一種狀況： "This is a good movie." → :)"This is a gre...

丹尼爾胡 ‧ 2019-09-29

1 Like 0 留言 2045 瀏覽

鐵人賽 AI & Data DAY 27

深入淺出搜尋引擎和自然語言處理系列第 27 篇

技術 Day 27: 猜字AI加強版 -- Bigram Guesser

除了考慮字母出現的機率和在各種長度中各個字母出現的機率，今天我們也把字母的排列順序列入考量。例如，我們看到一個字 m _ s s，我們知道他有很高的機率會是母音...

丹尼爾胡 ‧ 2019-09-28

2 Like 0 留言 5469 瀏覽

鐵人賽 AI & Data DAY 26

深入淺出搜尋引擎和自然語言處理系列第 26 篇

技術 Day 26: N-Gram Smoothing 平滑方法

Day 24時結尾提到幾個存在的問題：「(1) 當文集資料量變大時，每個東西出現的機率會將得非常低，所得到的最終機率也會非常低；(2) 若是有個東西出現在文集的...

丹尼爾胡 ‧ 2019-09-27

3 Like 0 留言 2077 瀏覽

鐵人賽 AI & Data DAY 25

深入淺出搜尋引擎和自然語言處理系列第 25 篇

技術 Day 25: 三種AI猜字方法

第一種猜字方法：隨機猜字為了設下一個基準，我們先設計一種AI方法--每次從26個字母中隨機選取一個字母來猜。這裡我先將26個字母存到 list 中，再用 nu...

丹尼爾胡 ‧ 2019-09-26

2 Like 0 留言 4369 瀏覽

鐵人賽 AI & Data DAY 24

深入淺出搜尋引擎和自然語言處理系列第 24 篇

技術 Day 24: Hangman猜字遊戲和訓練集處理

距離完成我的三十天鐵人賽剩下最後的七篇文章了。我打算用一個遊戲--Hangman猜字遊戲來結束這個系列。昨天說到語言模型，語言模型可以以字詞為單位作N-gram...

丹尼爾胡 ‧ 2019-09-25

4 Like 0 留言 4350 瀏覽

鐵人賽 AI & Data DAY 23

深入淺出搜尋引擎和自然語言處理系列第 23 篇

技術 Day 23: 語言是有跡可循的！關於語言模型

如同我們在Day 4講到自然語言生成時提到的，語言模型在做的就是將機率指向一個序列的文字。語言模型有許多延伸的應用，例如：語音辨識、拼字檢查、機器翻譯、查詢...

丹尼爾胡 ‧ 2019-09-24

7 Like 0 留言 3177 瀏覽

鐵人賽 AI & Data DAY 22

深入淺出搜尋引擎和自然語言處理系列第 22 篇

技術 Day 22: 原來語言翻譯有四種程度？關於機器翻譯

雖然在現代，機器翻譯是個常見的功能(Google翻譯、Bing、...等），但事實上機器翻譯至今仍是個AI-hard的挑戰。根據Vaquios三角形，翻譯被...

丹尼爾胡 ‧ 2019-09-23

4 Like 0 留言 2781 瀏覽

鐵人賽 AI & Data DAY 21

深入淺出搜尋引擎和自然語言處理系列第 21 篇

技術 Day 21: 讓電腦讀懂人類的提問！關於問答系統

問答系統是一個自動為一自然語言問題找出答案（組）的任務。這是Google的問答系統（我也不知道為什麼Google會幫歐巴馬放上這張圖XD）。我們能夠用資...

丹尼爾胡 ‧ 2019-09-22

2 Like 0 留言 2989 瀏覽

鐵人賽 AI & Data DAY 20

深入淺出搜尋引擎和自然語言處理系列第 20 篇

技術 Day 20: 從文章中獲取有用的資訊！關於資訊抽取

The president of the United States is Donald Trump. （美國總統是川普。）資訊抽取技術在看到這句話時，會...

丹尼爾胡 ‧ 2019-09-21

3 Like 0 留言 4298 瀏覽

鐵人賽 AI & Data DAY 19

深入淺出搜尋引擎和自然語言處理系列第 19 篇

技術 Day 19: AI能辨識專有名詞？關於命名實體辨識

過去12天都在講搜尋引擎技術和資訊檢索，這幾天要拉回來繼續介紹自然語言處理界的常見任務了！命名實體辨識(Named Entity Recognition)，顧...

丹尼爾胡 ‧ 2019-09-20

0 Like 0 留言 2719 瀏覽

鐵人賽 AI & Data DAY 3

由淺入深打造屬於自己的AI聊天機器人系列第 3 篇

技術 [Day3] 知名企業使用Dialogflow的案例

Dialogflow 官方列出的三大案例分享，分別是KLM航空，達美樂和Ticketmaster，這三間公司都是跨國企業，擁有相當龐大的產品客戶。三種案例也分...

shanachiang ‧ 2019-09-19

4 Like 0 留言 3393 瀏覽

鐵人賽 AI & Data DAY 18

深入淺出搜尋引擎和自然語言處理系列第 18 篇

技術 Day 18: 透過搜尋結果評估搜尋引擎的效果（二）

昨天說到使用三種統計方法來評估搜尋引擎，分別是準確率、精確率以及召回率。今天我們要接著說到幾個搜尋引擎的衡量指標。第一個方法稱為Precision@k，它衡量...

丹尼爾胡 ‧ 2019-09-19

3 Like 0 留言 2673 瀏覽

鐵人賽 AI & Data DAY 17

深入淺出搜尋引擎和自然語言處理系列第 17 篇

技術 Day 17: 透過搜尋結果評估搜尋引擎的效果（一）

今明兩天要來說說，我們可以如何判斷和評估一個搜尋引擎的效果。先從三個在統計學和機器學習領域基礎而重要的評估方式說起：準確率(Accuracy)、精確率(Pre...

丹尼爾胡 ‧ 2019-09-18

5 Like 0 留言 3137 瀏覽

鐵人賽 AI & Data DAY 16

深入淺出搜尋引擎和自然語言處理系列第 16 篇

技術 Day 16: Google搜尋時怎麼預測你的心？關於完成與擴展查詢

日常生活中，當我們在用搜尋引擎查詢時應該都經常受一個功能的輔助：預測查詢，或稱為完成查詢，顧名思義，這功能用於輔助使用者完成他們的查詢。完成查詢除了能輔助...

丹尼爾胡 ‧ 2019-09-17

5 Like 0 留言 2913 瀏覽

鐵人賽 AI & Data DAY 15

深入淺出搜尋引擎和自然語言處理系列第 15 篇

達標好文技術 Day 15: 神奇的法杖 - 提高效率的WAND演算法

今天我們要介紹用來提升查詢效率的WAND演算法。在這個演算法中我們會為每一個字詞記錄一個數值，這個數值稱為maximum contribution。一個字詞的...

丹尼爾胡 ‧ 2019-09-16

1 Like 1 留言 3636 瀏覽

鐵人賽 Google Developers Machine Learning DAY 2

我是高中生，我學ML和NLP 系列第 2 篇

技術【Day 02】ML x NLP懶人包

在「Google Developers Machine Learning」這個組別中可以說是相較其他組別較多人挑戰的題目之一。為了不希望自己寫的內容會和其他邦友...

skyhong2002 ‧ 2019-09-15

2 Like 0 留言 2393 瀏覽

鐵人賽 AI & Data DAY 14

深入淺出搜尋引擎和自然語言處理系列第 14 篇

技術 Day 14: 怎麼提高搜尋速度呢？關於效率搜尋

搜尋的速度是影響使用者對一個搜尋引擎體驗的一個因素，對於活在2019的你來說，很難想像在Google Search時你要等兩秒（不包含網路封包傳送的時間）才能等...

丹尼爾胡 ‧ 2019-09-15

3 Like 0 留言 2314 瀏覽

鐵人賽 AI & Data DAY 13

深入淺出搜尋引擎和自然語言處理系列第 13 篇

技術 Day 13: 可是資料是不斷增加的啊！關於動態索引建構

這幾天我們都在「靜態」的情況下建構倒排索引，文集中的文件數不變、空間使用不會有太大變化，也沒有及時新增或修改。即便如此，要建構這樣的靜態索引還是可能會出現一些難...

丹尼爾胡 ‧ 2019-09-14

6 Like 0 留言 2575 瀏覽

鐵人賽 AI & Data DAY 12

深入淺出搜尋引擎和自然語言處理系列第 12 篇

技術 Day 12: 親手寫個檢索系統吧（三）索引壓縮

今天我們要來實作倒排索引的空間壓縮。這裡我們會利用昨天文中介紹的VByte壓縮法壓縮倒排索引中的文件ID doc_ids 以及文件-詞頻列表 doc_term_...

丹尼爾胡 ‧ 2019-09-13

2 Like 0 留言 2707 瀏覽

鐵人賽 AI & Data DAY 11

深入淺出搜尋引擎和自然語言處理系列第 11 篇

技術 Day 11: Google要如何儲存成千上萬個網站的位置？關於索引壓縮

如同我們前幾天所寫的倒排索引，多數搜尋引擎為了查詢的效率，會將索引儲存在記憶體當中。如此，需要足夠的記憶體才能夠將所有索引儲存起來。如果我們能夠從索引的資料型態...

丹尼爾胡 ‧ 2019-09-12

7 Like 1 留言 12116 瀏覽

鐵人賽 AI & Data DAY 10

深入淺出搜尋引擎和自然語言處理系列第 10 篇

達標好文技術 Day 10: TF-IDF 文件加權與實作

在搜尋技術中TF-IDF是個很基礎而重要的統計方式。什麼是TF-IDF呢？而又為什麼需要TF-IDF？ TF-IDF的全名是Term Frequency - I...

丹尼爾胡 ‧ 2019-09-11

6 Like 1 留言 4250 瀏覽

鐵人賽 AI & Data DAY 9

深入淺出搜尋引擎和自然語言處理系列第 9 篇

達標好文技術 Day 9: 親手寫個檢索系統吧（二）倒排索引

1. 預處理今天的實作我們會使用華爾街日報的的文件集，我有預先將文件集切割成只有兩萬份文件的集合，這份文件集能夠從以下的code中下載。在今天的實作中，我們會...

丹尼爾胡 ‧ 2019-09-10

5 Like 0 留言 4528 瀏覽

鐵人賽 AI & Data DAY 8

深入淺出搜尋引擎和自然語言處理系列第 8 篇

技術 Day 8: 認識文件矩陣以及索引的建立

在Day 6的文章中，我們說到在進行搜尋時，我們首要關心的是查詢的詞與文件間的相似度。我用一個例子作為開端：假如我們有三個檔案，分別叫做doc1, doc2以及...

丹尼爾胡 ‧ 2019-09-09