何謂語言學? 在整個語言學與自然語言處理 NLP (Natural Language Processing)的旅程開始之前,想要先和大家聊聊何謂語言學。其實,大...
先複習一下自然語言處理(NLP)在做什麼~ NLP 是計算機科學、計算語言學以及人工智慧的子領域,主要目的為如何讓計算機處理並分析大量人類的自然語言資料與數據。...
相信大家讀完前兩篇的內容後,對於自然語言處理都已經有些基本的認識。接下來,在執行 NLP 操作以及在實際進入 code 之前,讓我們一起來理解 NLP 任務的執...
延續昨天講解的 pre-processing 步驟,另一項重要的步驟就是斷詞(tokenization)。在網路爬蟲取得語料之後,先用前一篇提到的 regula...
熟悉一個程式語言,非常重要的一點就是了解它的資料型態。在進行語料處理與 NLP 任務時也會遇到各式各樣的資料型態,有時候為了使用特定的模型來訓練資料也會需要把資...
今天要介紹的資料型態分別是 list、matrix 和 data frame。這三種資料型態主要的功能就是將資料排列成結構狀。首先就從 list 開始吧! li...
今天主要介紹 NLP 任務中常用的統計方法。大家是否會覺得很神奇,明明主要是處理文字,為什麼在 NLP 中會用到統計方法呢?其實是因為 NLP 涵蓋的研究範圍很...
看到今天的標題應該知道要做什麼了吧?是的~就是將資料整理,並以圖表呈現的「資料視覺化」(data visualization)。資料視覺化是資料呈現的一種非常重...
什麼是文字雲呢? 文字雲(Word Cloud),顧名思義就是很多很多的文字匯集成像雲朵一樣的形狀。想必大家對這項視覺化的產物都不陌生吧?那麼,文字雲有什麼好處...
今天要帶大家認識 R 語言的迴圈寫法。可能大家聽到 loop 都會有一點懼怕,覺得是比較複雜的程式語言。的確,寫 loop 是非常考驗邏輯的一件事,我自己初學程...