iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

讓電腦聽懂人話:30 天 NLP 入門 系列

說到「資料」,我們腦中常常浮現的都是一串串的數字,但你有沒有想過文字也是一種資料?
電腦的世界充滿著 01001 ,那它又是怎麼「讀懂」我們所說的話呢?

這個系列將從一個語言學學生的角度出發,帶你走進一個文科與理科交會的奇妙領域 —— 自然語言處理(Natural Language Processing)
用輕鬆科普的方式來聊 NLP 的基礎概念、經典方法與應用場景,希望讓毫無程式背景的小白也能一起理解!

鐵人鍊成 | 共 30 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文 團隊美珠姨
DAY 21

Day 21|模型的記憶力:RNN

引言 在前一天的文章裡,我們實作了一個最簡單的前饋神經網路(Feedforward Neural Network, FNN)。我們先把整段文字轉換成詞向量,然後...

2025-10-05 ‧ 由 張美珠 分享
DAY 22

Day 22|長短期記憶:LSTM

引言 圖片來源:https://www.reddit.com/r/machinelearningmemes/comments/gqz1dw/big_mistak...

2025-10-06 ‧ 由 張美珠 分享
DAY 23

Day 23|注意力機制:Transformer

引言 想像你走進一個大型超市要買新鮮的番茄 🍅。菜架上擺滿了上百種蔬果,如果你用 RNN 或是 LSTM 那樣的序列模型的方法找,你就會是一層一層貨架這樣依序慢...

2025-10-07 ‧ 由 張美珠 分享
DAY 24

Day 24|生成式大型語言模型:GPT 怎麼生成文字

引言 當 ChatGPT 剛問世時,大家是不是都被它震驚到了?電腦居然能生成這麼自然、這麼像人講的文字!而且隨著 OpenAI 推出越來越多升級版,它似乎也變得...

2025-10-08 ‧ 由 張美珠 分享
DAY 25

Day 25|上下文學習(In-Context Learning)與 Prompt 設計

引言 我們今天要談的主題是要怎麼讓 AI 理解你!想像一個情境是,你想要你的朋友幫你做一件事。如果你只說一句「幫我寫報告」,他根本不會知道你想要什麼內容、怎樣的...

2025-10-09 ‧ 由 張美珠 分享
DAY 26

Day 26|檢索增強生成 RAG(Retrieval-Augmented Generation)概念介紹

引言 大家有沒有遇過這種情況,就是你問 GPT 一些文獻要怎麼找,結果它開始亂丟一堆研究給你,講得天花亂墜,但大部分它說的文獻根本就不存在 😭有時候,當 LLM...

2025-10-10 ‧ 由 張美珠 分享
DAY 27

Day 27|RAG Step 1:Chunking、向量資料庫

引言 打造我們的 RAG 系統的第一步就是要先處理好我們知識的來源:「資料庫」! 今天的內容是要建立一個能用 語意搜尋 的資料庫,也就是 向量資料庫(Vecto...

2025-10-11 ‧ 由 張美珠 分享
DAY 28

Day 28|RAG Step 2:Retrieval 向量檢索

引言 在上一篇的內容中,我們把所有文章切成小段落(chunk),再用 BGE-M3 轉成向量,存進 Qdrant,完成了我們的 知識向量資料庫。前一篇傳送門🚪...

2025-10-12 ‧ 由 張美珠 分享
DAY 29

Day 29|RAG Step 3:Reranking 重排序

引言 上一篇我們用向量檢索找出了幾個相似的 chunk。但有時候即使找到了 top_k 的候選文件,相關性的排序也還不是最完美的。有些內容雖然有相關,但對回答問...

2025-10-13 ‧ 由 張美珠 分享
DAY 30

Day 30|RAG Step 4:Generation、網頁展示

引言 前面三天我們一步步完成了資料前處理、建立向量資料庫、向量檢索、重排序,今天終於要進入最後一塊拼圖:生成(Generation),也就是讓 LLM 把前面找...

2025-10-14 ‧ 由 張美珠 分享