iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

1 Like 0 留言 1419 瀏覽

鐵人賽 AI & Data DAY 15

讓電腦聽懂人話：30 天 NLP 入門系列第 15 篇

技術 Day 15｜用機率猜猜看：Naive Bayes

引言大家可能會跟我有一樣的經驗，就是每天出門前都會糾結一個問題：「今天要不要帶傘？」帶傘的話，包包變好重；不帶的話，下雨就慘了...（但是身為政大的學生，包包...

張美珠 ‧ 2025-09-29 ‧團隊美珠姨

1 Like 0 留言 1851 瀏覽

鐵人賽 AI & Data DAY 13

讓電腦聽懂人話：30 天 NLP 入門系列第 13 篇

技術 Day 13｜語境中的向量：Contextual Embedding

引言昨天我們介紹 Word2Vec，學會了怎麼把文字變成語意向量。但這只是用數字來表示語意的第一步！語意可是比你想得更複雜許多～～還記得我們在本系列的第二篇...

張美珠 ‧ 2025-09-27 ‧團隊美珠姨

2 Like 0 留言 1978 瀏覽

鐵人賽 AI & Data DAY 12

讓電腦聽懂人話：30 天 NLP 入門系列第 12 篇

技術 Day 12｜語意向量：Word2Vec

引言在前幾篇的內容中，介紹了 Bag-of-Words 與 TF-IDF，這些把文本轉成向量的方法，但因為他們是用「詞頻統計」的方式，所以屬於稀疏向量（sp...

張美珠 ‧ 2025-09-26 ‧團隊美珠姨

1 Like 0 留言 1506 瀏覽

鐵人賽 AI & Data DAY 11

讓電腦聽懂人話：30 天 NLP 入門系列第 11 篇

技術 Day 11｜文本中的重點詞：TF-IDF

引言前一篇我們談了 Bag-of-Words (BoW)，用統計詞頻的方式，把文本轉換成向量。不過 BoW 有一個問題，單純統計詞頻的方式，會看到一些常見詞（...

張美珠 ‧ 2025-09-25 ‧團隊美珠姨

1 Like 0 留言 1550 瀏覽

鐵人賽 AI & Data DAY 10

讓電腦聽懂人話：30 天 NLP 入門系列第 10 篇

技術 Day 10｜基礎文字特徵：Bag-of-Words（BoW）

引言在前一天的內容，我們了解了向量（vector）與 embedding 的概念，知道文字必須轉換成數字，才能讓電腦理解與運算。今天我們要介紹 Bag-of...

張美珠 ‧ 2025-09-24 ‧團隊美珠姨

1 Like 0 留言 619 瀏覽

鐵人賽 AI & Data DAY 9

讓電腦聽懂人話：30 天 NLP 入門系列第 9 篇

技術 Day 9｜從文字到數字：Vector 與 Embedding 的基本概念

引言我們知道電腦無法像人一樣直接理解文字。要讓電腦「看懂」文字，我們必須先把文字轉換成數字的形式，才能進行後續的分析或建模。在主題三：特徵與表示中，我會...

張美珠 ‧ 2025-09-23 ‧團隊美珠姨

1 Like 0 留言 662 瀏覽

鐵人賽 AI & Data DAY 8

讓電腦聽懂人話：30 天 NLP 入門系列第 8 篇

技術 Day 8｜詞性標註（POS Tagging）概念與實作（jieba、CKIP Tagger、spaCy）

引言詞性標註 Part-of-Speech (POS) tagging 是 NLP 中非常基礎和重要的任務。POS tagging 的目的是為每個詞語標上它的...

張美珠 ‧ 2025-09-22 ‧團隊美珠姨

1 Like 0 留言 1273 瀏覽

鐵人賽 AI & Data DAY 7

讓電腦聽懂人話：30 天 NLP 入門系列第 7 篇

技術 Day 7｜斷詞（下）：中文斷詞工具實作（jieba、CKIP Tagger、spaCy）

引言昨天我們談到 Tokenization 跟 Segmentation 的差異，知道了拆文字有很多種方式：字、詞、子詞。在中文裡，因為是以字（Charact...

張美珠 ‧ 2025-09-21 ‧團隊美珠姨

2 Like 0 留言 575 瀏覽

鐵人賽 AI & Data DAY 6

讓電腦聽懂人話：30 天 NLP 入門系列第 6 篇

技術 Day 6｜斷詞（上）：Tokenization / Segmentation?

引言接下來要來介紹的是 NLP 中，不可或缺的「斷詞」，也可以說「分詞」！但今天我們不做程式的實作，而是先釐清兩個常見，但可能會有點小混淆的概念：Tokeni...

張美珠 ‧ 2025-09-20 ‧團隊美珠姨

0 Like 0 留言 1216 瀏覽

鐵人賽 AI & Data DAY 16

感知你的動作與情緒：深度學習在人機互動的應用系列第 16 篇

技術 Day 16 | 為什麼你的語氣，AI 聽得懂了？淺談 NLP 與語氣分析

前言我們常說「同一句話，不同語氣差很多」。在客服、教學助理、語音助理或社群平台上，系統若只「看懂字面意思」而忽略語氣，回覆就容易失禮或不合時宜。那麼，AI 到...

minsnow ‧ 2025-09-18

1 Like 0 留言 421 瀏覽

鐵人賽 AI & Data DAY 5

讓電腦聽懂人話：30 天 NLP 入門系列第 5 篇

技術 Day 5｜文本清理（下）：Regex 應用

引言在前一天的內容，我們談到了 Regex 是一套怎樣的規則，以及它是如何用來匹配文字。前一天內容傳送門🚪 但是光知道規則還不夠，我們需要工具來操作這些規則，...

張美珠 ‧ 2025-09-19 ‧團隊美珠姨

1 Like 0 留言 475 瀏覽

鐵人賽 AI & Data DAY 4

讓電腦聽懂人話：30 天 NLP 入門系列第 4 篇

技術 Day 4｜文本清理（上）：Regex 介紹

引言近年來 Thread 是個很流行的社群媒體，相信大家在滑脆的時候應該會覺得密密麻麻的文字，看得非常眼花撩亂... 有的貼文會參雜很多表情符號 😘🤡💅🏻...

張美珠 ‧ 2025-09-18 ‧團隊美珠姨

1 Like 0 留言 439 瀏覽

鐵人賽 AI & Data DAY 3

讓電腦聽懂人話：30 天 NLP 入門系列第 3 篇

技術 Day 3｜NLP 應用概覽

引言下圖是一則電影評論的留言，大家乍看之下，會覺得這是一則好評還是負評呢？圖片來源：Dcard 即便是我們看這則評論，在缺乏上下文的情況下，可能也會覺得有點難...

張美珠 ‧ 2025-09-17 ‧團隊美珠姨

1 Like 0 留言 525 瀏覽

鐵人賽 AI & Data DAY 2

讓電腦聽懂人話：30 天 NLP 入門系列第 2 篇

技術 Day 2｜文字探勘（Text Mining）的挑戰

引言在這個數位化、大數據的時代，大家應該多多少少有有聽過資料探勘（Data Minig），當我們想到「資料」，通常第一直覺可能是想到數字或表格，整整齊齊地躺...

張美珠 ‧ 2025-09-16 ‧團隊美珠姨

1 Like 1 留言 580 瀏覽

鐵人賽 AI & Data DAY 1

讓電腦聽懂人話：30 天 NLP 入門系列第 1 篇

技術 Day 1｜什麼是自然語言處理？

引言升大四那年暑假在思考著人生的下一步時，偶然接觸到了「自然語言處理 NLP」這個 fancy 的名詞。當時一方面是被「外文系也能跟 AI 扯上關係」的噱頭燒...

張美珠 ‧ 2025-09-15 ‧團隊美珠姨

1 Like 1 留言 4271 瀏覽

鐵人賽 AI/ ML & Data DAY 30

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 30 篇

技術 [Day 30]告別複雜巨獸 - 一起看第八名的小清新解法與IT鐵人賽後回望

前面介紹的方法又是擴增一堆訓練數據集，又是 ensemble 一堆不同架構、不同訓練方法的模型，真的心滿累的。所以，今天要跟大家分享的是本次賽題第八名的作法，...

壓縮甜 ‧ 2024-10-14

1 Like 0 留言 3524 瀏覽

鐵人賽 AI/ ML & Data DAY 29

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 29 篇

技術 [Day 29]模型與資料的超級 ensemble 體 - 淺談 Curriculum Learning 訓練方法與 Ghostbuster (捉鬼人)如何識別 AI 和人類作文

今天來學習一下第一名和第三名包山包海的 ensemble 大法。 🥇1st Solution 第一名的解法不愧是第一名，他們真的花好多 effort 在解這個賽...

壓縮甜 ‧ 2024-10-13

1 Like 0 留言 3283 瀏覽

鐵人賽 AI/ ML & Data DAY 28

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 28 篇

技術 [Day 28]不講武德的Host-不能太倚賴錯字率，一起看第二名「復刻米其林三星料理式」的資料擴增法，與「雞蛋放兩籃」的 ensemble 思路

我很喜歡今天介紹的第二名的 solution，在研究的時候有一種「啊哈moment」的快樂。昨天我們分享將文章轉成 TF-IDF 向量後送進 Logisti...

壓縮甜 ‧ 2024-10-12

1 Like 0 留言 3632 瀏覽

鐵人賽 AI/ ML & Data DAY 27

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 27 篇

技術 [Day 27]照妖(AI)鏡下的秘密-利用TF-IDF、BPE編碼、Kmeans Cluster和DetectGPT技術區分人類與AI寫作

標題提到一堆技術名詞...別擔心，今天都會串起來，像一個偵探故事一樣，每種技術都是線索，幫助我們揪出到底誰找 AI 當槍手。👀 前言昨天我們聊到僅用「錯字率」...

壓縮甜 ‧ 2024-10-11

1 Like 0 留言 2485 瀏覽

鐵人賽 AI/ ML & Data DAY 26

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 26 篇

技術 [Day 26]"是人是AI，一照便知" - 沒想到最終能找出LLM槍手的原因，是因為LLM太完美了?!

自從2023年大型語言模型如ChatGPT火起來後，這些AI不僅能寫出幾乎和人一樣的文章，還開始影響學生的學習方式。雖然這讓寫作業變得簡單了，但也可能讓學生們...

壓縮甜 ‧ 2024-10-10

1 Like 0 留言 850 瀏覽

鐵人賽 AI/ ML & Data DAY 21

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 21 篇

技術 [Day 21]不爭了！小孩才做選擇，大人全都要！淺談 Hybrid 架構驅動的 RAG Pipeline 建置與賽題大補帖！

今天會在分析眾多優秀解法後，從本次賽題的經驗，總結建立一個 RAG 系統最重要的幾個要點。 📢 作者有話要說：(10/5更新)我在 Day 20 補充第五名的多...

壓縮甜 ‧ 2024-10-05

3 Like 0 留言 1553 瀏覽

鐵人賽 AI/ ML & Data DAY 20

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 20 篇

技術 [Day20]Encoder-only 與 Decoder-only 的路線之爭？淺談 Decoder-only 架構驅動的 RAG Pipeline 建置

[Day16]我們討論了本次賽題的兩種 baseline 的作法，一種是訓練 deberta 做 Multi-Class 或者是 Multi-Label 的任務...

壓縮甜 ‧ 2024-10-04

1 Like 0 留言 7112 瀏覽

鐵人賽 AI/ ML & Data DAY 19

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 19 篇

技術 [Day 19]Data-Model-Model Training! 淺談如何在有限的資源上高效地訓練LLM

今天會帶大家使用 unsloth 這個好用的 library ，在單張消費級顯卡上微調自己的大語言模型🚀🚀！前情提要 Day 17我們結合多種不同資料來源與技...

壓縮甜 ‧ 2024-10-03

1 Like 0 留言 6504 瀏覽

鐵人賽 AI/ ML & Data DAY 18

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 18 篇

技術 [Day18]🧐如何選擇適合特定任務的 LLM？深入分析評測 LLM 常用的 Benchmark 與 Leaderboard

近一兩年，不管是開源或閉源，全世界的大模型競賽已呈現出白熱化的局面，市場上湧現出數量眾多的模型。各大實驗室和企業大廠不僅注重模型參數、效能的提升，還常在宣傳中強...

壓縮甜 ‧ 2024-10-02

1 Like 0 留言 2078 瀏覽

鐵人賽 AI/ ML & Data DAY 17

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 17 篇

技術 [Day 17]🧐如何利用LLM生成High Quality的增強版訓練數據集？

如何產生一個優質的 dataset 來增強訓練？生成優質的資料集需要考慮哪些事情呢？昨天我們介紹這個比賽的時候，有提到主辦方只給我們少量的訓練資料(20...

壓縮甜 ‧ 2024-10-01

0 Like 0 留言 506 瀏覽

鐵人賽 AI/ ML & Data DAY 20

軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹 系列第 20 篇

技術 Day20: 使用Flask來架設自己的TOD Chatbot互動網站

我們在【Day17:TOD版的DialoGPT-ConvLab實作】介紹如何建構一個TOD對話系統，那今天我們來續講如何利用ConvLab-3來架設一個互動網站...

渴望脫魯的SWE ‧ 2024-10-04

1 Like 0 留言 1069 瀏覽

鐵人賽 AI/ ML & Data DAY 16

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 16 篇

技術 [Day 16]輕量級模型能否在複雜科學問題上追平ChatGPT呢？- OOM了怎麼辦？淺談 LLM 分層加載技術（layer-wise loading）、Perplexity 與 RAG 策略

在霓虹閃爍的賽博朋克城市深處，隱藏著一個不為人知的秘密競技場。這裡不再有血肉之軀的戰鬥，而是智能模型之間的對決。在這個地下世界里，參賽者們扮演著勇敢的戰士，...

壓縮甜 ‧ 2024-09-30

1 Like 0 留言 1500 瀏覽

鐵人賽 AI/ ML & Data DAY 15

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 15 篇

技術 [Day 15]🧟成為特級LLM咒言師的第四天 - 為什麼"lucrarea"咒語會這麼強大？一些實驗設計與思考 - 淺談文本對抗攻擊(Adversarial Attack)實作篇

昨天提到第一名利用 T5-base 模型的弱點，在提交的 prompt 後面瘋狂重複"lucrarea"這個神秘咒語，就能有效提高自身和正確...

壓縮甜 ‧ 2024-09-29

1 Like 0 留言 2371 瀏覽

鐵人賽 AI/ ML & Data DAY 14

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 14 篇

技術 [Day14]🧟成為特級LLM咒言師的第三天 - All you need is just "lucrarea" ：淺談文本對抗攻擊(Adversarial Attack)原理篇

對圖像做 adversarial attack 可能你已經很熟悉了，今天帶大家來看看怎麼對文本做對抗攻擊。第一名的 solution 就使用到 adversar...

壓縮甜 ‧ 2024-09-28

1 Like 0 留言 1440 瀏覽

鐵人賽 AI/ ML & Data DAY 13

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 13 篇

技術 [Day 13]🧟成為特級LLM咒言師的第二天 - 找 Mean Prompt 不用那麼麻煩：分佈相似度驅動的Mean Prompt優化

不知道你會不會覺得，昨天介紹的解法中，第一步「不斷迭代 mean prompt 以優化這個 prompt」，需要每做1個或n個對 token 的操作，就上傳到...

壓縮甜 ‧ 2024-09-27