iT邦幫忙

nlp相關文章
共有 132 則文章
鐵人賽 AI & Data DAY 8

技術 Day 8|詞性標註(POS Tagging)概念與實作(jieba、CKIP Tagger、spaCy)

引言 詞性標註 Part-of-Speech (POS) tagging 是 NLP 中非常基礎和重要的任務。POS tagging 的目的是為每個詞語標上它的...

鐵人賽 AI & Data DAY 7

技術 Day 7|斷詞(下):中文斷詞工具實作(jieba、CKIP Tagger、spaCy)

引言 昨天我們談到 Tokenization 跟 Segmentation 的差異,知道了拆文字有很多種方式:字、詞、子詞。在中文裡,因為是以字(Charact...

鐵人賽 AI & Data DAY 6

技術 Day 6|斷詞(上):Tokenization / Segmentation?

引言 接下來要來介紹的是 NLP 中,不可或缺的「斷詞」,也可以說「分詞」!但今天我們不做程式的實作,而是先釐清兩個常見,但可能會有點小混淆的概念:Tokeni...

鐵人賽 AI & Data DAY 16

技術 Day 16 | 為什麼你的語氣,AI 聽得懂了?淺談 NLP 與語氣分析

前言 我們常說「同一句話,不同語氣差很多」。在客服、教學助理、語音助理或社群平台上,系統若只「看懂字面意思」而忽略語氣,回覆就容易失禮或不合時宜。那麼,AI 到...

鐵人賽 AI & Data DAY 5

技術 Day 5|文本清理(下):Regex 應用

引言 在前一天的內容,我們談到了 Regex 是一套怎樣的規則,以及它是如何用來匹配文字。前一天內容傳送門🚪 但是光知道規則還不夠,我們需要工具來操作這些規則,...

鐵人賽 AI & Data DAY 4

技術 Day 4|文本清理(上):Regex 介紹

引言 近年來 Thread 是個很流行的社群媒體,相信大家在滑脆的時候應該會覺得密密麻麻的文字,看得非常眼花撩亂... 有的貼文會參雜很多表情符號 😘🤡💅🏻...

鐵人賽 AI & Data DAY 3

技術 Day 3|NLP 應用概覽

引言 下圖是一則電影評論的留言,大家乍看之下,會覺得這是一則好評還是負評呢?圖片來源:Dcard 即便是我們看這則評論,在缺乏上下文的情況下,可能也會覺得有點難...

鐵人賽 AI & Data DAY 2

技術 Day 2|文字探勘(Text Mining)的挑戰

引言 在這個數位化、大數據的時代,大家應該多多少少有有聽過 資料探勘(Data Minig),當我們想到「資料」,通常第一直覺可能是想到數字或表格,整整齊齊地躺...

鐵人賽 AI & Data DAY 1

技術 Day 1|什麼是自然語言處理?

引言 升大四那年暑假在思考著人生的下一步時,偶然接觸到了「自然語言處理 NLP」這個 fancy 的名詞。當時一方面是被「外文系也能跟 AI 扯上關係」的噱頭燒...

鐵人賽 AI/ ML & Data DAY 30

技術 [Day 30]告別複雜巨獸 - 一起看第八名的小清新解法與IT鐵人賽後回望

前面介紹的方法又是擴增一堆訓練數據集,又是 ensemble 一堆不同架構、不同訓練方法的模型,真的心滿累的。 所以,今天要跟大家分享的是本次賽題第八名的作法,...

鐵人賽 AI/ ML & Data DAY 29

技術 [Day 29]模型與資料的超級 ensemble 體 - 淺談 Curriculum Learning 訓練方法與 Ghostbuster (捉鬼人)如何識別 AI 和人類作文

今天來學習一下第一名和第三名包山包海的 ensemble 大法。 🥇1st Solution 第一名的解法不愧是第一名,他們真的花好多 effort 在解這個賽...

鐵人賽 AI/ ML & Data DAY 27

技術 [Day 27]照妖(AI)鏡下的秘密-利用TF-IDF、BPE編碼、Kmeans Cluster和DetectGPT技術區分人類與AI寫作

標題提到一堆技術名詞...別擔心,今天都會串起來,像一個偵探故事一樣,每種技術都是線索,幫助我們揪出到底誰找 AI 當槍手。👀 前言 昨天我們聊到僅用「錯字率」...

鐵人賽 AI/ ML & Data DAY 26

技術 [Day 26]"是人是AI,一照便知" - 沒想到最終能找出LLM槍手的原因,是因為LLM太完美了?!

自從2023年大型語言模型如ChatGPT火起來後,這些AI不僅能寫出幾乎和人一樣的文章,還開始影響學生的學習方式。雖然這讓寫作業變得簡單了,但也可能讓學生們...

鐵人賽 AI/ ML & Data DAY 21

技術 [Day 21]不爭了!小孩才做選擇,大人全都要!淺談 Hybrid 架構驅動的 RAG Pipeline 建置與賽題大補帖!

今天會在分析眾多優秀解法後,從本次賽題的經驗,總結建立一個 RAG 系統最重要的幾個要點。 📢 作者有話要說:(10/5更新)我在 Day 20 補充第五名的多...

鐵人賽 AI/ ML & Data DAY 20

技術 [Day20]Encoder-only 與 Decoder-only 的路線之爭?淺談 Decoder-only 架構驅動的 RAG Pipeline 建置

[Day16]我們討論了本次賽題的兩種 baseline 的作法,一種是訓練 deberta 做 Multi-Class 或者是 Multi-Label 的任務...

鐵人賽 AI/ ML & Data DAY 19

技術 [Day 19]Data-Model-Model Training! 淺談如何在有限的資源上高效地訓練LLM

今天會帶大家使用 unsloth 這個好用的 library ,在單張消費級顯卡上微調自己的大語言模型🚀🚀! 前情提要 Day 17我們結合多種不同資料來源與技...

鐵人賽 AI/ ML & Data DAY 18

技術 [Day18]🧐如何選擇適合特定任務的 LLM?深入分析評測 LLM 常用的 Benchmark 與 Leaderboard

近一兩年,不管是開源或閉源,全世界的大模型競賽已呈現出白熱化的局面,市場上湧現出數量眾多的模型。各大實驗室和企業大廠不僅注重模型參數、效能的提升,還常在宣傳中強...

鐵人賽 AI/ ML & Data DAY 17

技術 [Day 17]🧐如何利用LLM生成High Quality的增強版訓練數據集?

如何產生一個優質的 dataset 來增強訓練? 生成優質的資料集需要考慮哪些事情呢? 昨天我們介紹這個比賽的時候,有提到主辦方只給我們少量的訓練資料(20...

鐵人賽 AI/ ML & Data DAY 20

技術 Day20: 使用Flask來架設自己的TOD Chatbot互動網站

我們在【Day17:TOD版的DialoGPT-ConvLab實作】介紹如何建構一個TOD對話系統,那今天我們來續講如何利用ConvLab-3來架設一個互動網站...

鐵人賽 AI/ ML & Data DAY 16

技術 [Day 16]輕量級模型能否在複雜科學問題上追平ChatGPT呢?- OOM了怎麼辦?淺談 LLM 分層加載技術(layer-wise loading)、Perplexity 與 RAG 策略

在霓虹閃爍的賽博朋克城市深處,隱藏著一個不為人知的秘密競技場。這裡不再有血肉之軀的戰鬥,而是智能模型之間的對決。 在這個地下世界里,參賽者們扮演著勇敢的戰士,...

鐵人賽 AI/ ML & Data DAY 14

技術 [Day14]🧟成為特級LLM咒言師的第三天 - All you need is just "lucrarea" :淺談文本對抗攻擊(Adversarial Attack)原理篇

對圖像做 adversarial attack 可能你已經很熟悉了,今天帶大家來看看怎麼對文本做對抗攻擊。第一名的 solution 就使用到 adversar...

鐵人賽 AI/ ML & Data DAY 13

技術 [Day 13]🧟成為特級LLM咒言師的第二天 - 找 Mean Prompt 不用那麼麻煩:分佈相似度驅動的Mean Prompt優化

不知道你會不會覺得,昨天介紹的解法中,第一步「不斷迭代 mean prompt 以優化這個 prompt」,需要每做1個或n個對 token 的操作,就上傳到...

鐵人賽 AI/ ML & Data DAY 12

技術 [Day 12]🧟成為特級LLM咒言師的第一天 - 你找得到最優 Mean Prompt 嗎 ?從 text2text 到 vec2text

大家應該都很習慣跟LLM聊天時,輸入文字然後 LLM 就會輸出文字的這個 text2(to)text 的過程。今天要教大家怎麼操作向量空間中的 embeddin...

鐵人賽 AI/ ML & Data DAY 11

技術 [Day 11]🧟你是個準一級LLM咒言師嗎?-淺談 prompt 逆向工程

有時候,大型語言模型(LLM)並不總是按照我們的意願工作。馬上12點快到了,你可能希望chatgpt趕快將一篇你正在寫的鐵人賽文章改寫得生動有趣、增加觸及,但...

鐵人賽 AI/ ML & Data DAY 10

技術 [Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法:Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...

鐵人賽 AI/ ML & Data DAY 9

技術 [Day 9] Data "Diversity" is King! 運用 LLM 和 Meta Pseudo Labeling 擴增數據集, 佐以 DeBERTa 和 LBGM 的多模態策略

今天會帶大家一步一步解析本賽題第一名🥇的思路🤩,在過程中可以學到如何使用 LLM 生成 high quality 的假資料,並用 Meta pseudo lab...

鐵人賽 AI/ ML & Data DAY 8

技術 [Day 8]別著急訓練模型,挖掘好用的 feature 是成功的一半: 結合 EDA 實戰演練(下)與 LGBM 模型,一起打一套組合拳吧!

前情提要 昨天我們提出訓練資料中那 426 筆超低分的 data ,可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。 我們今天要透過回答下面這三個問題來...

鐵人賽 AI/ ML & Data DAY 7

技術 [Day 7]別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(中)- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...