iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2 Like 1 留言 899 瀏覽

鐵人賽 AI/ ML & Data DAY 12

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 12 篇

技術 [Day 12]🧟成為特級LLM咒言師的第一天 - 你找得到最優 Mean Prompt 嗎？從 text2text 到 vec2text

大家應該都很習慣跟LLM聊天時，輸入文字然後 LLM 就會輸出文字的這個 text2(to)text 的過程。今天要教大家怎麼操作向量空間中的 embeddin...

壓縮甜 ‧ 2024-09-26

2 Like 0 留言 2171 瀏覽

鐵人賽 AI/ ML & Data DAY 11

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 11 篇

技術 [Day 11]🧟你是個準一級LLM咒言師嗎？-淺談 prompt 逆向工程

有時候，大型語言模型（LLM）並不總是按照我們的意願工作。馬上12點快到了，你可能希望chatgpt趕快將一篇你正在寫的鐵人賽文章改寫得生動有趣、增加觸及，但...

壓縮甜 ‧ 2024-09-25

1 Like 0 留言 845 瀏覽

鐵人賽 AI/ ML & Data DAY 10

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 10 篇

技術 [Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法：Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後，看到第二名的做法真的會眼前一亮🤩，而且是絕對可以低成本偷學帶到其他賽題繼續使用的！我們直接切入正題： 🥈 2nd Solution 第二...

壓縮甜 ‧ 2024-09-24

1 Like 0 留言 1003 瀏覽

鐵人賽 AI/ ML & Data DAY 9

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 9 篇

技術 [Day 9] Data "Diversity" is King! 運用 LLM 和 Meta Pseudo Labeling 擴增數據集, 佐以 DeBERTa 和 LBGM 的多模態策略

今天會帶大家一步一步解析本賽題第一名🥇的思路🤩，在過程中可以學到如何使用 LLM 生成 high quality 的假資料，並用 Meta pseudo lab...

壓縮甜 ‧ 2024-09-23

1 Like 0 留言 729 瀏覽

鐵人賽 AI/ ML & Data DAY 8

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 8 篇

技術 [Day 8]別著急訓練模型，挖掘好用的 feature 是成功的一半: 結合 EDA 實戰演練（下）與 LGBM 模型，一起打一套組合拳吧！

前情提要昨天我們提出訓練資料中那 426 筆超低分的 data ，可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。我們今天要透過回答下面這三個問題來...

壓縮甜 ‧ 2024-09-22

1 Like 0 留言 1128 瀏覽

鐵人賽 AI/ ML & Data DAY 7

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 7 篇

技術 [Day 7]別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（中）- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像，老師給的分數會越高嗎？直覺上來說，摘要和原文一點都不像，應該會超低分，代表根本沒有在根據原文寫作；但如果和原文一字...

壓縮甜 ‧ 2024-09-21

1 Like 0 留言 718 瀏覽

鐵人賽 AI/ ML & Data DAY 6

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 6 篇

技術 [Day 6] 別著急訓練模型，挖掘好用的 feature 是成功的一半: EDA 實戰演練（上）

在一個充滿活力的校園里，安娜老師是深受學生喜愛的教師。但是這幾年她發現，在這個信息爆炸的時代，擁有良好的摘要能力變得尤為重要。然而，許多學生在總結時往往抓不住...

壓縮甜 ‧ 2024-09-20

0 Like 0 留言 1024 瀏覽

鐵人賽 AI/ ML & Data DAY 6

AI Unlocked: 30 Days to AI Brilliance 系列第 6 篇

技術 AI如何理解我們的語言：自然語言處理(NLP)

隨著人工智慧技術的不斷發展，AI已經能夠像人類一樣理解和生成語言，這背後的核心技術就是自然語言處理（NLP）。無論是客服機器人、語音助手，還是語言翻譯，NLP的...

leeangel ‧ 2024-09-20 ‧團隊資工之花

2 Like 0 留言 1023 瀏覽

鐵人賽 AI/ ML & Data DAY 5

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 5 篇

技術 [Day 5] Kaggle 自動作文評分競賽（四）- 前四名優勝作法解析：彼此制衡的兩階段式微調、發揮奇效的 pseudo-labeling、集成多種 BERT Pooling 與最優化策略

前情提要昨天我們從主題建模、prompt name 與 score 的分佈等，更全面地探勘本次賽題的訓練資料集；也透過設計一些專用於這種 code compe...

壓縮甜 ‧ 2024-09-19

1 Like 0 留言 1041 瀏覽

鐵人賽 AI/ ML & Data DAY 4

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 4 篇

技術 [Day 4] 探究 Train vs. Test Set 的真實差距:善用 Topic Modeling, Cross / Adversarial Validation等實用技巧！

前情提要在前一天的內容中，我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...

壓縮甜 ‧ 2024-09-18

1 Like 0 留言 957 瀏覽

鐵人賽 AI/ ML & Data DAY 3

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 3 篇

技術 [Day 3] Kaggle 自動作文評分競賽（二）- 比賽用的隱藏測試資料也和訓練資料一樣，有同樣的來源嗎？

前情提要昨天通過一番資料分析，確認主辦方提供的 17,307 筆 training data 中，有 12,873 筆完全一模一樣的 essay 內容出現在...

壓縮甜 ‧ 2024-09-17

1 Like 0 留言 1626 瀏覽

鐵人賽 AI/ ML & Data DAY 2

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 2 篇

技術 [Day 2] Kaggle 自動作文評分競賽（一）- 淺談數據洩露與內容匹配：如何確認訓練數據中的潛在泄漏？

在一個平凡的周末午後，高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力，但三個班每人每週一篇長文寫作，安娜的批改速度總是趕不上學生...

壓縮甜 ‧ 2024-09-16

2 Like 0 留言 1357 瀏覽

鐵人賽 AI/ ML & Data DAY 1

一個Kaggle金牌解法是如何誕生的？跟隨Kaggle NLP競賽高手的討論，探索解題脈絡系列第 1 篇

技術 [Day 1] 緣起與文章主題介紹

緣起如果你剛踏入數據科學的世界，那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台，匯聚了來自世界各地的數據愛好者和...

壓縮甜 ‧ 2024-09-15

0 Like 0 留言 2882 瀏覽

鐵人賽 AI & Data DAY 29

關於我從基礎程設轉職到人工智慧入門系列第 29 篇

技術 [DAY29] 機器學習 - 自然語言NLP(二)

主題建模確定它分析的每個文本或文檔中的主題從整體文本數據推斷主題集群將包含類似主題集群的文本或文檔組合在一起文本聚合將包含相似主題的文字或文件組...

泉韵 ‧ 2023-10-14 ‧團隊每件事都壓死線的大家真的可以完賽嗎？

0 Like 0 留言 1986 瀏覽

鐵人賽自我挑戰組 DAY 10

30天從零開始學習NLP(自然語言處理) 系列第 10 篇

技術 Day 10 - 使用 Transformers (1)

在 Day5 的時候我們有提到 Hugging Face 的 Transformers 函式庫的一點介紹和例子，那這章會在深入它的相關使用和比較詳細的介紹。(裡...

肉彈 ‧ 2023-09-25

0 Like 0 留言 3151 瀏覽

鐵人賽自我挑戰組 DAY 9

30天從零開始學習NLP(自然語言處理) 系列第 9 篇

技術 Day 9 - Transformer模型 -- 架構篇(3)

以上圖出自李謦伊今天我們要細講 Transformer 模型架構的 Decoder(解碼器) 的部分，也就是圖中的右半部，這邊會說明它跟 Encoder 的...

肉彈 ‧ 2023-09-24

0 Like 0 留言 2459 瀏覽

鐵人賽自我挑戰組 DAY 8

30天從零開始學習NLP(自然語言處理) 系列第 8 篇

技術 Day 8 - Transformer模型 -- 架構篇(2)

今天我們要細講 Transformer 模型架構的 Encoder(編碼器) 的部分，也就是圖中的左半部，那我們就一一剖析裡面的每一層在做哪些事情以上圖出自...

肉彈 ‧ 2023-09-23

0 Like 0 留言 3125 瀏覽

鐵人賽自我挑戰組 DAY 7

30天從零開始學習NLP(自然語言處理) 系列第 7 篇

技術 Day 7 - Transformer模型 -- 架構篇(1)

Transformer 模型架構主要由兩個區塊組成，左側是 Encoder(編碼器)，右側是 Decoder(解碼器) (這邊先簡單說明，下一章節回詳細解析兩...

肉彈 ‧ 2023-09-22

0 Like 0 留言 2334 瀏覽

鐵人賽自我挑戰組 DAY 6

30天從零開始學習NLP(自然語言處理) 系列第 6 篇

技術 Day 6 - NLP常用的Transformer模型 -- 簡介篇

"Transformer模型" 是一種深度學習架構，最初由Google於2017年提出。它是一種用於處理序列數據的神經網絡架構，特別在自然語...

肉彈 ‧ 2023-09-21

0 Like 0 留言 2027 瀏覽

鐵人賽自我挑戰組 DAY 5

30天從零開始學習NLP(自然語言處理) 系列第 5 篇

技術 Day 5 - 開源機器學習社群平台-Hugging Face

Hugging Face 是甚麼 Hugging Face 是一家軟體公司和開源社區，專注於自然語言處理和人工智慧領域的研究和開發。該社區成立於2016年，以其...

肉彈 ‧ 2023-09-20

0 Like 0 留言 4262 瀏覽

鐵人賽 AI & Data DAY 5

淺談生成式AI與相關應用工具探索系列第 5 篇

技術【Day5】淺談NLP-自然語言處理

自然語言處理(Natural Language Processing, NLP)，是人工智慧的一個重要分支，跨足人工智慧和語言學領域的學科。主要目標是讓電腦(機...

科科 ‧ 2023-09-20

0 Like 0 留言 1115 瀏覽

鐵人賽自我挑戰組 DAY 4

30天從零開始學習NLP(自然語言處理) 系列第 4 篇

技術 Day 4 - NLP 相關開發環境與設定

這裡介紹的開發環境都是我自己有試過的。由於是要訓練自然語言處理的模型，這會蠻耗時的，因此如果電腦有GPU是最好的，如果沒有的話沒關係大家可以使用我等等介紹的雲...

肉彈 ‧ 2023-09-19

1 Like 0 留言 2149 瀏覽

鐵人賽 AI & Data DAY 2

2023 AI大型語言模型之旅 - 從0開始學習建構AI專案系列第 2 篇

技術 AIGC、Gen AI 生成式介紹

那今天就先從AIGCA.I. generate content AI生成內容開始介紹有時候可能會看到Generate AI 簡寫Gen AI 都是指生成式AI...

shrine90459 ‧ 2023-09-17

0 Like 0 留言 1176 瀏覽

鐵人賽自我挑戰組 DAY 2

30天從零開始學習NLP(自然語言處理) 系列第 2 篇

技術 Day 2 - NLP (自然語言處理)是什麼？

讓機器、電腦擁有理解人類說話的語言的能力，就是自然語言處理，它能夠以自然語言文字或語音來查詢資料。這也稱為「語言輸入」。以一個簡單的例子讓大家可以比較理解，例如...

肉彈 ‧ 2023-09-17

0 Like 0 留言 990 瀏覽

鐵人賽自我挑戰組 DAY 1

30天從零開始學習NLP(自然語言處理) 系列第 1 篇

技術 Day 1 - 30天從零開始學習NLP_內容簡介

一、內容簡介這次的鐵人賽主要是要是將之前實習時所做的事和學的內容做一個整理，以及做一些延伸。最主要呢著重介紹 NLP(自然語言處理) 的子領域 NER -...

肉彈 ‧ 2023-09-16

7 Like 3 留言 9303 瀏覽

鐵人賽 AI & Data DAY 1

LLM 學習筆記系列第 1 篇

達標好文技術 LLM Note Day 1 - 語言模型簡介

前言語言模型在 NLP 領域裡面，長期以來一直是個倍受重視的主題。拜 ChatGPT 所賜，這半年多以來大型語言模型的相關議題迅速爆紅，其影響力相信大家都感同...

Penut Chen ‧ 2023-09-16 ‧團隊消波塊上的海洋貓貓

8 Like 3 留言 7522 瀏覽

達標好文技術 GPT-4 發佈，ChatGPT又進化了

前言 ChatGPT在今天(2023/3/14)推出新一代模型GPT-4，距離上一代GPT-3.5模型才事隔四個月，原本專家預估明年才會release，沒想到提...

I code so I am ‧ 2023-03-15

1 Like 2 留言 3170 瀏覽

技術 NLP (自然語言處理)攻略 - Intent Classification

任務簡介意圖分析, 表示 ⇒ 輸入文字敘述, 要分類文字屬於何種意圖 sample: "i dont like my current insuran...

leon123858 ‧ 2023-02-13

22 Like 3 留言 29159 瀏覽

達標好文技術當魔法成為現實 - ChatGPT 的詠唱咒文

前言 ChatGPT 的出現在全球引起一股宣然大波，也讓筆者最近每天都廢寢忘食的跟他聊天，通勤的路上也不斷跟 ChatGPT 探索他無窮無盡的知識，是個非常有趣...

Penut Chen ‧ 2022-12-06

0 Like 0 留言 6325 瀏覽

技術 PTT 爬蟲

前言良葛格過世的消息對我來說十分衝擊，筆者從國中開始學 C 語言，就是一路看良哥的筆記長大，乃至於後來學的 Java, Python 以及很多軟體設計的思維都...

Penut Chen ‧ 2022-11-21

技術 [Day 12]🧟成為特級LLM咒言師的第一天 - 你找得到最優 Mean Prompt 嗎 ？從 text2text 到 vec2text