iT邦幫忙

nlp相關文章
共有 138 則文章
鐵人賽 AI/ ML & Data DAY 12

技術 [Day 12]🧟成為特級LLM咒言師的第一天 - 你找得到最優 Mean Prompt 嗎 ?從 text2text 到 vec2text

大家應該都很習慣跟LLM聊天時,輸入文字然後 LLM 就會輸出文字的這個 text2(to)text 的過程。今天要教大家怎麼操作向量空間中的 embeddin...

鐵人賽 AI/ ML & Data DAY 11

技術 [Day 11]🧟你是個準一級LLM咒言師嗎?-淺談 prompt 逆向工程

有時候,大型語言模型(LLM)並不總是按照我們的意願工作。馬上12點快到了,你可能希望chatgpt趕快將一篇你正在寫的鐵人賽文章改寫得生動有趣、增加觸及,但...

鐵人賽 AI/ ML & Data DAY 10

技術 [Day 10]Head Mask Pooling 池化大法好🪄🦄-解析第二三名的優勝作法:Head Mask Pooling 與 Multi-Task Learning

在看了一堆解法分享後,看到第二名的做法真的會眼前一亮🤩,而且是絕對可以低成本偷學帶到其他賽題繼續使用的! 我們直接切入正題: 🥈 2nd Solution 第二...

鐵人賽 AI/ ML & Data DAY 9

技術 [Day 9] Data "Diversity" is King! 運用 LLM 和 Meta Pseudo Labeling 擴增數據集, 佐以 DeBERTa 和 LBGM 的多模態策略

今天會帶大家一步一步解析本賽題第一名🥇的思路🤩,在過程中可以學到如何使用 LLM 生成 high quality 的假資料,並用 Meta pseudo lab...

鐵人賽 AI/ ML & Data DAY 8

技術 [Day 8]別著急訓練模型,挖掘好用的 feature 是成功的一半: 結合 EDA 實戰演練(下)與 LGBM 模型,一起打一套組合拳吧!

前情提要 昨天我們提出訓練資料中那 426 筆超低分的 data ,可能是因為學生抄襲所以被懲罰才得到全部一模一樣的超低分。 我們今天要透過回答下面這三個問題來...

鐵人賽 AI/ ML & Data DAY 7

技術 [Day 7]別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(中)- 從 Linguistic 和 Semantic 的角度計算文本相似度

EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...

鐵人賽 AI/ ML & Data DAY 6

技術 [Day 6] 別著急訓練模型,挖掘好用的 feature 是成功的一半: EDA 實戰演練(上)

在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...

鐵人賽 AI/ ML & Data DAY 6

技術 AI如何理解我們的語言:自然語言處理(NLP)

隨著人工智慧技術的不斷發展,AI已經能夠像人類一樣理解和生成語言,這背後的核心技術就是自然語言處理(NLP)。無論是客服機器人、語音助手,還是語言翻譯,NLP的...

鐵人賽 AI/ ML & Data DAY 3

技術 [Day 3] Kaggle 自動作文評分競賽(二)- 比賽用的隱藏測試資料也和訓練資料一樣,有同樣的來源嗎?

前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...

鐵人賽 AI/ ML & Data DAY 2

技術 [Day 2] Kaggle 自動作文評分競賽(一)- 淺談數據洩露與內容匹配:如何確認訓練數據中的潛在泄漏?

在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...

鐵人賽 AI/ ML & Data DAY 1

技術 [Day 1] 緣起與文章主題介紹

緣起 如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和...

鐵人賽 AI & Data DAY 29

技術 [DAY29] 機器學習 - 自然語言NLP(二)

主題建模 確定它分析的每個文本或文檔中的主題 從整體文本數據推斷主題集群 將包含類似主題集群的文本或文檔組合在一起 文本聚合 將包含相似主題的文字或文件組...

鐵人賽 自我挑戰組 DAY 10

技術 Day 10 - 使用 Transformers (1)

在 Day5 的時候我們有提到 Hugging Face 的 Transformers 函式庫的一點介紹和例子,那這章會在深入它的相關使用和比較詳細的介紹。(裡...

鐵人賽 自我挑戰組 DAY 9

技術 Day 9 - Transformer模型 -- 架構篇(3)

以上圖出自李謦伊 今天我們要細講 Transformer 模型架構的 Decoder(解碼器) 的部分,也就是圖中的右半部,這邊會說明它跟 Encoder 的...

鐵人賽 自我挑戰組 DAY 8

技術 Day 8 - Transformer模型 -- 架構篇(2)

今天我們要細講 Transformer 模型架構的 Encoder(編碼器) 的部分,也就是圖中的左半部,那我們就一一剖析裡面的每一層在做哪些事情 以上圖出自...

鐵人賽 自我挑戰組 DAY 7

技術 Day 7 - Transformer模型 -- 架構篇(1)

Transformer 模型架構主要由兩個區塊組成,左側是 Encoder(編碼器),右側是 Decoder(解碼器) (這邊先簡單說明,下一章節回詳細解析兩...

鐵人賽 自我挑戰組 DAY 6

技術 Day 6 - NLP常用的Transformer模型 -- 簡介篇

"Transformer模型" 是一種深度學習架構,最初由Google於2017年提出。它是一種用於處理序列數據的神經網絡架構,特別在自然語...

鐵人賽 自我挑戰組 DAY 5

技術 Day 5 - 開源機器學習社群平台-Hugging Face

Hugging Face 是甚麼 Hugging Face 是一家軟體公司和開源社區,專注於自然語言處理和人工智慧領域的研究和開發。該社區成立於2016年,以其...

鐵人賽 AI & Data DAY 5

技術 【Day5】淺談NLP-自然語言處理

自然語言處理(Natural Language Processing, NLP),是人工智慧的一個重要分支,跨足人工智慧和語言學領域的學科。主要目標是讓電腦(機...

鐵人賽 自我挑戰組 DAY 4

技術 Day 4 - NLP 相關開發環境與設定

這裡介紹的開發環境都是我自己有試過的。 由於是要訓練自然語言處理的模型,這會蠻耗時的,因此如果電腦有GPU是最好的,如果沒有的話沒關係大家可以使用我等等介紹的雲...

鐵人賽 AI & Data DAY 2

技術 AIGC、Gen AI 生成式介紹

那今天就先從AIGCA.I. generate content AI生成內容開始介紹有時候可能會看到Generate AI 簡寫Gen AI 都是指生成式AI...

鐵人賽 自我挑戰組 DAY 2

技術 Day 2 - NLP (自然語言處理)是什麼?

讓機器、電腦擁有理解人類說話的語言的能力,就是自然語言處理,它能夠以自然語言文字或語音來查詢資料。這也稱為「語言輸入」。以一個簡單的例子讓大家可以比較理解,例如...

鐵人賽 自我挑戰組 DAY 1

技術 Day 1 - 30天從零開始學習NLP_內容簡介

一、內容簡介 這次的鐵人賽主要是要是將之前實習時所做的事和學的內容做一個整理,以及做一些延伸。 最主要呢著重介紹 NLP(自然語言處理) 的子領域 NER -...

鐵人賽 AI & Data DAY 1
LLM 學習筆記 系列 第 1

達標好文 技術 LLM Note Day 1 - 語言模型簡介

前言 語言模型在 NLP 領域裡面,長期以來一直是個倍受重視的主題。拜 ChatGPT 所賜,這半年多以來大型語言模型的相關議題迅速爆紅,其影響力相信大家都感同...

達標好文 技術 GPT-4 發佈,ChatGPT又進化了

前言 ChatGPT在今天(2023/3/14)推出新一代模型GPT-4,距離上一代GPT-3.5模型才事隔四個月,原本專家預估明年才會release,沒想到提...

技術 NLP (自然語言處理)攻略 - Intent Classification

任務簡介 意圖分析, 表示 ⇒ 輸入文字敘述, 要分類文字屬於何種意圖 sample: "i dont like my current insuran...

達標好文 技術 當魔法成為現實 - ChatGPT 的詠唱咒文

前言 ChatGPT 的出現在全球引起一股宣然大波,也讓筆者最近每天都廢寢忘食的跟他聊天,通勤的路上也不斷跟 ChatGPT 探索他無窮無盡的知識,是個非常有趣...

技術 PTT 爬蟲

前言 良葛格過世的消息對我來說十分衝擊,筆者從國中開始學 C 語言,就是一路看良哥的筆記長大,乃至於後來學的 Java, Python 以及很多軟體設計的思維都...