iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶 系列

對於非技術背景的人來說,有了AI工具出現,大幅提升工作效率外,也將腦中的想法轉換成可行的MVP。因此,我將透過30天的分享與實作,帶領你一步步完成從資料爬取、資料前處理、模型訓練,到部署並串接開發系統的端到端流程。

參賽天數 22 天 | 共 31 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文
DAY 11

【Day 10】資料前處理

本篇文章主要目的是針對如果有爬取的資料中仍有些僅有 emoji 和無法判斷分類的評論,可以透過資料前處理將資料整理出來。 Step 1:刪除不必要的符號與 E...

2025-08-31 ‧ 由 jackietung 分享
DAY 12

【Day 11】資料探索性分析與視覺化

前言 在上一篇文章中,我們已經完成資料集的清理工作。接下來,我們將進行初步的資料探勘,透過視覺化方式分析目前評論的分布狀況,從中獲得初步洞察。 Step 1:...

2025-09-01 ‧ 由 jackietung 分享
DAY 13

【Day 12】資料標註規則與主題分類定義

資料標註(Data Annotation)在情感分析中的重要性 在進行情感分析模型訓練之前,資料標註(Data Annotation) 是一個非常關鍵的步驟。透...

2025-09-02 ‧ 由 jackietung 分享
DAY 14

【Day 13】資料標註:工具選擇與實作流程

在上一篇中,我們確定標註目標(情緒分類、主題分類)之後,下一步就是進行實際的資料標註。我們需要先決定要使用什麼標註工具以及標註的工作流程。 常見的標註工具選擇...

2025-09-03 ‧ 由 jackietung 分享
DAY 15

【Day 14】標註品質控管與一致性檢查:為什麼資料標註不能馬虎?

在情感分析或任何機器學習專案中,資料標註(Data Annotation)是決定模型成敗的關鍵。想像一下,如果你給模型吃的是一堆標註錯誤、前後矛盾的資料,它怎麼...

2025-09-04 ‧ 由 jackietung 分享
DAY 16

【Day 15】利用大型語言模型(LLM)加速資料標註流程

在前幾篇文章中,我們深入探討了資料標註的原則與品質控管。然而,傳統的機器學習方法往往需要龐大的人工標註量,這不僅耗時,也耗費大量人力成本。為了應對這個挑戰,我開...

2025-09-05 ‧ 由 jackietung 分享
DAY 17

【Day 16】訓練語言模型的選擇:為什麼我用 BERT?

在這次的專案中,我選擇了預訓練模型進行 Fine-tuning。這是一種高效且常見的作法,能讓我們在短時間內,利用現有模型的強大能力,來解決特定領域的任務。 為...

2025-09-06 ‧ 由 jackietung 分享
DAY 18

【Day 17】使用 LLM 進行自動標註流程

前言 前幾篇我們介紹了如何運用大語言模型(LLM)作為標註員,以及如何選擇合適的預訓練模型(如 BERT)。本篇將進一步說明,如何實際串接 LLM API,設計...

2025-09-07 ‧ 由 jackietung 分享
DAY 19

【Day 18】BERT模型訓練實作流程

在自然語言處理(NLP)領域,預訓練模型如 BERT 已成為解決許多任務的強大工具。在這篇文章中,我們深入探討如何利用 BERT 和 PyTorch 框架,從零...

2025-09-08 ‧ 由 jackietung 分享
DAY 20

【Day 19】評估指標介紹與選擇

在之前的文章中,我們已經完成了模型的訓練。現在,我們需要評估模型的效能,確保它能準確地完成任務。評估一個分類模型通常會用到以下四個核心指標:精確率 (Preci...

2025-09-09 ‧ 由 jackietung 分享