iT邦幫忙

datasets相關文章
共有 8 則文章
鐵人賽 AI & Data DAY 28
LLM 學習筆記 系列 第 28

技術 LLM Note Day 28 - 資料集 Datasets

簡介 要訓練一個模型,首先要有資料。不僅要有很大量的資料,也要有品質很好的資料。資料的品質包含:文句是否通順、格式是否合理、內容是否偏頗、資訊是否有害等等。品質...

鐵人賽 AI & Data DAY 27

技術 [第二十七夜] 人臉辨識 (Face Recognition):Dataset 的收集、數量和品質影響以及清理資料的方法

前言 我們已經知道如何訓練 Face recognition 的模型了!但我們都知道要一個好的模型應該要很多資料才行,在人臉辨識領域中也不例外,擁有高質量的大量...

鐵人賽 自我挑戰組 DAY 25

技術 Day 25 - 使用 Datasets 庫 (5) - 儲存資料集和資料轉換

大概都了解 Datasets 如何以各種方式用於清理資料集。雖然 Datasets 的處理功能會涵蓋你大部分的模型訓練需求,但有的時候我們需要切換到 Panda...

鐵人賽 自我挑戰組 DAY 24

技術 Day 24 - 使用 Datasets 庫 (4) - 清理資料集功能

接著前一天的部分繼續說後半部 以上圖出自 Hugging Face 官方 今天使用到的範例資料集會和前一天不一樣,我們使用 hugging face 官方 Co...

鐵人賽 自我挑戰組 DAY 23

技術 Day 23 - 使用 Datasets 庫 (3) - 清理資料集功能

在 datasets 中提供了許多內鍵方法讓我們整理資料,因為內容比較多所以我們拆成半,今天說前半段 以上圖出自 Hugging Face 官方 範例資料集我就...

鐵人賽 自我挑戰組 DAY 22

技術 Day 22 - 使用 Datasets 庫 (2) - 遠端和本地資料

Datasets 它提供了 loading scripts 來讓我們可以載入本地和遠端的資料集。 它支援以下幾種資料格式 資料格式 loading scr...

鐵人賽 AI & Data DAY 21

技術 [第二十一夜] 人眼視線 (Eye Gaze)--如何收集資料

前言 歡迎回到我們的 30 天人臉技術探索之旅!我們已經知道要建立深度學習系統時一般來說我們需要訓練出自己的 Model,而要訓練出自己的 model 我們就需...

鐵人賽 自我挑戰組 DAY 21

技術 Day 21 - 使用 Datasets 庫 (1) - Hugging Face Hub 的 dataset

講完了 transformers 之後,也介紹了一些開源的資料集,接下來我們就是要來學怎麼做資料載入這件事,我在 Day5 的時候也稍微提到過這個,它提供了方便...