iT邦幫忙

data preprocessing相關文章
共有 9 則文章
鐵人賽 AI & Data DAY 4

技術 [自然語言處理基礎] 文本預處理(I):斷開文本的鎖練

前言 上次我們提到原始文本往往夾帶大量無意義的字符,於是我們利用了正則表達式來清理資料。然而此時的文本由大量的語句所構成,各個語句中又帶有複雜的文法結構(例如倒...

鐵人賽 AI & Data DAY 5

技術 [自然語言處理基礎] 文本預處理(II):正規化,就是一視同仁

前言 上次我們斷開了英文文本的鎖鏈,將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理,因此...

鐵人賽 AI & Data DAY 5

技術 [Day05] Dataloader with PyTorch and MONAI

前言 在進行模型訓練之前,通常需要透過一連串的行為,將資料轉換成適合訓練的格式。前一日的文章構建了長資料來管理資料,本日的文章將透過PyTorch與MONAI來...

鐵人賽 AI & Data DAY 14
PyTorch 生態鏈實戰運用 系列 第 14

技術 [Day14] 資料預處理機制與優化 - 軟體篇 - 優化預處理

前言 前一日的文章,以硬體面討論了訓練的效率。但有了適當的硬體以後,要如何利用軟體去使用這些硬體呢?從今天開始的幾天內將介紹一些優化的方式。 資料預處理機制 先...

鐵人賽 AI & Data DAY 15
PyTorch 生態鏈實戰運用 系列 第 15

技術 [Day15] 資料預處理機制與優化 - 軟體篇 - 空間換取時間

前言 承襲前幾日的主題,今天繼續討論Preprocess優化的方式。今天處要討論的是針對I/O重複性優化的問題。 資料預處理機制 一樣我們先上架構圖,但稍微改一...

鐵人賽 AI & Data DAY 12

技術 Day 12 我們需要一個資料搬運工

今天介紹如何創建一個 DataLoader,它的用途是在每次模型學習時將要學習的資料搬到模型裡,首先我們先指定存在硬碟中的資料夾路徑: train_path =...

鐵人賽 AI & Data DAY 8

技術 『Day8』 資料處理

在前一天跟大家分享了 Data pipeline 的種類,在每種 Data pipeline 當中多半都有資料處理的步驟。實際上在各種資料應用的場景,從資料分析...

鐵人賽 AI & Data DAY 25

技術 Day25 建立時尚商品的資料集

今天我們要將 Pandas 讀取 csv 檔案要用到的資料取出來,並且做前處理來讓資料可以建立模型的資料集,會有以下三個步驟: 得到一個長 list1 :...

鐵人賽 AI/ ML & Data DAY 4

技術 《資料與程式碼的交鋒》Day 04 - 資料管線 Data Pipeline

前兩天我們反覆地強調,在一個 OLTP 系統,高度符合正規化設計,且具備一定業務量的資料庫裡,要取得合用的分析資料,需要付出不少代價,包含業務受影響、查詢效能...