iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

data preprocessing相關文章

共有 9 則文章

0 人追蹤

追蹤

2 Like 0 留言 691 瀏覽

鐵人賽 AI/ ML & Data DAY 4

資料與程式碼的交鋒 - Data Engineer 與合作夥伴的協奏曲系列第 4 篇

技術《資料與程式碼的交鋒》Day 04 - 資料管線 Data Pipeline

前兩天我們反覆地強調，在一個 OLTP 系統，高度符合正規化設計，且具備一定業務量的資料庫裡，要取得合用的分析資料，需要付出不少代價，包含業務受影響、查詢效能...

Shu-Ting | 資料科學漂流者 ‧ 2024-09-18 ‧團隊資料工程師甘苦談

0 Like 0 留言 716 瀏覽

鐵人賽 AI & Data DAY 25

30天把AI知識傳授給女友系列第 25 篇

技術 Day25 建立時尚商品的資料集

今天我們要將 Pandas 讀取 csv 檔案要用到的資料取出來，並且做前處理來讓資料可以建立模型的資料集，會有以下三個步驟：得到一個長 list1 :...

彼得叩叩 ‧ 2023-09-30

0 Like 0 留言 982 瀏覽

鐵人賽 AI & Data DAY 8

Data pipeline 建起來！用 Airflow 開發你的 Data pipeline 系列第 8 篇

技術『Day8』資料處理

在前一天跟大家分享了 Data pipeline 的種類，在每種 Data pipeline 當中多半都有資料處理的步驟。實際上在各種資料應用的場景，從資料分析...

無聊工程師 bored_engineer ‧ 2023-09-23

0 Like 0 留言 955 瀏覽

鐵人賽 AI & Data DAY 12

30天把AI知識傳授給女友系列第 12 篇

技術 Day 12 我們需要一個資料搬運工

今天介紹如何創建一個 DataLoader，它的用途是在每次模型學習時將要學習的資料搬到模型裡，首先我們先指定存在硬碟中的資料夾路徑： train_path =...

彼得叩叩 ‧ 2023-09-17

0 Like 0 留言 987 瀏覽

鐵人賽 AI & Data DAY 15

PyTorch 生態鏈實戰運用系列第 15 篇

技術 [Day15] 資料預處理機制與優化 - 軟體篇 - 空間換取時間

前言承襲前幾日的主題，今天繼續討論Preprocess優化的方式。今天處要討論的是針對I/O重複性優化的問題。資料預處理機制一樣我們先上架構圖，但稍微改一...

srarod ‧ 2022-09-27

0 Like 0 留言 1624 瀏覽

鐵人賽 AI & Data DAY 14

PyTorch 生態鏈實戰運用系列第 14 篇

技術 [Day14] 資料預處理機制與優化 - 軟體篇 - 優化預處理

前言前一日的文章，以硬體面討論了訓練的效率。但有了適當的硬體以後，要如何利用軟體去使用這些硬體呢？從今天開始的幾天內將介紹一些優化的方式。資料預處理機制先...

srarod ‧ 2022-09-26

0 Like 0 留言 1848 瀏覽

鐵人賽 AI & Data DAY 5

PyTorch 生態鏈實戰運用系列第 5 篇

技術 [Day05] Dataloader with PyTorch and MONAI

前言在進行模型訓練之前，通常需要透過一連串的行為，將資料轉換成適合訓練的格式。前一日的文章構建了長資料來管理資料，本日的文章將透過PyTorch與MONAI來...

srarod ‧ 2022-09-17

0 Like 0 留言 4478 瀏覽

鐵人賽 AI & Data DAY 5

當自然語言處理遇上深度學習系列第 5 篇

技術 [自然語言處理基礎] 文本預處理(II)：正規化，就是一視同仁

前言上次我們斷開了英文文本的鎖鏈，將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理，因此...

Friedrich1942 ‧ 2021-09-13

0 Like 0 留言 6859 瀏覽

鐵人賽 AI & Data DAY 4

當自然語言處理遇上深度學習系列第 4 篇

技術 [自然語言處理基礎] 文本預處理(I)：斷開文本的鎖練

前言上次我們提到原始文本往往夾帶大量無意義的字符，於是我們利用了正則表達式來清理資料。然而此時的文本由大量的語句所構成，各個語句中又帶有複雜的文法結構（例如倒...

Friedrich1942 ‧ 2021-09-12

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙

技術 《資料與程式碼的交鋒》Day 04 - 資料管線 Data Pipeline