前兩天我們反覆地強調,在一個 OLTP 系統,高度符合正規化設計,且具備一定業務量的資料庫裡,要取得合用的分析資料,需要付出不少代價,包含業務受影響、查詢效能...
今天我們要將 Pandas 讀取 csv 檔案要用到的資料取出來,並且做前處理來讓資料可以建立模型的資料集,會有以下三個步驟: 得到一個長 list1 :...
在前一天跟大家分享了 Data pipeline 的種類,在每種 Data pipeline 當中多半都有資料處理的步驟。實際上在各種資料應用的場景,從資料分析...
今天介紹如何創建一個 DataLoader,它的用途是在每次模型學習時將要學習的資料搬到模型裡,首先我們先指定存在硬碟中的資料夾路徑: train_path =...
前言 承襲前幾日的主題,今天繼續討論Preprocess優化的方式。今天處要討論的是針對I/O重複性優化的問題。 資料預處理機制 一樣我們先上架構圖,但稍微改一...
前言 前一日的文章,以硬體面討論了訓練的效率。但有了適當的硬體以後,要如何利用軟體去使用這些硬體呢?從今天開始的幾天內將介紹一些優化的方式。 資料預處理機制 先...
前言 在進行模型訓練之前,通常需要透過一連串的行為,將資料轉換成適合訓練的格式。前一日的文章構建了長資料來管理資料,本日的文章將透過PyTorch與MONAI來...
前言 上次我們斷開了英文文本的鎖鏈,將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理,因此...
前言 上次我們提到原始文本往往夾帶大量無意義的字符,於是我們利用了正則表達式來清理資料。然而此時的文本由大量的語句所構成,各個語句中又帶有複雜的文法結構(例如倒...