二、教你怎麼看source code，找到核心程式碼 ep.21：從train.py呼叫資料集處，一路看有關處理資料的程式，終於又可以回到train.py了

第 12 屆 iThome 鐵人賽

DAY 28

AI & Data

從零.4開始我的深度學習之旅：從用tf.data處理資料到用tf.estimator或tf.keras 訓練模型系列第 28 篇

二、教你怎麼看source code，找到核心程式碼 ep.21：從train.py呼叫資料集處，一路看有關處理資料的程式，終於又可以回到train.py了

12th鐵人賽 deep learning trace code 學習心得

細枝

團隊300萬 Tesla

2020-10-13 21:49:56

1150 瀏覽

分享至

文章說明

文章分段

文章說明
deeplab的簡單介紹、於我的意義 ep.1
tensorflow的程式碼特色 ep.2
訓練流程的細節 ep.3
逛deeplab的github程式

前情提要

ep20把我這幾天以來的文章，標題開頭是二的文章都梳理一遍，然後相信大家絕對不記得，或看到一半會忘記，我到底是從哪裡開始追蹤原始碼，以及為什麼會照這個順序。

我們最初是在train.py遇到他呼叫data_generator.py的get_one_shot_iterator()method，目的是為了取得訓練資料，才開始了長達20天的追蹤。

我們追蹤到現在，好不容易把這個method呼叫的map function：_parse_function和_preprocess_image都講完了，最後還剩下一點點的程式，就可以從data_generator.py跳回train.py了。

接著再繼續吧。

逛deeplab的github程式(cont.)

`datasets/data_generator.py` (cont.)

331行是將dataset加上打亂的功能，因為這個tf.data API是講求效率的，所以並不會一次load近所有資料，才能節省佔用GPU的空間。這個buffer_size就是一次會load 100筆資料，然後把它打亂後提供後續使用，也就是說，如果要讓資料完全打亂，buffer_size要比資料筆數多才行(但這樣似乎也失去了使用tf.data有效率的初衷？)。

是說訓練時所需要的記憶體量，如果你是使用GPU的話，你要增加以及關注的記憶體容量是在GPU本身內部的，跟系統的記憶體量沒有關係！
所以如果訓練的程式在沒有確認過記憶體用量的情況下，從用CPU跑，改成用GPU跑，有的時候會出現記憶體不足的情況。
這就是因為，使用GPU，他只會用GPU自帶的記憶體去暫存資料。

334行是將資料集的長度延長，會這樣做是因為dataset會變成一個iterator，那iterator呼叫到沒有東西可以丟出來就會結束，所以這個是讓iterator的長度可以變長的method。