二、教你怎麼看source code，找到核心程式碼 ep.17：把tfrecord parse完了，接著做了哪些preprocess?

第 12 屆 iThome 鐵人賽

DAY 24

AI & Data

從零.4開始我的深度學習之旅：從用tf.data處理資料到用tf.estimator或tf.keras 訓練模型系列第 24 篇

二、教你怎麼看source code，找到核心程式碼 ep.17：把tfrecord parse完了，接著做了哪些preprocess?

12th鐵人賽 deep learning 學習心得 trace code

細枝

團隊300萬 Tesla

2020-10-09 17:54:35

994 瀏覽

分享至

文章說明

文章分段

文章說明
deeplab的簡單介紹、於我的意義
tensorflow的程式碼特色
訓練流程的細節
逛deeplab的github程式，順序：train.py model.py datasets/data_generator.py …

第二篇的第5段好龐大啊...照我這速度不知道30天結束講不講得完。

前情提要

第二篇的ep.16把解析tfrecord的_parse_function帶完，並且為\preprocess_image()稍微預告了一下，總共有6個preprocess method會被實作並使用。

就讓我們從input_preprocess.preprocess_image_and_label()開始吧。

逛deeplab的github程式 (cont.)

`input_preprocess.py`

28-40行是preprocess_image_and_label()的參數，主角是data與label，剩下就是有關crop、resize等參數。

62-65行是敘述這個method會回傳的變數，總共有三個，(1)是可能有被resize的原始影像、(2)是要拿去給model「看」的data、(3)是有跟data用同樣手法處理的label。
接著68行有處理一個報錯：因為資料集中會有沒有label的split，而這類因為沒有答案所以不可能會拿來作為訓練資料，所以會直接被擋下來。

70行就是報錯的判斷式。

突然覺得71行的提醒很貼心耶怎麼回事！？

backbone沒有提供的話，這邊會給出提醒。會給出這個提醒的原因是因為，在使用backbone作為先解析data的工具時，一定會使用pretrained的參數，而每個pretrained參數所使用的資料可能不同，這會導致normalize的數值或手法不太一樣...總而言之就是，想發揮backbone的效用，最好讓你的訓練集normalize的方式跟backbone在訓練時用的方式一樣，這樣才能發揮訓練好的extractor的功用。

如果沒有使用backbone的話，他就會使用他預設的mean-subtraction去處理data。