一、用skeleton code解釋tensorflow model程式執行方式(tf.keras) ep.3

第 12 屆 iThome 鐵人賽

DAY 3

AI & Data

從零.4開始我的深度學習之旅：從用tf.data處理資料到用tf.estimator或tf.keras 訓練模型系列第 3 篇

12th鐵人賽深度學習學習心得機器學習影像辨識

細枝

團隊300萬 Tesla

2020-09-18 19:14:21

2479 瀏覽

分享至

文章說明

文章分段：

文章說明
簡介datasets
描述模型訓練的流程
程式架構：上程式的虛擬碼，預告要寫的檔案、功能有哪些
主程式的實際撰寫，註明程式開始不能單跑的地方
總結

本篇是接續一、用skeleton code解釋tensorflow model程式執行方式(tf.keras) ep.2，第一篇是先闡述，在規劃深度學習的project的程式架構時，為了之後的方便管理與良好的擴充性，大致上需要注意哪些事情，並且會以虛擬碼帶入，最後以tf.keras實際撰寫一遍。

其中第2、3段在ep.1，第4段上半在ep.2。

前情提要

ep.1介紹了2個以不同方式儲存label的datasets及比賽，及講述了我經過幾次嘗試後，整理出模型在訓練時，流程是如何執行，以及要做的事情有哪些。

接著ep.2的部分開始講程式架構的部分，以我之前學習的經驗，向你們分享我覺得好用的project架構，主旨是在說明project中各個資料夾的功能，當你們了解我為什麼會這樣規劃後，希望能對你們的規劃起到靈感的作用，或著如果有出現「為什麼這邊不這樣做？」的想法，歡迎提出來，讓架構能夠更完善！

回憶過前面的內容後，讓我們繼續從上次沒講完的logs/資料夾開始吧！

程式架構(續)

`logs/`

.
└── logs/
     ├── MODEL_NAME.log
     ├── MODEL_NAME_WITH_CONFIG.log
     └── ...

logs資料夾是存放訓練資訊的地方。

訓練資訊會包含hyper parameter的設定、訓練過程中每個batch或每個epoch的training loss(acc等)變化情況、還有每隔一段訓練就會檢驗的validation loss、以及每次的batch size的確切大小(這個也是蠻重要的資訊喔！)等，噢還有dataset的資訊，像是dataset的大小。

在最一開始的時候，我採用的是Jason Brownlee博士在How to Plan and Run Machine Learning Experiments Systematically的辦法，即使用excel表格逐一紀錄每次實驗的情況。

這個作法規矩、有效，它可以幫助你建立對於模型實驗的嚴謹性，還有規劃未來的實驗進程。並且可以了解到參數的變化，是如何影響模型的performance。

但是這個做法有一個風險，所有hyper parameter都是手動複製貼上的，難免會出現手滑或ctrl+c突然失靈的情況，導致你在不經意的情況下，擾亂了實驗數據。

補救的措施...大概就是command line按「上」方向鍵去找吧...

所以應該要能夠在執行程式的時候，讓hyper parameter能自動紀錄在log檔裡，這樣一旦出現實驗數據混淆的情況，還是能夠循著紀錄得到第一手的資訊。在python語言中，有蠻多package(例如：logging)可以做到這件事。

而我是決定兩個方式都使用，一個是我在處理數據分析時慣用的方式，另一個則是保證能夠還原當時的訓練情況。

而訓練過程產生的loss與acc等資訊，是評估模型穩定性與performance的指標之一，有趣的是，tf.keras在訓練時輸出在終端的資訊，似乎沒有辦法輕易的被導入到log file中的樣子。這就變成需要使用callback這類class，來幫助我們紀錄資訊。callback的使用方式也是後話在提，在此先粗略帶過。

`models/`

.
└── models/
     ├── MODEL_NAME/
     |    ├── checkpoint/
     |    |    ├── weights-improvement-0.86.hdf5
     |    |    ├── weights-improvement-0.94.hdf5
     |    |    └── ...
     |    ├── ~~M_N_acc.png~~
     |    └── ~~M_N_loss.png~~
     ├── MODEL_NAME_WITH_CONFIG/
     |    └── ...
     └── ...

models是儲存模型權重與結果的資料夾。在訓練過程中會可以訂定存model權重的規則，有時候訓練會儲存一定數量的權重，所以內層有一個checkpoint資料夾，把所有權重都儲存在這。

至於為什麼叫checkpoint而不是叫weights...我也很好奇

tensorflow用不同的API去儲存「模型+權重」或「權重」時，自帶的副檔名都會不太一樣。.hdf5是用tf.keras進行訓練，用來儲存「模型+權重」或「權重」檔案。這種檔案很有趣，就像前面所說的，.hdf5檔案裡面，有可能是模型連同權重一起儲存，也有可能是單單只有權重而已，也就是說裡面有存什麼東西，是取決於在save時所呼叫的函式。