Google系列課程第四篇章Feature Engineering,從整體概念解說,總算回歸TensorFlow的應用回。
預處理是對於收集到的資料給予的第一步運算,少了它,對於資料整體的判讀就是少了一味。
就像是JavaFX之於Java,TensorFlow Transform之於TensorFlow我們可以想成是一個針對DataFlow的強化處理模組。
而Google對於DataFlow的規劃,以Apache Beam的形式進行完整控制流程。
因此TensorFlow Transform以tf.Transform
的包裝存在了現在的TensorFlow中。
此處以
tf.__version__==2.x
來說明
回顧一下,以GCP上的DataFlow為例,可以執行特徵工程的部分有三個,如下圖:
當在使用tf.Transform
時,想辦法分成兩個階段:Analyze和Transform。
因為整體是整合Beam的結果,input_function和serving_function都要依照Beam所規範的邏輯喔。