簡介 在上篇 DAY5 知識之章 - Apache Iceberg 中,我們介紹了 Iceberg 的詳細內容與應用場景。 本篇我們要來介紹 AWS Lakeh...
簡介 在上篇 DAY4 知識之章-Open Data Format 中,我們聊到各種開放數據格式的特性。 本篇要介紹的是 Data Lakehouse 架構的核...
前言 昨天我們快速比較了 AI、ML、DL 的差異,並提到 ML 的一大類型是 監督式學習 (Supervised Learning)。那麼,監督式學習究竟是怎...
簡介 在 DAY3 知識之章-Data Lake, Warehouse and Lakehouse 中,我們聊到新的儲存架構。本篇要帶大家認識 開放數據格式 (...
前言昨天我們分別介紹了 AI 與 Data 的基本概念。今天,我們要更進一步,探討兩者之間的關係,說明為什麼資料是 AI 的基礎,以及 AI 如何透過資料發揮價...
簡介 在上篇 DAY2 知識之章-理解資料本源 中,我們介紹到本次的資料集內容,了解需要分析的資料集後,我需要選擇一個適合的數據架構,於是今天我們要來了解一下...
前言:AI 江湖的入場券 歡迎來到《AI 江湖本無路,有了 Data 便有了路》系列的第一天。在我們深入探討各種複雜的技術與架構之前,必須先回答一個根本問題:為...
簡介 在上篇 DAY1 知識之章-啟程 中,我們聊到本系列文章的整體規劃。 本篇將介紹此系列會使用到的資料集,讓我們一起來看看資料的來源與資料結構。 資料介紹...
前言AI是近年來引起大家熱烈討論的議題,無論是工作還是生活,我們越來越常看到AI的應用。其中AI與Data有著密不可分的關係,掌握AI與Data相關知識,可以提...
在 BigQuery 的費用監控中,其實大部分都是運算費用居多,儲存費用是占比很小的。 不過我們還是有監控資料表的靜態資訊,看看容量大、又長時間沒有人更新的資料...
還記得我們第一次寫的 first_dag 嗎?當時只是基本的寫了一個 DAG 的雛形,在經過這幾天更了解 DAG 各個元件之後,大家是不是覺得躍躍欲試呢,相信大...
到目前為止我們了解,DAG 如何建立,如何設定關聯關係,如何傳遞變數。而在Data pipeline 當中還有很重要的一個部分是與外部系統溝通。 Airflow...
前言 mentor:幫我研究一下ETLETL 的介紹ETL有哪些套件( 幫我比較至少三個ETL的套件 ) 由於之後專案需求要做到多項系統整合,因此會有各種資...
啊今天先來簡單介紹一下什麼事ArrayType()ArrayType()主要是將Array放入整個dataframe 中,然後Do Re Mi So你的Data...
相信經過前一篇落落長的說明後,應該很了解regular expression是在幹嘛了吧那我們今天就開始來進入Pyspark與regular expressio...
昨天講完了如何處理timestamp()的時間格式該如何處理,今天就讓我們來看看,最大宗的部分,字串!講到字串,最常使用的就是大名鼎鼎的split(),subs...
在多數情況下,使用to_timestamp(),幾乎可以解決掉所有的時間轉換問題,但Data Cleaning 是永遠不會讓你好過的,那這時候可以怎麼做呢?這時...
各種各樣的轉換,時間今天是星期五,應該是容許水一天的吧 1. to_timestamp(col,format) 基本上就是針對日期格式做相對應的轉換! 詳細情...
在資料處理的領域,除了前幾天說的那些overview之外,了解了整個宏觀的資料集,我們還是會需要深入去確認資料的樣態,當資料集有排序性的時候,使用show(),...
過濾一些選擇,可以得到更好的資訊,或許也可以成為一個更好的人吧?就像你要找一個非常優秀的吹風機時,你也會在購物網站下一些特定的filter()讓你能夠更快速的選...
在前幾天的內容當中,我們陸續介紹了 Data pipeline、Data pipeline 的種類、資料處理,資料品質等主題,相信大家對於 Data pipel...
管線無所不在,雖然說日常生活中常常不會注意到其存在,但是卻對我們的生活影響非常大。舉例來說,在做裝潢時,就必須要把未來房屋的使用情景進行評估。並且需要針對屋主進...
21天可以養成一個好習慣, 但3天就可以放棄, 但我今天還是準時坐在這裡, 所以今天你的選擇是什麼呢?我們今天要來討論的是,選擇阿不是啦是select() 其實...
"那個Timmy啊,廠商那邊又有多一組類型的資料,你再幫忙收一下""Jerry,資料好像有少喔,幫忙看一下是哪邊的問題,以後看到類...
上一篇簡述了5個讀取資料的方法,是不是開始迫不及待的想要馬上開始進行Data的操作啦先別急先別急,在我們開始實際針對DataFrame 進行操作之前, 先來看看...
啊,忽然不知不覺就是第二天挑戰了,但是腦子還是一片混亂, 所以我們還是就來簡單説説作為一個資料工程師,在胡搞瞎搞馬上要入手時,第一個該開始的地方Create(至...
前言 1. What is Pyspark ? PySpark 顧名思義,也就是Python 的一個Spark Library,主要是利用Python語法結合S...
資料的層次 2020 年受邀到台北商業大學授課,當時為了讓同學們了解「資料的層次」,以及“data”、“information”、“file”與“Big dat...
前言 滿多預計要討論的其他Task最後都沒有實作到,居然意外變成是純粹以Classification為例的深度學習實作範例了!在此作為系列篇的最後一篇,打算分享...
前文 我們前兩天介紹完Azure的基本Az-900,以及有關Azure在人工智慧、機器學習方面的檢測,就是特化版的AI-900,今天要來介紹另一個特化版,有關資...