iT邦幫忙

data相關文章
共有 143 則文章
鐵人賽 AI & Data DAY 23

技術 『Day23』來做個天氣資訊 DAG 吧 (上)

還記得我們第一次寫的 first_dag 嗎?當時只是基本的寫了一個 DAG 的雛形,在經過這幾天更了解 DAG 各個元件之後,大家是不是覺得躍躍欲試呢,相信大...

鐵人賽 AI & Data DAY 21

技術 『Day21』使用 Conn、Hook 進行外部連接

到目前為止我們了解,DAG 如何建立,如何設定關聯關係,如何傳遞變數。而在Data pipeline 當中還有很重要的一個部分是與外部系統溝通。 Airflow...

鐵人賽 自我挑戰組 DAY 20

技術 【全端網頁開發】Day20-ETL(提取、轉換、載入):數據之旅

前言 mentor:幫我研究一下ETLETL 的介紹ETL有哪些套件( 幫我比較至少三個ETL的套件 ) 由於之後專案需求要做到多項系統整合,因此會有各種資...

鐵人賽 AI & Data DAY 12
30天胡搞瞎搞學會pyspark 系列 第 12

技術 [ Day 12 ] - Pyspark | 清理 - 特殊資料型態篇 - Array : explode()

啊今天先來簡單介紹一下什麼事ArrayType()ArrayType()主要是將Array放入整個dataframe 中,然後Do Re Mi So你的Data...

鐵人賽 AI & Data DAY 11
30天胡搞瞎搞學會pyspark 系列 第 11

技術 [ Day 11 ] - Pyspark | 清理 - 字串篇-2.2 : regexp_extract(), regexp_replace(), rlike()

相信經過前一篇落落長的說明後,應該很了解regular expression是在幹嘛了吧那我們今天就開始來進入Pyspark與regular expressio...

鐵人賽 AI & Data DAY 10

技術 『Day10』 如何設計實作 Data pipeline

在前幾天的內容當中,我們陸續介紹了 Data pipeline、Data pipeline 的種類、資料處理,資料品質等主題,相信大家對於 Data pipel...

鐵人賽 AI & Data DAY 9

技術 [ Day 9 ] - Pyspark | 清理 - 字串篇-1 - 切切切 : split(), substr()

昨天講完了如何處理timestamp()的時間格式該如何處理,今天就讓我們來看看,最大宗的部分,字串!講到字串,最常使用的就是大名鼎鼎的split(),subs...

鐵人賽 AI & Data DAY 8

技術 [ Day 8 ] - Pyspark | 清理 - 時間篇 - 2 Timestamp 轉換 : User Defined Function 的出現

在多數情況下,使用to_timestamp(),幾乎可以解決掉所有的時間轉換問題,但Data Cleaning 是永遠不會讓你好過的,那這時候可以怎麼做呢?這時...

鐵人賽 AI & Data DAY 7

技術 [ Day 7 ] - Pyspark | 清理 - 時間篇 - 1 : Timestamp 轉換 : to_timestamp()

各種各樣的轉換,時間今天是星期五,應該是容許水一天的吧 1. to_timestamp(col,format) 基本上就是針對日期格式做相對應的轉換! 詳細情...

鐵人賽 AI & Data DAY 6

技術 [ Day 6 ] - Pyspark | 介紹 - DataFrame篇 - Sample

在資料處理的領域,除了前幾天說的那些overview之外,了解了整個宏觀的資料集,我們還是會需要深入去確認資料的樣態,當資料集有排序性的時候,使用show(),...

鐵人賽 AI & Data DAY 6

技術 『Day6』 Data pipeline 介紹

管線無所不在,雖然說日常生活中常常不會注意到其存在,但是卻對我們的生活影響非常大。舉例來說,在做裝潢時,就必須要把未來房屋的使用情景進行評估。並且需要針對屋主進...

鐵人賽 AI & Data DAY 5

技術 [ Day 5 ] - Pyspark | 介紹 - DataFrame篇 - Filter

過濾一些選擇,可以得到更好的資訊,或許也可以成為一個更好的人吧?就像你要找一個非常優秀的吹風機時,你也會在購物網站下一些特定的filter()讓你能夠更快速的選...

鐵人賽 AI & Data DAY 5

技術 『Day5』 來聊聊 Data Management

"那個Timmy啊,廠商那邊又有多一組類型的資料,你再幫忙收一下""Jerry,資料好像有少喔,幫忙看一下是哪邊的問題,以後看到類...

鐵人賽 AI & Data DAY 4

技術 [ Day 4 ] - Pyspark | 介紹 - DataFrame篇 - Select

21天可以養成一個好習慣, 但3天就可以放棄, 但我今天還是準時坐在這裡, 所以今天你的選擇是什麼呢?我們今天要來討論的是,選擇阿不是啦是select() 其實...

鐵人賽 AI & Data DAY 3

技術 [ Day 3 ] - Pyspark | 介紹 - DataFrame篇 - Data Overview

上一篇簡述了5個讀取資料的方法,是不是開始迫不及待的想要馬上開始進行Data的操作啦先別急先別急,在我們開始實際針對DataFrame 進行操作之前, 先來看看...

鐵人賽 AI & Data DAY 2

技術 [ Day 2 ] - Pyspark | 介紹 - DataFrame篇 - Create DataFrame

啊,忽然不知不覺就是第二天挑戰了,但是腦子還是一片混亂, 所以我們還是就來簡單説説作為一個資料工程師,在胡搞瞎搞馬上要入手時,第一個該開始的地方Create(至...

鐵人賽 AI & Data DAY 1

技術 [ Day 1 ] - Pyspark | 介紹 - 什麼是Pyspark?

前言 1. What is Pyspark ? PySpark 顧名思義,也就是Python 的一個Spark Library,主要是利用Python語法結合S...

鐵人賽 AI & Data DAY 2

技術 DIKW & 資料的層次(Data, Information, Intelligence)

資料的層次 2020 年受邀到台北商業大學授課,當時為了讓同學們了解「資料的層次」,以及“data”、“information”、“file”與“Big dat...

鐵人賽 AI & Data DAY 30
PyTorch 生態鏈實戰運用 系列 第 30

技術 [Day30] 結語:回歸初心,資料是一切的根本

前言 滿多預計要討論的其他Task最後都沒有實作到,居然意外變成是純粹以Classification為例的深度學習實作範例了!在此作為系列篇的最後一篇,打算分享...

鐵人賽 AI & Data DAY 25
Azure介紹以及應用 系列 第 25

技術 Day-25 DP-900介紹 ヾ(;゚;Д;゚;)ノ゙

前文 我們前兩天介紹完Azure的基本Az-900,以及有關Azure在人工智慧、機器學習方面的檢測,就是特化版的AI-900,今天要來介紹另一個特化版,有關資...

鐵人賽 AI & Data DAY 7
Azure介紹以及應用 系列 第 7

技術 Day-7 那Data跟Azure到底有什麼關聯呢?ლ(╯⊙ε⊙ლ╰)

前言 那其實我這次報名競賽的題目為Azure的介紹以及應用,主題選的是AI&Data,那問題就來了,AI跟Data到底跟Azure有什麼關係呢? Azu...

鐵人賽 AI & Data DAY 3
Azure介紹以及應用 系列 第 3

技術 Day3 什麼是Azure-2?ლ(╹◡╹ლ)

前言 上一篇介紹完雲端服務後,這一篇文章我想要介紹Azure雲端服務到底提供什麼功能,讓大家知道它可以運用在什麼地方,但其Azure可以延伸應用非常多,這邊只是...

鐵人賽 AI & Data DAY 2
Azure介紹以及應用 系列 第 2

技術 Day-2 什麼是Azure-1?ლ(・´ェ`・ლ)

前言 再介紹Azure是什麼之前,我們要先了解什麼是雲端服務 雲端服務 雲端服務:是一種符合商業需求的網路作業服務,讓使用者不用購買軟體,只需透過電腦連接遠端伺...

鐵人賽 AI & Data DAY 16

技術 Day16_[tableau desktop]製作雙層圓餅圖

Hi, day16 也是tableau desktop的第一篇文章, 相信大家都會製作圓餅圖了, 若今天要製作雙層的呢? 也就是甜甜圈圖(dount chart...

鐵人賽 AI & Data DAY 1
Azure介紹以及應用 系列 第 1

技術 Day-1 讓我們從0開始認識Azure吧!(附目錄)ლ|^Д^ლ|

前言 如果你是個在資訊科系中打滾的大學生,或是在科技業中游走的上班族,無可避免地會接觸到雲端這塊,其實這幾年雲端的發展越來越完整,趨勢也越來越好,企業端對雲端的...

鐵人賽 AI & Data DAY 15

技術 Day15_[tableau prep]為何需要清理資料

Hi, day15來到了tableau prep的最後一篇文章 前面介紹了14篇關於tableau prep的操作, 這邊或許有些人會有疑問為什麼需要做資料清理...

鐵人賽 AI & Data DAY 14

技術 Day14_[tableau prep]將清理後的資料輸出

Hi, day14我們來講當我們將資料清理成我們的需求格式後, 該如何輸出檔案? 在tableau prep中提供了三種輸出的選項 輸出至本機端的檔案(exc...

鐵人賽 AI & Data DAY 13

技術 Day13_[tableau prep]在本機端同時載入多個有規律名稱的excel資料源

Hi, day13快要到本次系列文tableau prep的部分尾聲了前面幾篇主要是在解說資料ETL的T(Transform)的部分, 也是最核心的 今天來講解...

鐵人賽 AI & Data DAY 12

技術 Day12_[tableau prep]字串類型的其他函式(進階正則表達式)

Hi, day12我們來講更進階的正則表達式這次會用到以下這兩個函式REGEXP_REPLACE(多重自訂規則取代字元)REGEXP_EXTRACT(多重自訂規...

鐵人賽 AI & Data DAY 11

技術 Day11_[tableau prep]分析類型的其他函式(TRIM)

Hi, day11要來介紹tableau prep中的TRIM函式,這個函式可以去除字串前面&後面的空格, 在遇到需要處理字串長度的狀況可以使用到 TR...