iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

30天胡搞瞎搞學會pyspark 系列

30天胡搞瞎搞學會pyspark : pyspark 的各種介紹及日常使用,寫給自己也順便挑戰的筆記

鐵人鍊成 | 共 30 篇文章 | 4 人訂閱 訂閱系列文 RSS系列文
DAY 11

[ Day 11 ] - Pyspark | 清理 - 字串篇-2.2 : regexp_extract(), regexp_replace(), rlike()

相信經過前一篇落落長的說明後,應該很了解regular expression是在幹嘛了吧那我們今天就開始來進入Pyspark與regular expressio...

2023-09-26 ‧ 由 vivi_vey 分享
DAY 12

[ Day 12 ] - Pyspark | 清理 - 特殊資料型態篇 - Array : explode()

啊今天先來簡單介紹一下什麼事ArrayType()ArrayType()主要是將Array放入整個dataframe 中,然後Do Re Mi So你的Data...

2023-09-27 ‧ 由 vivi_vey 分享
DAY 13

[ Day 13 ] - Pyspark | 清理 - 特殊資料型態篇 - Struct : json

為什麼會有這樣的資料結構出現: 通常都是在讀Json格式的資料時 遇到這種巢狀(nested)結構時,要怎麼處理呢? 會利用. 或是explode()去展...

2023-09-28 ‧ 由 vivi_vey 分享
DAY 14

[ Day 14 ] - Pyspark | 清理 - 特殊資料型態篇 - MapType :

什麼是MapType() 他是一種用來表示mapping key-value 的pair的格式,很類似於python的Dictionary,使用MapType(...

2023-09-29 ‧ 由 vivi_vey 分享
DAY 15

[ Day 15 ] - Pyspark | 資料轉換 - Column : withColumn()

今天是中秋節連假的第二天,真驚訝我今天還坐在這邊繼續寫 今天要做的也是非常基本的處理,開始囉為什麼會說這也是一個很常用的function呢?當你在做資料處理的時...

2023-09-30 ‧ 由 vivi_vey 分享
DAY 16

[ Day 16 ] - Pyspark | 資料轉換 - Column : withColumnRenamed()

今天是中秋連假的最後一天,還是好好的堅持著的我,對自己感到感動XD希望可以好好堅持到最後一天吧今天要介紹的是這個function,其實跟昨天的withColum...

2023-10-01 ‧ 由 vivi_vey 分享
DAY 17

[ Day 17 ] - Pyspark | 資料集合 - Spark 7 種 Join

今天是第17天了啊,突然發現每天要強迫自己產出一篇高品質文章還真的是一件非常辛苦的事情啊,想到這裡突然對所有在網路上我參考過的每個作者,充滿著要溢出的敬意啊,說...

2023-10-02 ‧ 由 vivi_vey 分享
DAY 18

[ Day 18 ] - Pyspark | 資料集合- broadcast v.s join

經過了昨天的介紹,相信大家都很了解join了,join是個常用的function,但他其實是一個效能很差得執行方式,主要原因是他會將所有資料重新洗牌到同一個no...

2023-10-03 ‧ 由 vivi_vey 分享
DAY 19

[ Day 19 ] - Pyspark | 寫在18天之後 - 底層概念篇 - 惰性執行

過了18天,啤酒都做好了,啊不是,經過了前18天的實作之後,相信大家都開始對pyspark有點熟悉了吧今天要來說一些Pyspark基礎架構,為什麼會過了18天的...

2023-10-04 ‧ 由 vivi_vey 分享
DAY 20

[ Day 20 ] - Pyspark | 寫在18天之後 - 底層概念篇 - DAG

今天來説說DAG吧,這也是一個通常會被放在開頭就會跟大家解釋的spark架構之一,不過一樣的,對我來說,在我的學習歷程裡,被放到很後面才真正理解,所以我想,經過...

2023-10-05 ‧ 由 vivi_vey 分享