iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

30天胡搞瞎搞學會pyspark 系列

30天胡搞瞎搞學會pyspark : pyspark 的各種介紹及日常使用,寫給自己也順便挑戰的筆記

鐵人鍊成 | 共 30 篇文章 | 3 人訂閱 訂閱系列文 RSS系列文
DAY 21

[ Day 21 ] - Pyspark | 寫在18天之後 - 底層概念篇 - Shuffle

今天來説說Shuffle吧 Shuffle 是什麼呢? 待補 Shuffle的本義是洗牌、混洗,把一組有一定規則的數據盡量轉換成一組無規則的數據,越隨機越好。...

2023-10-06 ‧ 由 vivi_vey 分享
DAY 22

[ Day 22 ] - Pyspark | 寫在18天之後 - 底層概念篇 - RDD

今天來説說RDD吧 RDD 是什麼呢? 來舉個比較生活化的例子相信大家都會了解何謂RDD了 世界盃比賽開打了:想像今天所有參賽的國家都是是一個大集合,每隊都要...

2023-10-07 ‧ 由 vivi_vey 分享
DAY 23

[ Day 23 ] - Pyspark | Advance - Persist - 關於效能

前幾天進行了沒有coding 且生硬的知識介紹後,相信大家應該都多多少少有一些對於基礎架構的了解吧(?)那我們今天就稍微深入一點點關於分散式架構與效能議題也讓大...

2023-10-08 ‧ 由 vivi_vey 分享
DAY 24

[ Day 24 ] - Pyspark | Advance - Window Function

今天要來簡單介紹一下Window Function,window function,通常都會用來計算Rank(排名),row_number,今天會簡單介紹一下w...

2023-10-09 ‧ 由 vivi_vey 分享
DAY 25

[ Day 25 ] - Pyspark | Advance - foreach

今天來説說PySpark的for each吧,過去在使用SQL時,總會因為想要使用迴圈但SQL Query又無法使用迴圈而感到很困擾嗎?來看看(或許?)可以拯救...

2023-10-10 ‧ 由 vivi_vey 分享
DAY 26

[ Day 26 ] - Pyspark | Performance - 寫在最後的效能議題 : 開發習慣

今天要來談談如何優化妳的程式,在寫code一段時間後,我總是會忍不住問自己,這樣寫是不是比較好,那那樣寫會不會讓我的code跑得更有效率更節省資源呢?特別是你用...

2023-10-11 ‧ 由 vivi_vey 分享
DAY 27

[ Day 27 ] - Pyspark | Performance - 寫在最後的效能議題 : 參數調校

Pyspark的效能調校將會分為四的主題說明 開發習慣 參數調校 資料傾斜(Skew) Shuffle全文參考學習https://umbertogriffo....

2023-10-12 ‧ 由 vivi_vey 分享
DAY 28

[ Day 28 ] - Pyspark | Performance - 寫在最後的效能議題 : 資料傾斜(Skew)

Pyspark的效能調校將會分為四的主題說明 開發習慣 參數調校 資料傾斜(Skew) Shuffle今天主要會從資料傾斜來做闡述,開始囉 資料傾斜(Ske...

2023-10-13 ‧ 由 vivi_vey 分享
DAY 29

[ Day 29 ] - Pyspark | Performance - 寫在最後的效能議題 : Shuffle Issue (map-reduce))

Pyspark的效能調校將會分為四的主題說明 開發習慣 參數調校 資料傾斜(Skew) Shuffle今天主要會從Shuffle來做闡述,開始囉 什麼樣的操...

2023-10-14 ‧ 由 vivi_vey 分享
DAY 30

[ Day 30 ] - Pyspark | 完賽!

沒想到寫著寫著就這樣結束了,也順利的完賽了 系列回顧 在這30天挑戰主題 Pyspark 介紹 Pyspark 清理 Pyspark 資料轉換 Pyspark...

2023-10-15 ‧ 由 vivi_vey 分享