iT邦幫忙

2023 iThome 鐵人賽

DAY 25
0
AI & Data

30天胡搞瞎搞學會pyspark系列 第 25

[ Day 25 ] - Pyspark | Advance - foreach

  • 分享至 

  • xImage
  •  

今天來説說PySpark的for each吧,過去在使用SQL時,總會因為想要使用迴圈但SQL Query又無法使用迴圈而感到很困擾嗎?
來看看(或許?)可以拯救你的迴圈好朋友吧!Pyspark for each!

pyspark 的foreach方法是用來對RDD 元素進行遍歷操作的。它是一個高級函數,在每個分區上並行地運行,並將RDD 元素作為參數傳遞給使用者提供的函數。

語法:

foreach(func)
example :

rdd = sc.parallelize([1, 2, 3, 4])
def func(x):
    print(x)
rdd.foreach(func)
'''
1
2
3
4
'''

結語:

PySpark foreach()是一個RDD上的action的運算,但他不會return任何type,通常都是被用來處理資料,或是寫入外部的資料源中。

如果有任何不理解、錯誤或其他方法想分享的話,歡迎留言給我!喜歡的話,也歡迎按讚訂閱!

我是 Vivi,一位在雲端掙扎的資料工程師!我們下一篇文章見!Bye Bye~
【本篇文章將同步更新於個人的 Medium,期待與您的相遇!】


上一篇
[ Day 24 ] - Pyspark | Advance - Window Function
下一篇
[ Day 26 ] - Pyspark | Performance - 寫在最後的效能議題 : 開發習慣
系列文
30天胡搞瞎搞學會pyspark30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言