今天來説說PySpark的for each吧,過去在使用SQL時,總會因為想要使用迴圈但SQL Query又無法使用迴圈而感到很困擾嗎?
來看看(或許?)可以拯救你的迴圈好朋友吧!Pyspark for each!
pyspark 的foreach方法是用來對RDD 元素進行遍歷操作的。它是一個高級函數,在每個分區上並行地運行,並將RDD 元素作為參數傳遞給使用者提供的函數。
foreach(func)
example :
rdd = sc.parallelize([1, 2, 3, 4])
def func(x):
print(x)
rdd.foreach(func)
'''
1
2
3
4
'''
PySpark foreach()是一個RDD上的action的運算,但他不會return任何type,通常都是被用來處理資料,或是寫入外部的資料源中。
如果有任何不理解、錯誤或其他方法想分享的話,歡迎留言給我!喜歡的話,也歡迎按讚訂閱!
我是 Vivi,一位在雲端掙扎的資料工程師!我們下一篇文章見!Bye Bye~
【本篇文章將同步更新於個人的 Medium,期待與您的相遇!】