iT邦幫忙

2023 iThome 鐵人賽

DAY 17
0
AI & Data

30天胡搞瞎搞學會pyspark系列 第 17

[ Day 17 ] - Pyspark | 資料集合 - Spark 7 種 Join

  • 分享至 

  • xImage
  •  

今天是第17天了啊,突然發現每天要強迫自己產出一篇高品質文章還真的是一件非常辛苦的事情啊,想到這裡突然對所有在網路上我參考過的每個作者,充滿著要溢出的敬意啊,說到敬意,最不可缺的絕對不會在資料處理中忘記的就是 Join
有寫過SQL的大家,相信都對Join 感到非常的熟悉對吧,Pyspark的Join也同樣擁有著非常類似的邏輯,甚至多了很多方便的好夥伴,再繼續吹捧下去就要變成奇怪的推銷廣告了,那就讓我們一起來看看Join吧

今日選手!是下面幾位,請出場!

前言:

寫在前面,先讓大家看一下有哪些pyspark 究竟有哪些join吧
https://ithelp.ithome.com.tw/upload/images/20231002/20163029UTVYafuL1S.jpg
https://www.facebook.com/ProgrammersCreateLife/photos/a.241809332534619/1965745276807674/?type=1&theater=

啊不對,不小心放錯張了這張才對!
我認為,圖片是最能幫助大家理解各種join 的型態,下面是目前pysaprk的各種join
https://ithelp.ithome.com.tw/upload/images/20231002/20163029CpZcLRROzm.png

Inner join– "inner"
Left Outer Join or Left Join - "left" or "leftouter" or "left_outer"
Right Outer Join or Right Join - "right" or "rightouter" or "right_outer"
Outer Join or Full Join - "full" or "outer" or "fullouter" or "full_outer"
Left Semi Join - "semi" or "leftsemi" or "left_semi"
Left Anti Join - "anti" or "leftanti" or "left_anti"
Cross Join - "cross"

語法:

讓我們來看看要怎麼在pyspark去實現上圖吧

基本語法:join(other, on = … , how = …)

1. inner join

2. left join

3. right join

4. Outer join/Full join

5. Left Semi Join

6. Left Anti Join

7. Cross Join


上一篇
[ Day 16 ] - Pyspark | 資料轉換 - Column : withColumnRenamed()
下一篇
[ Day 18 ] - Pyspark | 資料集合- broadcast v.s join
系列文
30天胡搞瞎搞學會pyspark30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言