今天是第17天了啊,突然發現每天要強迫自己產出一篇高品質文章還真的是一件非常辛苦的事情啊,想到這裡突然對所有在網路上我參考過的每個作者,充滿著要溢出的敬意啊,說到敬意,最不可缺的絕對不會在資料處理中忘記的就是 Join
了
有寫過SQL的大家,相信都對Join 感到非常的熟悉對吧,Pyspark的Join也同樣擁有著非常類似的邏輯,甚至多了很多方便的好夥伴,再繼續吹捧下去就要變成奇怪的推銷廣告了,那就讓我們一起來看看Join吧
今日選手!是下面幾位,請出場!
寫在前面,先讓大家看一下有哪些pyspark 究竟有哪些join吧
https://www.facebook.com/ProgrammersCreateLife/photos/a.241809332534619/1965745276807674/?type=1&theater=
啊不對,不小心放錯張了這張才對!
我認為,圖片是最能幫助大家理解各種join 的型態,下面是目前pysaprk的各種join
Inner join– "inner"
Left Outer Join or Left Join - "left" or "leftouter" or "left_outer"
Right Outer Join or Right Join - "right" or "rightouter" or "right_outer"
Outer Join or Full Join - "full" or "outer" or "fullouter" or "full_outer"
Left Semi Join - "semi" or "leftsemi" or "left_semi"
Left Anti Join - "anti" or "leftanti" or "left_anti"
Cross Join - "cross"
讓我們來看看要怎麼在pyspark去實現上圖吧
基本語法:join(other, on = … , how = …)
inner join
left join
right join
Outer join
/Full join
Left Semi Join
Left Anti Join
Cross Join