iT邦幫忙

第 12 屆 iT 邦幫忙鐵人賽

DAY 27
0
自我挑戰組

30天搞懂Python系列 第 30

[第30天]30天搞懂Python-spark

前言

使用pyspark函式庫實作 word count程式。

程式實作

安裝 pyspark函式庫

pip install pyspark

https://ithelp.ithome.com.tw/upload/images/20201015/20107143itKUOZXokV.jpg

import sys
 
from pyspark import SparkContext, SparkConf
 
if __name__ == "__main__":	
	# 建立 Spark context
	sc = SparkContext("local","PySpark Word Count")	
	# 自 imput.txt 讀出
	words = sc.textFile("/Users/allen/Dropbox/Code_Section/CodeWS/30/input.txt").flatMap(lambda line: line.split(" "))
	# 計算每個字的次數
	wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda a,b:a +b)
	# 將計數輸出
	wordCounts.saveAsTextFile("/Users/allen/Dropbox/Code_Section/CodeWS/30/output/")

程式執行成果

https://ithelp.ithome.com.tw/upload/images/20201015/20107143V6jWRvnINE.jpg


上一篇
[第29天]30天搞懂Python-HTTP POST
系列文
30天搞懂Python30

尚未有邦友留言

立即登入留言