pyspark基础使用教程-阳光明媚

第一章

pyspark基本的使用教程

并进行简单的数据分析

from pyspark import SparkContext, SparkConf
#创建spark
conf = SparkConf().setMaster('local').setAppName('MyApp')
sc = SparkContext(conf=conf)
#读取本地文件
pair_object = sc.textFile('./log.txt')
#pyspark生成的rdd保存到内存中
pair_object.cache()
#按行分割，然后取第二列，并转化成元组
pair_add1 = pair_object.map(lambda line: (line.split("\t")[2],1))
#通过元组进行汇总
pair_add2 = pair_add1.reduceByKey(lambda x1,x2:x1+x2)
#进行排序，ascending为Flask是降序，否则为升序
pair_add2 = pair_add2.sortBy(lambda tp: tp[1], ascending=False)
#将rdd转化成python可识别的元组并进行输出
print(pair_add2.collect())
print(len(pair_add2.collect()))
#关闭pyspark
sc.stop()

此分享结束！

文章版权声明 1、本网站名称：阳光明媚
2、本站永久网址：http://www.cnzxv.cn
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ2943962123进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END