Spark 连接 Cassandra

Cassandra支持很多API,Spark也一样,这里用两者共同的Python API举例。

首先需要安装Pyspark-Cassandra,它是基于Cassandra Spark Connector的。但是这里的安装是每次打开Pyspark都要执行的,并不是永久的安装。在terminal中pyspark的路径运行

./pyspark --packages anguenot:pyspark-cassandra:0.5.0

打开是Pyspark Shell, Ipython,或Jupyter。在其中运行

import pyspark_cassandra

from pyspark_cassandra import RowFormat

# 下面引号内分别为keyspace和table的名称,把cassandra table转换成spark RDD (MapPartitionsRDD) 
# row_format默认为ROW,还可以换成TUPLE或DICT,即每行数据的存储格式
table = sc.cassandraTable("keyspace", "table", row_format=RowFormat.TUPLE) 

df = table.toDF() # 把RDD转换成Spark DataFrame

df.show() # 展现df的前20行

df.describe().show() # 对df进行描述,包括count, mean, stddev, min, max

登录注册后参与评论