一、SparkSession的作用
SparkSession是Spark 2.x版本中最主要的入口点,是操作全局上下文的核心对象,它允许用户轻松访问Spark核心功能并操作数据集。在Spark中使用SparkSession可以进行处理数据的读取、操作、转换和查询等各种操作,同时还支持Spark SQL、Spark Streaming和Machine Learning等模块的使用。
二、SparkSession的功能有
SparkSession提供了以下几个主要功能:
- 它是处理数据的入口点,可以连接不同的数据源。
- 它可以用于执行各种查询操作,包括SQL查询和数据集操作。
- 它可以进行数据的读取、转换和处理等各种操作。
- 它支持Spark SQL、Spark Streaming和Machine Learning等模块的使用。
三、创建SparkSession
1. 通过SparkConf创建SparkSession
SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");
SparkSession sparkSession = SparkSession.builder().config(conf).getOrCreate();
这个方法需要传入一个SparkConf对象,该对象用于设置一些运行时的环境变量,如应用名、部署方式等。使用SparkConf创建SparkSession时,如果已经存在一个SparkSession对象,则返回该对象,否则将创建一个新的SparkSession实例。
2. 直接创建SparkSession
SparkSession sparkSession = SparkSession.builder()
.appName("appName")
.config("spark.master", "local")
.getOrCreate();
该方法直接通过SparkSession.builder()来创建一个SparkSession实例,并且可以在builder中通过.config()方法来设置一些参数,如应用名、master节点等。
四、SparkSession.SQL
SparkSession.SQL是Spark SQL中的一个核心组件,它允许用户使用SQL语言来查询和操作Spark中的数据。 在使用SparkSession进行SQL操作时,用户需要首先把数据集转化成DataFrame,然后再使用DataFrame API或SQL语句来对数据集进行操作。
1. DataFrame API
使用DataFrame API可以通过各种操作来修改和查询数据,如过滤、聚合、分组等。以下是一个简单的DataFrame API的示例:
// 创建一份DataFrame
Dataset<Row> df = sparkSession.read().json("./data/json/data.json");
// 打印出数据框的模式
df.printSchema();
// 打印出数据框的内容
df.show();
2. SparkSession.SQL
使用SparkSession.SQL可以使用SQL查询语句来操作数据,以下是一个简单的SparkSession.SQL的示例:
// 创建一份DataFrame
Dataset<Row> df = sparkSession.read().json("./data/json/data.json");
// 创建一个临时表
df.createOrReplaceTempView("people");
// 执行SQL查询
Dataset<Row> result = sparkSession.sql("SELECT * FROM people WHERE age > 21");
// 输出查询结果
result.show();
五、SparkSession需要关闭吗
不需要。SparkSession会自动根据应用程序的生命周期来进行关闭。
SparkSession sparkSession = SparkSession.builder().appName("appName").getOrCreate();
// 执行各种操作
sparkSession.stop();
六、SparkSession.master
在创建SparkSession时,可以通过.master()方法来指定Spark应用程序运行的Master节点(即Spark集群的调度器)。 以下是一个SparkSession.master的示例:
SparkSession sparkSession = SparkSession.builder()
.appName("appName")
.master("local[4]")
.getOrCreate();
七、SparkSession.Builder
SparkSession.Builder用于创建SparkSession对象的构造器。在构造器中,可以设置各种参数,如应用名、Master节点、Spark配置等。 以下是一个SparkSession.Builder的示例:
SparkSession.Builder builder = SparkSession.builder()
.appName("appName")
.master("local[4]");
// 设置一些额外的Spark配置
builder.config("spark.some.config.option", "some-value");
// 创建SparkSession对象
SparkSession sparkSession = builder.getOrCreate();
八、SparkSession需要导入什么包
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;