一、SparkSession的作用

SparkSession是Spark 2.x版本中最主要的入口点，是操作全局上下文的核心对象，它允许用户轻松访问Spark核心功能并操作数据集。在Spark中使用SparkSession可以进行处理数据的读取、操作、转换和查询等各种操作，同时还支持Spark SQL、Spark Streaming和Machine Learning等模块的使用。

二、SparkSession的功能有

SparkSession提供了以下几个主要功能：

它是处理数据的入口点，可以连接不同的数据源。
它可以用于执行各种查询操作，包括SQL查询和数据集操作。
它可以进行数据的读取、转换和处理等各种操作。
它支持Spark SQL、Spark Streaming和Machine Learning等模块的使用。

三、创建SparkSession

1. 通过SparkConf创建SparkSession

SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");
SparkSession sparkSession = SparkSession.builder().config(conf).getOrCreate();

这个方法需要传入一个SparkConf对象，该对象用于设置一些运行时的环境变量，如应用名、部署方式等。使用SparkConf创建SparkSession时，如果已经存在一个SparkSession对象，则返回该对象，否则将创建一个新的SparkSession实例。

2. 直接创建SparkSession

SparkSession sparkSession = SparkSession.builder()
    .appName("appName")
    .config("spark.master", "local")
    .getOrCreate();

该方法直接通过SparkSession.builder()来创建一个SparkSession实例，并且可以在builder中通过.config()方法来设置一些参数，如应用名、master节点等。

四、SparkSession.SQL

SparkSession.SQL是Spark SQL中的一个核心组件，它允许用户使用SQL语言来查询和操作Spark中的数据。在使用SparkSession进行SQL操作时，用户需要首先把数据集转化成DataFrame，然后再使用DataFrame API或SQL语句来对数据集进行操作。

1. DataFrame API

使用DataFrame API可以通过各种操作来修改和查询数据，如过滤、聚合、分组等。以下是一个简单的DataFrame API的示例：

// 创建一份DataFrame
Dataset<Row> df = sparkSession.read().json("./data/json/data.json");
// 打印出数据框的模式
df.printSchema();
// 打印出数据框的内容
df.show();

2. SparkSession.SQL

使用SparkSession.SQL可以使用SQL查询语句来操作数据，以下是一个简单的SparkSession.SQL的示例：

// 创建一份DataFrame
Dataset<Row> df = sparkSession.read().json("./data/json/data.json");
// 创建一个临时表
df.createOrReplaceTempView("people");
// 执行SQL查询
Dataset<Row> result = sparkSession.sql("SELECT * FROM people WHERE age > 21");
// 输出查询结果
result.show();

五、SparkSession需要关闭吗

不需要。SparkSession会自动根据应用程序的生命周期来进行关闭。

SparkSession sparkSession = SparkSession.builder().appName("appName").getOrCreate();
// 执行各种操作
sparkSession.stop();

六、SparkSession.master

在创建SparkSession时，可以通过.master()方法来指定Spark应用程序运行的Master节点（即Spark集群的调度器）。以下是一个SparkSession.master的示例：

SparkSession sparkSession = SparkSession.builder()
    .appName("appName")
    .master("local[4]")
    .getOrCreate();

七、SparkSession.Builder

SparkSession.Builder用于创建SparkSession对象的构造器。在构造器中，可以设置各种参数，如应用名、Master节点、Spark配置等。以下是一个SparkSession.Builder的示例：

SparkSession.Builder builder = SparkSession.builder()
    .appName("appName")
    .master("local[4]");
// 设置一些额外的Spark配置
builder.config("spark.some.config.option", "some-value");
// 创建SparkSession对象
SparkSession sparkSession = builder.getOrCreate();

八、SparkSession需要导入什么包

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

SparkSession详解