本文目录一览:
- java 在本地调试spark引用异常如何解决
- spark java本地环境怎么搭建
- spark和java的关系
- Spark 中用 Scala 和 java 开发有什么区别
- java的怎么操作spark的dataframe
java 在本地调试spark引用异常如何解决
你没有管理权限,意思如下:具有视图权限的用户:SET(管理员);具有视图权限的组:SET();具有修改权限的USER:SET(管理员);具有修改权限的组:SET();
spark java本地环境怎么搭建
- 环境准备
- Eclipse 请不要使用最新的 Neon(4.6) ,太多Bug了。还是使用最新的 Mars(4.5) 系列吧。
- JDK 版本8.x (Linux推荐Oracle, 没有测试过OpenJDK)
- 因为只是用Java,因此无需安装Scala及其相应的插件
- 创建一个新的maven项目
pom.xml
依赖配置:<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0</version> </dependency> <dependency> <groupId>javax.servlet</groupId> <artifactId>*</artifactId> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.1</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.6.1</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.10</artifactId> <version>1.6.1</version> </dependency> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.10.5</version> </dependency>
这里只列出了必要的几个依赖。其他的请根据你自己的项目需求添加。
- 使用maven打包
- 之后在Goal之中填写
clean package
即可。 - 如果在修改了与Spark相关的代码之后,需要重新编译打包才行。否则会有异常提示。
- 之后在Goal之中填写
- 代码编写注意事项:
在创建
JavaSparkContext
的时候,需要把自己加进去。
其中public static JavaSparkContext getContext(String taskName) { JavaSparkContext sc = new JavaSparkContext(SparkConnUtils.getSparkConf(taskName)); sc.addJar("target/sparkstat-0.0.1-SNAPSHOT.jar"); return sc; }
target/sparkstat-0.0.1-SNAPSHOT.jar
是 maven 运行之后生成的完整的 jar 包。
spark和java的关系
通常大家只是说Spark是基于内存计算的,速度比MapReduce要快。或者说内存中迭代计算。其实我们要抓住问题的本质。总结有以下几点:
- Spark vs MapReduce ≠ 内存 vs 磁盘
- 其实Spark和MapReduce的计算都发生在内存中,区别在于:
- MapReduce通常需要将计算的中间结果写入磁盘,然后还要读取磁盘,从而导致了频繁的磁盘IO。
- Spark则不需要将计算的中间结果写入磁盘,这得益于Spark的RDD(弹性分布式数据集,很强大)和DAG(有向无环图),其中DAG记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中,且能够从DAG中恢复,大大减少了磁盘IO。
- 其实Spark和MapReduce的计算都发生在内存中,区别在于:
- Spark vs MapReduce Shuffle的不同
- MapReduce在Shuffle时需要花费大量时间进行排序,排序在MapReduce的Shuffle中似乎是不可避免的;
- Spark在Shuffle时则只有部分场景才需要排序,支持基于Hash的分布式聚合,更加省时;
- 多进程模型 vs 多线程模型的区别
- MapReduce采用了多进程模型,而Spark采用了多线程模型。
- 多进程模型的好处是便于细粒度控制每个任务占用的资源,但每次任务的启动都会消耗一定的启动时间。
- Spark则是通过复用线程池中的线程来减少启动、关闭task所需要的开销。
- 多线程模型也有缺点,由于同节点上所有任务运行在一个进程中,因此会出现严重的资源争用,难以细粒度控制每个任务占用资源。 总结: 关于Spark为什么比MapReduce快,或者Spark速度快于MapReduce的原因,总结至少有这几点不同之处吧。
- MapReduce采用了多进程模型,而Spark采用了多线程模型。
Spark 中用 Scala 和 java 开发有什么区别
- 构建系统的选择,sbt更合适用来构建Scala工程,maven更合适用来构建Java工程。
- 对于spark中的API来说,Java和Scala有差别,但差别并不大。
- 如果用Scala开发spark原型程序,可以用spark-shell“打草稿”,或者直接使用spark-shell做交互式实时查询。
- 用Scala代码量将减少甚至一个数量级,不过Scala的使用门槛较高。 建议: 使用Scala构建spark作业,因为spark本身为sbt所构建,同时使用Scala开发spark作业将有助于理解spark的实现机制。
- Scala相对Java语法更丰富,更简洁,写起来更像脚本,能够提高开发效率。
- 使用Java的话代码会规范些,不过太臃肿,代码量更大。
- 另外Spark基本使用函数式编程,使用Java的话可能需要写一大堆匿名类,而Scala只需要一个lambda表达式。
- Java不支持自动类型推导,RDD类基本都是泛型,声明时需要写一串类类型,而Scala基本可以省略变量类型。
- 另外,如果喜欢,可以混合Java和Scala,因为二者最终都是编译成class文件,使用Scala能够随意调用Java实现的类和方法。 从表面上看,无论采用哪种语言,都能完成一样的功能,只是代码量有多有少,开发人员根据自己的情况选择使用Java还是Scala都可。 据说目前最新的Java 8已经支持函数式接口了,Java 9也将推出Java Shell功能,慢慢地会变得和Scala一样简洁。
java的怎么操作spark的dataframe
import java.util.Properties;
import org.apache.log4j.Logger;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.SaveMode;
public class Demo_Mysql3 {
private static Logger logger = Logger.getLogger(Demo_Mysql2.class);
public static void main(String[] args) {
// 你的代码逻辑
}
}