Spark的安装和基础编程-创新互联

Linux系统:Ubuntu 16.04

成都创新互联主要为客户提供服务项目涵盖了网页视觉设计、VI标志设计、全网整合营销推广、网站程序开发、HTML5响应式成都网站建设手机网站制作、微商城、网站托管及成都网站维护公司、WEB系统开发、域名注册、国内外服务器租用、视频、平面设计、SEO优化排名。设计、前端、后端三个建站步骤的完善服务体系。一人跟踪测试的建站服务标准。已经为人造雾行业客户提供了网站设计服务。

Hadoop: 2.7.1

JDK: 1.8

Spark: 2.4.3

一.下载安装文件

http://spark.apache.org/downloads.html

https://archive.apache.org/dist/spark/

hadoop@dblab:/usr/local$ sudo wget http://mirror.bit.edu.cn/apache/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

hadoop@dblab:/usr/local$ sudo tar -zxf spark-2.4.3-bin-hadoop2.7.tgz -C spark

hadoop@dblab:/usr/local$ sudo chown -R hadoop:hadoop spark/

二.配置相关文件

hadoop@dblab:/usr/local/spark$ ./conf/spark-env.sh.template  ./conf/spark-env.sh

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

#验证Spark是否安装成功

hadoop@dblab:/usr/local/spark$ bin/run-example SparkPi

Pi is roughly 3.139035695178476   

三.启动Spark Shell

hadoop@dblab:/usr/local/spark$ ./bin/spark-shell     

Welcome to

  ____              __

 / __/__  ___ _____/ /__

_\ \/ _ \/ _ `/ __/  '_/

/___/ .__/\_,_/_/ /_/\_\   version 2.1.0

  /_/

Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_212)

Type in expressions to have them evaluated.

Type :help for more information.

scala> 

scala> 8*2+5

res0: Int = 21

四.读取文件

1.读取本地文件

hadoop@dblab:/usr/local/hadoop$ ./sbin/start-dfs.sh                             

scala> val textFile=sc.textFile("file:///usr/local/spark/README.md")

textFile: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/README.md MapPartitionsRDD[1] at textFile at :24

scala> textFile.first()

res0: String = # Apache Spark

2.读取HDFS文件

hadoop@dblab:/usr/local/hadoop$ ./bin/hdfs dfs -put /usr/local/spark/README.md .

hadoop@dblab:/usr/local/hadoop$ ./bin/hdfs dfs -cat README.md

scala> val textFile=sc.textFile("hdfs://localhost:9000/user/hadoop/README.md")

textFile: org.apache.spark.rdd.RDD[String] = hdfs://localhost:9000/user/hadoop/README.md MapPartitionsRDD[3] at textFile at :24

scala> textFile.first()

res1: String = # Apache Spark

scala> :quit

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


文章名称:Spark的安装和基础编程-创新互联
分享路径:http://azwzsj.com/article/dggsej.html