spark基础-rdd特性-创新互联
RDD特性:
成都创新互联公司坚持“要么做到,要么别承诺”的工作理念,服务领域包括:成都网站制作、成都做网站、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的菏泽网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!1.RDD是spark提供的核心抽象,全称:Resillient Distributed Dataset,即弹性分布式数据集。
2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,氛围多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以并行操作(分布式数据集)
3.RDD通常通过Hadoop上的文件来创建。有时也可以通过应用程序中的集合赖床见。
4.RDD最重要的特性就是提供了容错性,可以从节点失败中恢复过来。即:如果某个节点的RDD partition因为节点故障导致数据丢失,那么RDD会自动通过自己的数据来源重新计算该partitin。
5.RDD的每个partition在spark节点上,默认都是放在内存中,但是如果内存中放不下这么多数据,多出来的数据,就会把partition中的部分数据写在磁盘上,进而保存。对于用户来说,并不知道RDD内存数据存储在哪里。RDD的这种自动进行内存和词牌之间的切换机制,就是RDD的弹性特点所在。
一个RDD在逻辑上抽象地代表了一个HDFS文件。但是实际上是呗分区的,氛围多个分区,多个分区散落在spark集群中,不同的节点上。
Spark核心编程是什么:
首先,定义初始的RDD,就是说,要定义订一个数据从哪里来。
第二:定义对RDD的计算操作,这个在spark里称为算子
第三:就是循环往复的过程第一次计算完成后,数据就会到了新的一批节点上,变成了新的RDD,然后再次反复,针对新的RDD定义算子操作。
第四:获得最终的数据,将数据保存起来。
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
分享名称:spark基础-rdd特性-创新互联
转载源于:http://azwzsj.com/article/cshjeh.html