spark中的RDD是什么-创新互联
这篇文章主要讲解了“spark中的RDD是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“spark中的RDD是什么”吧!
创新互联建站服务项目包括霍邱网站建设、霍邱网站制作、霍邱网页制作以及霍邱网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,霍邱网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到霍邱省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!RDD是什么
Spark是围绕弹性分布式数据集(RDD)的概念展开的,RDD是一种容错的可分布式操作的数据集合。有两中方式可以创建RDD:一种是将驱动程序中的已有集合平行化;另外一种是引用外部存储系统的数据集,例如共享文件系统,HDFS, HBase, 或者其他类似Hadoop的数据源。
RDD的特点之一是分布式存储,它的好处就是数据存储在不同的节点上,当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候,既可以存储在内存中,也可以存储在磁盘上,也可以两者结合使用。RDD还有个特点就是延迟计算,当是transformation算子的时候,并不执行操作,直到遇到action算子的时候才开始执行计算。
感谢各位的阅读,以上就是“spark中的RDD是什么”的内容了,经过本文的学习后,相信大家对spark中的RDD是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!
网站标题:spark中的RDD是什么-创新互联
文章来源:http://azwzsj.com/article/dcejdh.html