028-86922220

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

5.sparkcore之RDD编程

  spark提供了对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD是一个分布式的数据集合,数据可以跨越集群中的多个机器节点,被分区并行执行。
 在spark中,对数据的所有操作不外乎创建RDD、转化已有RDD及调用RDD操作进行求值。spark会自动地将RDD中的数据分发到集群中并行执行。

专注于为中小企业提供网站建设、成都网站设计服务,电脑端+手机端+微信端的三站合一,更高效的管理,为中小企业金牛免费做网站提供优质的服务。我们立足成都,凝聚了一批互联网行业人才,有力地推动了上千多家企业的稳健成长,帮助中小企业通过网站建设实现规模扩充和转变。

五大特性

RDD操作

  RDD支持两种操作:转化操作和行动操作。
5.spark core之RDD编程

转化操作

  RDD的转化操作会返回一个新的RDD。转化操作是惰性求值的,只有行动操作用到转化操作生成的RDD时,才会真正进行转化。
5.spark core之RDD编程
 spark使用lineage(血统)来记录转化操作生成的不同RDD之间的依赖关系。依赖分为窄依赖(narrow dependencies)和宽依赖(wide dependencies)。


忠于技术,热爱分享。欢迎关注公众号:java大数据编程,了解更多技术内容。

5.spark core之RDD编程


分享名称:5.sparkcore之RDD编程
文章分享:http://www.tsicrk.com/article/jpjcid.html

其他资讯

让你的专属顾问为你服务

1.1160s