028-86922220

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

1.spark简介-创新互联

spark是一个用于大规模数据处理的统一计算引擎。适用于各种各样原先需要多种不同的分布式平台处理的场景,包括批处理、迭代计算、交互式查询、流处理。通过统一的框架将各种处理流程整合到一起。

创新互联专注于改则网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供改则营销型网站建设,改则网站制作、改则网页设计、改则网站官网定制、微信小程序服务,打造改则网络公司原创品牌,更为您提供改则网站排名全网营销落地服务。

spark特性

spark通过使用先进的DAG调度器、查询优化器和物理执行引擎,可以高性能地进行批量及流式处理。使用逻辑回归算法进行迭代计算,spark比hadoop速度快100多倍。

1.spark简介

spark支持多种编程语言,比如Java、Scala、Python、R及SQL。

spark提供了超过80多个高级算子操作,可以很便捷地构建并行计算应用。

spark构建了一个完善的生态栈,将批量计算、交互式计算、流式计算、机器学习及图计算整合到一个统一的框架体系中。

1.spark简介

spark可以运行在standalone、YARN、Mesos、Kubernetes及EC2多种调度平台上。

另外,spark可以接入多种数据源,比如HDFS、Alluxio、HBase、Cassandra、Hive及本地文件。

1.spark简介

spark生态栈

1.spark简介

Spark Core

Spark Core实现了Spark的基本功能,包括任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core还包含了对弹性分布式数据集(resilient distributed dataset,简称RDD)的API定义。RDD表示分布在多个计算节点上并行操作的元素集合,是Spark的核心抽象模型。

Spark SQL

Spark SQL是Spark用来处理结构化数据的子框架。Spark SQL支持多种数据源,比如Hive表、Parquet及JSON等。Spark SQL可使用SQL或Hive的SQL方言(HQL)查询数据,还支持将SQL和RDD相互转换。

Spark Streaming

Spark Streaming是Spark提供的对实时数据进行流式计算的组件。Spark Streaming提供了操作数据流的API,同时还提供了高级别的容错性、吞吐量及可伸缩性。

MLlib

MLlib是一个提供常见机器学习(ML)功能的程序库。MLlib提供了很多种机器学习算法,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入及更底层的机器学习原语(包括通用的梯度下降优化算法)。

Graphx

Graphx是用来操作图(比如社交网络的朋友关系图)的程序库,可进行并行的图计算。Graphx扩展了RDD API,能用来创建一个顶点和边都包含任意属性的有向图。Graphx支持对图的各种操作(比如进行图分隔的subgraph和操作所有顶点的mapVertices),及一些常用算法(比如PageRank和三角计数)。

集群管理器

Spark设计为可高效地在一个计算节点到数千个计算节点之间伸缩计算,所以为了获取大灵活性,spark支持在各种集群管理器上运行,包括Hadoop YARN、Apache Mesos及Spark自带的独立调度器等。

spark用户及用途

spark的使用者主要分为两大目标人群:数据分析师和工程师。这两大人群使用spark的典型用例不一致,大致分为两类:数据分析和数据处理。

数据分析

数据分析师就是主要负责分析数据并建模的人。他们具备SQL、统计、预测建模(机器学习)等方面技能,有一定使用Python、Matlab或R编程的能力。

Spark通过一系列组件支持数据分析任务。Spark shell提供python和scala接口来进行交互式数据分析。Spark SQL提供独立的SQL shell来使用SQL探索数据,也可以通过标准的Spark程序或Spark shell进行SQL查询。MLlib程序库进行机器学习和数据分析。Spark还支持调用R或Matlab外部程序。

数据处理

工程师就是使用Spark开发数据处理应用的软件开发者。他们具备软件工程概念(封装、接口设计及面向对象思想),能使用工程技术设计软件系统。

Spark为开发用于集群并行执行的程序提供了捷径。不需要开发者关注分布式问题、网络通信及程序容错性。为工程师提供足够的接口实现常见的任务及对应用监控、审查和性能调优。

spark简史


忠于技术,热爱分享。欢迎关注公众号:java大数据编程,了解更多技术内容。

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


名称栏目:1.spark简介-创新互联
文章起源:http://www.tsicrk.com/article/dchscg.html

其他资讯

让你的专属顾问为你服务

1.9011s