028-86922220

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

大数据的一些相关知识介绍

什么是大数据

 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
   大数据的定义是4Vs:Volume、Velocity、Variety、Veracity。用中文简单描述就是大、快、多、真。

如何学习大数据

 在谈到学习大数据的时候,不得不提Hadoop和Spark。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 [1]
Hadoop实现了一个分布式文件系统(Hadoop Distributed File
System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high
throughput)来访问应用程序的数据,适合那些有着超大数据集(large data
set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

简而言之,Hadoop就是处理大数据的一个分布式系统基础架构。

  • Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop
    MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark
    在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
    Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala
    能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark
    是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos
    的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and
    People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

简而言之,Spark是那么一个专门用来对那些分布式存储的大数据进行处理的工具。

关于Hadoop和Spark学习这块,我也是个初学者,对于整体的学习路线目前无法给出很好的答案,但是可以推荐一些学习大数据不错的文章以及相关资源,这些可以在本文底部获取。

大数据的相关技术介绍

首先看张大数据的整体技术图吧,可以有个更直观的了解。

cdn.xitu.io/2018/8/14/16536f567136f1ae?w=655&h=413&f=png&s=275394">
注:Shark 目前已经被Spark SQL取代了。

 看到了这么多相关技术,是不是眼花了了呢,这上面的技术别说都精通,全部都能用好的估计也多少。
  那么这些技术应该主要学习那些呢?

先将这些技术做个分类吧。

这样整体之后,对于如何学习是不是有个更明确的路线了呢?

那么个人觉得初步学习的技术应该有以下这些:

参考文章

大数据初步了解
http://lxw1234.com/archives/2016/11/779.htm

大数据杂谈
http://lxw1234.com/archives/2016/12/823.htm

推荐文章

零基础学习Hadoop
http://blog.csdn.net/qazwsxpcm/article/details/78460840

HBase 应用场景
http://blog.csdn.net/lifuxiangcaohui/article/details/39894265

Hadoop硬件选择
http://bigdata.evget.com/post/1969.html

图解Spark:核心技术与案例实战
http://www.cnblogs.com/shishanyuan/category/925085.html

一个大数据项目的架构设计与实施方案
http://www.360doc.com/content/17/0603/22/22712168_659649698.shtml

相关文档

Hadoop-10-years
链接:http://pan.baidu.com/s/1nvBppQ5 密码:7i7m

Hadoop权威指南
链接:http://pan.baidu.com/s/1skJEzj3 密码:0ryw

Hadoop实战
链接:http://pan.baidu.com/s/1dEQi29V 密码:ddc7

Hadoop源代码分析
链接:http://pan.baidu.com/s/1bp8RTcN 密码:ju63

Spark最佳学习路径
链接:http://pan.baidu.com/s/1i5MmJVv 密码:qfbt

深入理解大数据+大数据处理与编程实践
链接:http://pan.baidu.com/s/1dFq6OSD 密码:7ggl

版权声明:
作者:虚无境
博客园出处:http://www.cnblogs.com/xuwujing
CSDN出处:http://blog.csdn.net/qazwsxpcm    
个人博客出处:http://www.panchengming.com
原创不易,转载请标明出处,谢谢!


文章题目:大数据的一些相关知识介绍
标题来源:http://www.tsicrk.com/article/godpci.html

其他资讯

让你的专属顾问为你服务

2.2328s