028-86922220

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

Hadoop中的文件格式有哪些

本篇内容介绍了“Hadoop中的文件格式有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

创新互联专注为客户提供全方位的互联网综合服务,包含不限于网站制作、网站建设、温江网络推广、成都小程序开发、温江网络营销、温江企业策划、温江品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联为所有大学生创业者提供温江建站搭建服务,24小时服务热线:13518219792,官方网址:www.cdcxhl.com

Hadoop文件格式初学者指南

Hadoop中的文件格式有哪些

几周前,我写了一篇有关Hadoop的文章,并谈到了它的不同部分。 以及它如何在数据工程中扮演重要角色。 在本文中,我将总结Hadoop中不同的文件格式。  本主题将是一个简短而快速的主题。 如果您想了解Hadoop的工作原理以及它在数据工程师中的重要作用,请在此处访问我关于Hadoop的文章,或乐于跳过。

Hadoop中的文件格式大致分为两类:面向行和面向列:

Hadoop中的文件格式有哪些
Hadoop中的文件格式有哪些
> Picture 1.(Left Side )Show the Logical Table and Picture 2. ( Right  Side) Row-Oriented Layout(Sequ
Hadoop中的文件格式有哪些
> Picture 3. Column-oriented Layout (RC File)

如果仍不清楚行和列的方向,请不用担心,您可以访问此链接,了解它们之间的区别。

以下是在Hadoop系统上广泛使用的一些相关文件格式:

序列文件

存储格式取决于是否压缩以及使用记录压缩还是块压缩而有所不同:

Hadoop中的文件格式有哪些
> The Internal structure of a sequence file with no compression and with  record compression.
Hadoop中的文件格式有哪些
> The internal structure of a sequence file with block compression

地图文件

MapFile是SequenceFile的变体。 将索引添加到SequenceFile并对其进行排序后,它就是MapFile。  索引存储为单独的文件,通常每128条记录存储一个索引。 可以将索引加载到内存中以进行快速查找-存储按Key定义的顺序排列的数据的文件。  MapFile记录必须按顺序编写。 否则,将引发IOException。

MapFile的派生类型:

Hadoop系统下面列出的文件包括RCFile,ORCFile和Parquet。 Avro的面向列的版本是Trevni。

RC文件

Hive的Record Columnar File(记录列文件),这种类型的文件首先将数据按行划分为行组,然后在行组内部将数据存储在列中。  其结构如下:

Hadoop中的文件格式有哪些
> Data Layout of RC File in an HDFS block

与纯面向行和面向列的比较:

Hadoop中的文件格式有哪些
> Row-Store in an HDFS Block
Hadoop中的文件格式有哪些
> Column Group in HDFS Block

ORC文件

ORCFile(优化的记录列文件)提供了比RCFile更有效的文件格式。 它在内部将数据划分为默认大小为250M的Stripe。  每个条带均包含索引,数据和页脚。 索引存储每列的最大值和最小值以及列中每一行的位置。

Hadoop中的文件格式有哪些
> ORC File Layout

在Hive中,以下命令用于使用ORCFile:

CREATE TABLE ...STORED AAS ORC ALTER TABLE ... SET FILEFORMAT ORC SET  hive.default.fileformat=ORC

Parquet

一种通用的基于列的存储格式,基于Google的Dremel。 特别擅长处理深度嵌套的数据。

Hadoop中的文件格式有哪些
> The internal Structure of Parquet File

对于嵌套结构,Parquet会将其转换为平面列存储,该存储由重复级别和定义级别(R和D)表示,并在读取数据以重建整个文件时使用元数据来重建记录。 结构体。  以下是R和D的示例:

AddressBook { contacts: { phoneNumber: "555 987 6543" } contacts: { } }  AddressBook { }

Hadoop中的文件格式有哪些

“Hadoop中的文件格式有哪些”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!


分享标题:Hadoop中的文件格式有哪些
网页地址:http://www.tsicrk.com/article/gecgpi.html

其他资讯

让你的专属顾问为你服务

7.9972s