中国唯一一家专业只做ARACLE认证和BDA实训的甲骨文金牌合作企业

网络授课

技术沙龙

Hadoop培训认证:HDFS的块大小

Hadoop培训认证:HDFS的块大小,Block的大小是HDFS关键的设计参数之一,默认的参数是64MB,这个尺寸远远大于一般文件系统的Blocksize。每个Block的副本都以普通Linux文件的形式保存在DataNode服务器上,只有在需要的时候才扩大。

惰性空间分配策略避免了因内部碎片造成的空间浪费,选择较大的Block尺寸有几个优点:

首先,它减少了客户端和NameNode通信的需求,因为只需要一次和NameNode节点的通信就可以获取Block的位置信息,之后就可以对同一个Block进行多次的读写操作。这种方式对降低工作负载来说效果显著,因为应用程序通常是连续读写大文件,即使是小规模的随机读取,采用较大的Block尺寸也会带来明显的好处,客户端可以轻松地缓存一个数TB的工作数据集所有的Block位置信息。

其次,采用较大的Block尺寸,客户端能够对一个块进行多次操作,这样就可以通过与Block服务器保持较长时间的TCP连接来减少网络负载。最后,选用较大的Block尺寸减少了NameNode节点需要保存的元数据的数量,从而很容易把所有元数据全部放在内存中。

另一方面,即使结合惰性空间分配,采用较大的Block尺寸也有缺陷。小文件包含较少的Block,甚至只有一个Block,当有许多的客户端对同一个小文件进行多次访问时,存储这些Block的DataNode服务器就会变成访问热点。在实际应用中,由于程序通常是连续地读取包含多个Block的大文件,访问热点还不是主要的问题。

然而当一个可执行文件保存在HDFS上时或许是一个Block的文件,当这个可执行文件在数百台机器上同时启动时,数百个客户端的并发请求访问会导致系统局部过载,解决这个问题可以通过自定义更大的HDFS复制因子数来保存可执行文件。同样对非常重要的数据或经常频繁访问的数据设置较高的复制因子数对于提高系统性能是非常重要的。

CUUG 优技培训

中国Oracle培训领航专家

CUUG -CHINA UNIX USER GROUP,是国际UNIX组织UNIFORUM的中国代表,是国内悠久的专业UNIX培训机构,被誉为中国UNIX 的摇篮。

金牌讲师

行业资深实战专家 让学习就像在就业
展开

实操环境

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

院校合作

学校新闻

行业新闻

在线预约 抢先报名 获取课程排期

请输入您的手机号

申请试听
版权所有:北京神脑资讯科技有限公司
地址:北京市海淀区紫竹花园4号楼D座703
全国免费咨询电话:400-0909-964
电话:010-59426307 ,邮政编码:100089
E-mail:cuug_bj@cuug.com
拨打电话
在线咨询
首页