中国唯一一家专业只做ARACLE认证和BDA实训的甲骨文金牌合作企业

网络授课

技术沙龙

Hadoop高级教程:新旧MapReduce API比较

Hadoop高级教程:新旧MapReduce API比较,从0.20.0版本开始,Hadoop同时提供了新旧两套MapReduce API。新API在旧API基础上进行了封装,使得其在扩展性和易用性方面更好。新旧版MapReduce API的主要区别如下。

(1)存放位置

旧版API放在org.apache.Hadoop.mapred包中,而新版API则放在org.apache.Hadoop.mapreduce包及其子包中。

(2)接口变为抽象类

接口通常作为一种严格的“协议约束”。它只有方法声明而没有方法实现,且要求所有实现类(不包括抽象类)必须实现接口中的每一个方法。接口的最大优点是允许一个类实现多个接口,进而实现类似C++中的“多重继承”。抽象类则是一种较宽松的“约束协议”,它可为某些方法提供默认实现。而继承类则可选择是否重新实现这些方法。正是因为这一点,抽象类在类衍化方面更有优势,也就是说,抽象类具有良好的向后兼容性,当需要为抽象类添加新的方法时,只要新添加的方法提供了默认实现,用户之前的代码就不必修改了。

考虑到抽象类在API衍化方面的优势,新API将InputFormat、OutputFormat、Mapper、Reducer和Partitioner由接口变为抽象类。

(3)上下文封装

新版API将变量和函数封装成各种上下文(Context)类,使得API具有更好的易用性和扩展性。首先,函数参数列表经封装后变短,使得函数更容易使用;其次,当需要修改或添加某些变量或函数时,只需修改封装后的上下文类即可,用户代码无须修改,这样保证了向后兼容性,具有良好的扩展性。

图展示了新版API中树形的Context类继承关系。这些Context各自封装了一种实体的基本信息及对应的操作(setter和getter函数),如JobContext、TaskAttemptContext分别封装了Job和Task的基本信息,TaskInputOutputContext封装了Task的各种输入输出操作,MapContext和ReduceContext分别封装了Mapper和Reducer对外的公共接口。

除了以上三点不同之外,新旧API在很多其他细节方面也存在小的差别,具体将在接下来的内容中讲解。

由于新版和旧版API在类层次结构、编程接口名称及对应的参数列表等方面存在较大差别,所以两种API不能兼容。但考虑到应用程序的向后兼容性,短时间内不会将旧API从MapReduce中去掉。即使在完全采用新API的0.21.0/0.22.X版本系列中,也仅仅将旧API标注为过期(deprecated),用户仍然可以使用。

本章将对比介绍两套MapReduce API的设计细节。但考虑到新版API只是在旧版基础上封装而来的,因此,我们将详细分析旧版API的设计思路,而对于新版API,仅是概要介绍它与旧版本的不同之处。

CUUG 优技培训

中国Oracle培训领航专家

CUUG -CHINA UNIX USER GROUP,是国际UNIX组织UNIFORUM的中国代表,是国内悠久的专业UNIX培训机构,被誉为中国UNIX 的摇篮。

金牌讲师

行业资深实战专家 让学习就像在就业
展开

实操环境

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

院校合作

学校新闻

行业新闻

在线预约 抢先报名 获取课程排期

请输入您的手机号

申请试听
版权所有:北京神脑资讯科技有限公司
地址:北京市海淀区紫竹花园4号楼D座703
全国免费咨询电话:400-0909-964
电话:010-59426307 ,邮政编码:100089
E-mail:cuug_bj@cuug.com
拨打电话
在线咨询
首页