中国唯一一家专业只做ARACLE认证和BDA实训的甲骨文金牌合作企业

网络授课

技术沙龙

Hadoop入门培训:Hadoop的起缘和发展史

Hadoop入门培训:Hadoop的起缘和发展史

1.1 缘于搜索的小象

追本溯源,Hadoop起源于Nutch,因此学习Hadoop就有必要了解一下这种渊源及Hadoop的发展简史。

1.1.1 Hadoop的身世

首先我们介绍一下Nutch的发展情况,Nutch是一个以Lucene为基础实现的搜索引擎系统,Lucene为Nutch提供了文本检索和索引的API,Nutch不仅仅有检索的功能,还有网页数据采集的功能。Mike Cafarella和Doug Cutting在2002年开始研发Nutch系统,然而他们很快发现他们的架构很难扩展到数十亿级别的网页规模,因为这样规模的搜索引擎系统要涉及网页的分布式存储问题及分布式建立索引的问题。恰在此时,Google公布了支撑其搜索引擎服务的文件系统架构设计——Google's Distributed Filesystem,这种被称为GFS的基础架构很快引起了他们的注意,并被成功引入Nutch系统中,在Nutch中被命名为Nutch分布式文件系统——NDFS,正是NDFS解决了Nutch搜索引擎系统中网页等海量数据的存储问题。

2004年,Google又公布了一种并行计算模型MapReduce的设计论文,紧接着在2005年Nutch就已经实现了这种高效的并行计算模型来解决数十亿级别以上网页的分布式采集及索引构建。很快他们就发现这种NDFS和MapReduce模型不仅可以用来解决搜索引擎中的海量网页问题,同时还具有通用性,可以用来构建一种分布式的集群系统,然后在2006年这两个模块就从Nutch中独立出来,并被命名为Hadoop,因此在Nutch-0.8.0版本之前,Hadoop其实还属于Nutch的一部分,而从Nutch-0.8.0开始,将其实现的NDFS和MapReduce剥离出来成立一个新的开源项目,这就是我们目前所熟知的Hadoop平台。

CUUG 优技培训

中国Oracle培训领航专家

CUUG -CHINA UNIX USER GROUP,是国际UNIX组织UNIFORUM的中国代表,是国内悠久的专业UNIX培训机构,被誉为中国UNIX 的摇篮。

金牌讲师

行业资深实战专家 让学习就像在就业
展开

实操环境

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

让每一个DBA课程学员有真正的实操练习

院校合作

学校新闻

行业新闻

在线预约 抢先报名 获取课程排期

请输入您的手机号

申请试听
版权所有:北京神脑资讯科技有限公司
地址:北京市海淀区紫竹花园4号楼D座703
全国免费咨询电话:400-0909-964
电话:010-59426307 ,邮政编码:100089
E-mail:cuug_bj@cuug.com
拨打电话
在线咨询
首页