Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的。最早起源于 Nutch,它是 Lucene 的子项目。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。

2003 年 Google 发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。

2004 年 Google 发表论文向全世界介绍了谷歌版的 MapReduce 系统。

同时期,以谷歌的论文为基础,Nutch 的开发人员完成了相应的开源实现 Hdfs 和 MapReduce ,并从 Nutch 中剥离成为独立项目 Hadoop ,到 2008 年 1 月,HADOOP 成为 Apache 顶级项目,迎来了它的快速发展期。

2006 年 Google 发表了论文是关于 BigTable 的,这促使了后来的 Hbase 的发展。

因此,Hadoop 及其生态圈的发展离不开Google的贡献。


最后修改: 2023年12月27日 星期三 15:29