Cloudera和Hortonworks合并,Hadoop将走向何方?

发表于 讨论求助 2020-09-04 08:42:08

华为Codelab开源大数据目前已经成为互联网企业的基础设施,两家公司合并后,意味着Hadoop的标准将更加统一,长期来看新公司的盈利能力也将大幅提升,并将更多的资源用于新技术的投入。

【编者按】在开源已经逐渐成为一种政治正确的时候,开源项目最终会走向哪里?本文针对Cloudera和Hortonworks的宣布合并一事进行发问,回溯Hadoop的商业化和合并前后历程,试图寻找这一答案。

本文首发于IT经理世界,作者李昊原;由编辑,供行业人士参考。


不久前,Cloudera和Hortonworks的宣布合并,让大数据领域的竞争也变得扑朔迷离。两家上市公司为什么要合并?对Hadoop这又意味着什么?

当行业排名前两位的企业选择合并,往往意味着垄断巨头的出现和某种模式下市场竞争的告一段落。

Hadoop的商业化

Hadoop几乎可以算作大数据的代名词,随着开源技术的被广泛使用,Hadoop已经成为事实上的大数据标准。十几年前,企业数据还普遍是在数据仓库中处理,使用Oracle、SAP、IBM等数据相关软件,但随着互联网的发展,数据类型的多样化,对海量结构化、半结构化数据以及流式数据的处理需求,都成为了旧式商业软件的瓶颈。

2003年,Google Lab开发了Map/Reduce 和 Google File System(GFS),在两年后的秋天,Hadoop由 Apache Software Foundation 公司作为Lucene的子项目Nutch的一部分正式引入。这一能够对大量数据进行分布式处理的软件框架正式出现,给大数据软件市场带来了新的机会。2006年3月,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入Hadoop 的项目中。

对于数量巨大但单条数据价值较低的数据类型,比如舆情数据,在传统的数据仓库中进行分析的性价比较低,远不如在基于Hadoop的平台上更能体现价值。因此在互联网领域,Hadoop得到了普遍的应用,比如Facebook、百度、雅虎,都使用Hadoop技术进行数据处理等工作。作为一项开源技术,虽然可以免费下载,但Hadoop本身却很复杂,对许多有大数据处理需求的公司来说,让IT部门基于Hadoop进行开发的成本太高,难度也太大。因此,如Cloudera和Hortonworks这样的创业公司出现了。

Cloudera成立于2008年,在2009年,Cloudera发行了第一个Hadoop集成版本——CDH。CDH产品包括企业版和开源版,在企业版中,包含管理组件Cloudera Manager,这个组件是闭源的,可以对计算机集群进行管理、部署、升级,监控,提供包括数据管理、数据追溯、安全性保障和多云架构管理等功能,在3个月的试用期后,需按照部署节点的数目按月交费,这也是Cloudera的主要盈利模式。

而Hortonworks是从雅虎Hadoop团队剥离成立的创业公司,不同于Cloudera,Hortonworks的软件是完全开源的,通过技术支持来盈利。另外还有一家MapR,这三家公司也常被称作是Hadoop的三大发行商。

发表
26906人 签到看排名