写点什么

Hadoop 真的要死了吗?

2018 年 11 月 13 日

Hadoop真的要死了吗?

10 月 3 日,Hortonworks 宣布将与其主要竞争对手 Cloudera 合作创建一家年收入约为 7.3 亿美元、拥有 2,500 名客户、市场估值达 52 亿美元的公司,这令很多人感到意外。



Splice Machine 首席执行官 Monte Zweben 表示:“我认为对于我们来说,这是个好消息。我们已经看到了运营由这两家公司和其他公司部署的所有数据湖的巨大机会,而这样的机会在两年前可能连想都不敢想”。


Confluent 的首席执行官兼 Apache Kafka 联合创始人 Jay Kreps 告诉 ZDNet:“这是一个聪明的举动。过去,这两家公司在同一产品上展开竞争,但具有讽刺意味的是,这却让竞争变得更加激烈”。


Unravel Data 首席执行官 Kunal Agarwal 说:“我认为这是件好事。我认为这两家公司在将他们的技术整合在一起,而不是试图相互攻击。他们现在可以专注于提供合适的机器学习工具、物联网平台和 AI 工具”。


但并非所有的反应都是积极正向的。 自由科技记者 Virginia Backaitis 在他的一片文章中写道:“我比较担心新的 Cloudera(或者可能是单独的 Cloudera 和 Hortonworks)是否会像管理团队和投资人所期望的那样快速增长”。


Bloomberg Opinion 专栏作家 Shira Ovide 同样不看好,他将这两家公司的合并说成是“两家水下公司的航海联盟”。


Teradata 首席运营官 Oliver Ratzesberger 告诉 Datanami:“这是一种 Sears-K-Mart 式的合并,这是他们唯一能够生存下来的方式。Hadoop 本身就变得无关紧要了”。


Anaconda 产品和营销高级副总裁 Mathew Lodge 在 VentureBeat 上发布的一篇文章中指出,大数据的中心已经从 Hadoop 转移到了云端,在对象存储系统(如亚马逊 S3、微软 Azure Blob Storage 和 Google Cloud Storage)中存储数据比在 HDFS 中便宜了五倍。


“领先的云计算公司并没有在 Cloudera 和 Hortonworks 上运行大型的 Hadoop/Spark 集群,相反,他们在容器基础设施上运行分布式云规模数据库和应用程序。现在是时候让 Hadoop 和 Spark 与时俱进了”。


让 Hadoop 更像云


事实上,Apache Hadoop 社区一直都在积极应对来自公有云供应商的威胁,包括像 Databricks 和 Snowflake 这样的初创公司。它们通过采用对象存储和容器技术让云端的大数据分析变得更便宜和更容易,并在上周获得了来自风险资本的 4.5 亿投资,


在今年早些时候发布的 Hadoop 3 中,用户可以选择使用擦除编码(erasure coding),这是 S3 等对象存储系统使用的数据保护技术,可将存储效率提高 50%。Hadoop 3.1 将为 YARN 中的 Docker 带来更强劲的支持。在宣布合并之前,Cloudera 和 Hortonworks 都在努力让他们的 Hadoop 发行版支持 Kubernetes。


但是,对于 Hadoop 社区来说,他们还有很多工作要做。上个月,Cloudera 首席战略官 Mike Olson 告诉 Datanami,社区还需要 12 到 24 个月才能在开源的 Apache Hadoop 项目中提供 Kubernetes 支持。


Olson 说:“YARN 擅长长期运行的批次作业调度,但要作为通用的集群资源管理框架,它还需要精心的设计和改进。未来 Kubernetes 将会入驻,并接管其中的一大部分内容”。


于是问题来了:当 YARN 被 Kubernetes 取代,并且 HDFS 被替换为任何兼容 S3 的对象存储系统时,Hadoop 还会是原来的 Hadoop 吗? 如果你认为 Hadoop 只是 40 个开源项目的集合——HBase、Spark、Hive、Impala、Kafka、Flink、MapReduce、Presto、Drill、Pig、Kudu,等等——那么也许这个问题就问得没有什么实际意义……


从实际角度来看,客户不可能因为两个最大的 Hadoop 发行商的整合而突然关闭多年来部署的数百万个 Hadoop 节点。对于已经建立了 Hadoop 数据湖的数千家公司而言,它们的重点将保持不变:从数据中获取价值。


尽管 Hadoop 可能已经变成了一项传统技术,但社区仍然有动力去调整它,以便支持新兴的需求,就像 IBM 对其大型机平台所做的那样。问题是它是否能够以足够快的速度让已部署的基础设施不断增长。


简化 Hadoop



自从十多年前第一个 MapReduce 程序上线以来,开发人员一直对 Hadoop 的复杂性颇有微词。即使像 Facebook 这样大的公司在使用 Hadoop 时也感到不便,特别是当他们需要通过底层的 Java 编程技能从 Hadoop 中及时获取信息时。


从那时起的一个发展趋势,就是消除这种复杂性,但 Hadoop 社区没能及时取得进展,因此未能阻止云供应商通过推出更简单的产品抢走市场份额。


Splice Machine 的 Zweben 表示:“我认为这是 Hadoop 的一次转型。软件供应商会使用越来越多的引擎,但从长远来看,不会有普通的企业会用它们……对于全球 2000 大企业来说,在背负 Hadoop 的重压之下很难做到这点”。


Unravel Data 公司的 Agarawal 表示,现在 Cloudera 和 Hortonworks 的工程师将齐心协力,以更好地应对构建系统方面的挑战,这些系统可以以本地、云端和混合的方式运行。“这是一个巨大的项目,仍然需要大量的工程师投入时间,把它打造成 Kubernetes 之上的一个成功的平台。他们还有很多开发工作要做”。


如果说在隧道尽头有一盏灯,那它就是:如果新 Cloudera 可以将 Hadoop 重新打造成一个混合的容器化平台,位于 Kubernetes 之上,并且可以将数据存储在任何与 S3 兼容的对象存储中,那么它就有可能实现部分目标,并占领一部分市场。 IDC 认为这是一个价值 650 亿美元的机会。


Agarwal 说:“我认为 Cloudera 手里握有一张云供应商所没有的王牌,那就是他们的混合策略。 根据我们与这些财富 1000 强公司合作的经验来看,他们不会直接进入云端。他们想要的是这种混合策略。因此,我认为这将成为为这些客户创造价值的一条可行之路”。


从幻灭到生产力



从一开始,Hadoop 基本上就是大数据的代名词。如果你遇到需要用大数据来解决的问题,那么答案肯定就是 Hadoop。


这当然是不对的,很多人都这么说——但这却是 Hadoop 多年来的一个营销口号。


Teradata 首席技术官史 Steven Brobst 说,为解决复杂问题而寻找银弹是人类的天性。“人们倾向于相信新技术将解决他们所有的问题,它会为你做所有的事情,甚至包括在早上给你端来一杯咖啡”。


Hadoop 曾经是被过度热炒的一项技术,而到了今天,这个头衔被 AI 拿走了。 Brobst 说:“当你的期望过度膨胀时,最终结果只会是失败。当技术被设置了不恰当的预期,就会跌落到幻灭的低谷”。


Brobst 继续说道:“我们现在所看到的 Hadoop 就正在经历这样的一个过程。Hadoop 正处于幻灭的低谷。‘放弃它吧,它已经不管用了!’其实它之所以不管用,是因为我们期望它能够完成所有的事情。对于这样不切实际的期望,除了失望之外,没有其他可能性”。


Brobst 说,虽然人们一直在 Hadoop 上挣扎,但这并不意味着 Hadoop 没有价值。相反,它意味着组织和用户应该要重新设置他们的期望,并问问自己它应该用在什么地方会更好。


他说:“Hadoop 和大数据终将走出 Gartner 炒作周期的幻灭低谷,然后进入生产力高原。这不是一个大数据战略,而是一个数据战略……它将成为生态系统的一部分,但不会解决所有问题”。


另外,InfoQ 在两年前策划过“Hadoop十年”的迷你书,迷你书以 Hadoop 十年发展为主线,系统梳理了 Hadoop 这十年的变化以及技术圈的生态状况。


同时,如果你对大数据感兴趣,或者想进一步了解学习大数据,可以关注极客时间 App 出品的《从0开始学大数据》专栏。


英文原文:https://www.datanami.com/2018/10/18/is-hadoop-officially-dead/


2018 年 11 月 13 日 07:007001
用户头像

发布了 731 篇内容, 共 361.3 次阅读, 收获喜欢 1832 次。

关注

评论 2 条评论

发布
用户头像
你可曾记得曾经两家公司官网首页显赫位置摆放的HDP和CDH大图?
2018 年 11 月 22 日 11:42
回复
用户头像
Hadoop 曾经是被过度热炒的一项技术,而到了今天,这个头衔被 AI 拿走了。
2018 年 11 月 19 日 10:05
回复
没有更多了
发现更多内容

Gary的唠叨(二):先算是非,后算得失

郭蕾

Gary的唠叨 感悟

如何高效开会

熊斌

效率 效率工具

黑苹果提取codec,进入ubuntu的时候,提示:Try ubuntu without install

wood

ubuntu 黑苹果

稀缺:我们为什么会陷入贫穷与忙碌

insight

读书笔记

Java 类

michaelliu

Java

转任管理岗位后,还要不要从事编码工作?

码闻强

团队管理 个人成长 程序员人生 职业规划

夏天将来,愿我们有足够的知识继续前进

Amon Lee

技术人员能力养成手记

码闻强

个人成长 程序人生 职业规划

工厂模式

Wen Wei

设计模式

docker搭建lamp

刘磐石(刘坤鹏)

WIN10 解决“无法完成操作,因为文件包含病毒或潜在的垃圾软件

wood

win10

原创 | OOAD范例:配置类设计

编程道与术

网站架构方法

Ya

架构 方法论 网站 大型软件

网站是什么?

insight

网站

原创 | DDD与分层

编程道与术

哈希,茫茫人海,我一眼看到了你

dongge

Java 代码的组织机制

michaelliu

Java

香港上市"失效"、传言申请科创板,聊聊半年亏损52亿的旷视科技 | IPO招股书系列(4)

赵新龙

IPO 旷视科技 上市 招股说明书 科创板

【奖项公布】致内测用户——亲爱的1号创作者们~

InfoQ写作平台官方

写作平台 1号创作者 奖品

3000字长文教你大数据该怎么学!

老蒙

Java 大数据 spark 学习 开源

网络编程方法

Ya

方法论 网络编程 socket

Java并发编程系列——线程的等待与唤醒

孙苏勇

Java Java并发 并发编程 线程

程序员陪娃漫画系列——夜宵

孙苏勇

程序员 生活 程序员人生 陪伴 漫画

学会打破确定性思维,才能做得更好

松花皮蛋me

高效工作 10X工作法 精益开发

屏幕适配插件:ScreenMatch基本使用和注意事项

Arch

专家的直觉和你的直觉

池建强

书摘 直觉

【获奖名单公示】作为一名技术人,我为什么要写作?

InfoQ写作平台官方

程序员 写作 写作平台 活动专区

这一战,必战,若一去不返,便一去不返

泰稳@极客邦科技

创业 项目管理 团队建设 InfoQ

深度工作

insight

读书笔记

聊聊技术人如何与甲方客户打交道

码闻强

程序员 程序人生 职业规划

Java 类构造函数的调用顺序

michaelliu

Java

NLP领域的2020年大事记及2021展望

NLP领域的2020年大事记及2021展望

Hadoop真的要死了吗?-InfoQ