最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

本地 vs 云:大数据厮杀的最终幸存者会是谁?

  • 2019-03-11
  • 本文字数:3636 字

    阅读完需:约 12 分钟

本地vs云:大数据厮杀的最终幸存者会是谁?

一家企业什么时候会决定上云?过去,这个问题的答案可能是当企业发现需要购买新的硬件进行新一轮资本投入时,往往倾向于考虑另一种替代方案,比如云,这可能更多还是从成本方面考虑;或者,当企业出现某种弹性计算需求时,云平台是非常好的实现 IT 资源“削峰”的方案。


不同于现有技术边界的“替换”,如今,这个问题的答案可以再加上一条:技术边界的“扩张”。当企业需要某种能力,比如 AI 或者大数据,但自身技术实力达不到或者企业核心竞争力不在技术本身,此时就可能会考虑上云,甚至这已经成为不少企业选择云平台的重要原因。通过选择云平台,企业实现了自己技术边界的扩张,从而为业务边界扩张提供技术上的保障。


过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音似乎越来越弱,这在 Cloudera 与 Hortonworks 合并之后尤为明显。有分析人士指出,Hadoop 与 Spark/Flink 等流技术的融合已经在云平台发生,这让 Cloudera 和 Hortonworks 的基础产品出现落后。巧合的是,Spark 商业化公司 DataBricks 选择了一条不同于 Cloudera 与 Hortonworks 的软件发行之道,DataBricks 一直坚持走云上订阅方式,从而在商业上更加领先。据此,本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?


InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——阿里云智能通用计算平台负责人关涛。

云平台 vs 本地大数据服务

在对比云平台和本地大数据服务之前,我们先来探讨一个基本问题:不同量级、不同技术能力的企业是否都适合上云,这也是企业上云之前必须想明白的问题。我们经常听到一句话:未来的云计算会成为像水电煤一样的基础设施,暂且不论这句话是否完全正确,中国目前的上云进程的确在加快,如果要成为必备基础设施,势必需要匹配所有量级、所有技术能力的企业。


对于互联网初创型企业,其特点是业务模式和规模高度不确定,数据量小,计算场景不确定,资金有限且没有自己的数据技术力量。关涛表示,对这类型企业而言,云大数据服务可以帮助降低大数据使用门槛,让企业将有限的人力和物力都放在业务层面,快速搭建并为不确定的未来发展预留弹性能力。这种类型的客户的需求关键字是:灵活和全面。


对于中大型互联网企业,其通常拥有自己的集群和数据,业务相对稳定且有 SLA 要求,甚至具备非常成熟的数据团队,这部分企业的技术能力或许足够满足业务需求,上云所能带来的好处就是降低甚至免除运维,保障 SLA 并提升安全能力,同时在性能、弹性等方面提供更低成本的服务。 需求关键字:稳定和成本。


对于传统客户,这部分企业往往更加谨慎,且原有数据中心较为庞大,整体迁移需要考虑的因素非常多,通常需要一整套解决方案,这部分企业往往也最在意云计算的成本、稳定性和安全性等问题。需求关键字:解决方案。

成本

云计算本身是一个需要重投资的领域,虽然有不少公司加入,但排名靠前的依旧集中于几家资本和技术力量比较雄厚的公司。相对于本地大数据服务,云平台大数据服务的性能、稳定性、成本和安全性一直是讨论的焦点。关涛表示,云厂商在数据中心选址基建(例如需要综合考虑电力成本和容量因素)、硬件建设、带宽网络建设(例如需要独立双链路网络保证)、存储、CDN 分发、安全加固等方面都投入了巨大精力,资本投入在百亿甚至千亿级别,中小企业自建服务的资本和技术投入显然无法达到这一程度。


对于中小企业而言,上云是个相对轻松的话题,首先数据资产量小尚可轻松挪动,且可享受云厂商带来的技术优势;其次,业务体量相对较小,整体使用成本较低。但是,不少人认为“当集群规模达到一定程度,云平台的成本会变得非常高”。对此,关涛认为,虽然云计算是个按需付费的资源,但小型数据中心的硬件启动成本并不低,如果企业自行搭建,还需要考虑其中的人力成本,这部分隐性成本经常被忽略。


从软件层面来看,主流云厂商在技术层面的投入非常大,这不仅仅是技术研发层面的资金支持,阿里云平台所提供的服务大都在内部业务经过长时间试运行,达到稳定以后才开放给用户,这是普通公司很难达到的,尤其是中小企业的基础设施上云很难投入到这个级别,集中力量打造业务层面的差异性优势才是这类型企业的立足关键,而不是纠结于底层的基础设施。


当然,如果企业具备一定线下集群,上云确实需要一定工作量和迁移成本,这包括网络打通、数据、作业、应用迁移等。线下规模越大,工作量就越大,这是目前阻碍企业上云的重要挑战。关涛表示,这部分工作其实是阶段性的,随着云技术的发展,企业可以直接或间接享受技术红利。此外,云厂商提供了不少迁移技术,比如多种类型的数据运输与搬迁工具,基于专线的数据上传和混合云技术等。

安全

安全是企业对云计算最早也是最大的顾虑,上云肯定无法完全规避安全风险,但如果和自建机房相比,云平台相当于多了一重保险。如果企业自建机房,部署某个版本的 Linux 系统,也不见得将补丁打全,同样存在安全风险。关涛表示,阿里云在安全方向(包括内核漏洞修补、DDos 防护、主动漏洞扫描、权限管理、隐私保护等)上有非常大的投入,安全性比自建要好的多。

云厂商 vs 云上自建大数据服务

对于一些互联网企业而言,并不纠结是否上云,而是在考虑选择云厂商提供的大数据服务还是选择基于云平台自建,这些企业往往具备一定技术能力并拥有原始业务积累。关涛认为,从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 已经将所有业务迁移至公有云;专注专有云和 IaaS 的 Cloudera 和 Hortonworks 已经合并过冬。


从发展趋势来看,这是一个云服务逐步成熟与客户认知逐步发展的过程,就好比每一项新技术都经过了长期市场论证一样。关涛认为,客户认知应该会从最开始的怀疑(安全性、稳定性等)到逐步尝试,到上云,再到大规模依赖;从数据中心和主机托管,到依赖 IaaS,再到大规模应用无服务计算、PaaS 和 SaaS;从专有云部署到混合云,再到公有云。


其次,随着大数据与 AI 技术的发展成熟,云厂商在该领域的竞争优势已经逐步从“能做”变成“又快又好”。云计算厂商的规模优势能够建立更高的竞争门槛,这是很多企业自建所达不到的。

混合云和多云皆是过程,单一云平台可能是主流

当企业确定选择云厂商提供的大数据服务时,又会出现新的问题:如何从这么多种云平台大数据服务中选择最符合自己业务发展需求的?是选择混合云、多云还是单一公有云平台?


去年,一向对混合云不感兴趣的 AWS 推出了不少混合云服务,这让不少企业开始推测云计算的未来将是混合云或者多云。对此,关涛更倾向于多云和混合云皆是中间过程,最终的大方向应该是单一公有云的观点。他补充道,无论是混合云还是多云都存在跨云管理的问题,用户需要适配一套或者多套云系统,并将系统间数据和业务打通协调,比本地或者单一云平台更加复杂。


现阶段,依照用户需求不同,本地部署、混合云(作为中间形态)与云平台部署三种情况都可能出现。但是,长期来看,随着云平台的逐渐成熟和用户认可,从成本和效率角度出发,单一云平台或许会是主流。


关于公有云平台,企业主要顾虑的问题就是单一供应商绑定。一旦绑定,数据和业务迁移困难,后续发展可能缺乏选择;一旦云平台出现故障,是否有异构容灾能力,是否会对业务造成不可逆的影响等。


关涛认为,如今的云服务分层解耦越来越清晰,各基础服务接口未来会更加标准,例如容器化和 K8S 等,这些标准化服务会大幅降低用户被单一云平台绑定的顾虑。此外,主流云厂商已经在提供一定程度的异构容灾能力,例如阿里云的 3AZ 方案,可以保证跨数据中心的可靠性,技术上能够满足异构容灾需求;如果用户追求极致容灾能力,有可能选择混合云或者多家云厂商,这需要在多云平台之上,再做一层数据管理和业务同步逻辑,会给架构带来很大的技术和成本压力。当然,这还最终取决于用户的需求,只是目前这种选择应该比较少,例如,在金融数据库领域,企业很少同时选择两种数据库方案。

结语

从长线来看,关涛认为,用户自建本地大数据服务会逐渐消亡。就国外云计算的发展进程来看,很多大企业选择上云看重的可能并不是 IaaS 层面的能力,而是大数据和 AI 等偏上层的能力,这些现象足以说明用户不仅会用 IaaS 的能力,并且可能会被上层能力吸引。


据此,阿里云大数据服务接下来将集中对如下几方面进行改进:一是作为大数据引擎,随着数据爆发式增长和计算的无处不在,性能、成本、扩展性和稳定性仍然是技术重点;二是非文本类数据的处理能力,包括识别、处理音、视、图等新数据格式,例如短视频推荐场景;三是非关系型数据处理,例如图计算、Graph Embedding;四是 AI for BigData,比如在海量数据的前提下,基于 AI 的智能数据管理、智能建模与数据优化等。


各位 InfoQ 的网友,你如何看待云平台和本地大数据服务之间的关系呢?你所在的企业又是如何选择的呢?


2019-03-11 09:075917
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 604.6 次阅读, 收获喜欢 2671 次。

关注

评论

发布
暂无评论
发现更多内容

易周金融观点 央行设立科技创新再贷款;多家银行下调大额存单利率

易观分析

金融 银行

InfoQ AI开发者召集令!快来助力中国AI产业发展,参与抽奖!

InfoQ写作社区官方

AI 热门活动 白玉兰开源

2022年4月国产数据库大事记

墨天轮

数据库 opengauss TiDB 国产数据库 达梦

认清大脑中的一对塑料姐妹花,科学解锁情绪密码

图灵教育

效率 职场 脑科学

量子计算是人工智能的未来吗?

海拥(haiyong.site)

人工智能 量子计算 5月月更

谁在从API经济里分得一杯羹!

Liam

Postman API API Explorer平台 API boy 开放api

Apache Calcite SQL解析及语法扩展

不穿格子衬衫的程序员

数据库 sql 大数据 flink Apache Calcite

想要成为一名真正的软件工程师吗?加入非凸,一起升级!

非凸科技

招聘 社招 校招 软件开发工程师

2022金蝶云苍穹峰会抢先看

金蝶云·苍穹

苍穹峰会 苍穹5.0 人力云

Alibaba最新出版的JDK源码剖析手册(究极奥义版)开源

Java架构追梦

jdk java面试 后端开发

Q1手机银行运营报告:交易规模超150万亿,月活跃用户4.9亿

易观分析

手机银行

开源之夏 2022 重磅来袭!欢迎报名 RadonDB 社区项目!

RadonDB

数据库 开源 RadonDB 开源之夏

造孽啊!阿里内部的神级项目和JDK源码阅读指南竟惨遭GitHub开源

Java架构追梦

Java 程序员 后端开发

上市商业银行手机银行场景建设专题分析

易观分析

商业银行 手机银行

LAXCUS分布式操作系统:云盘的使用

LAXCUS分布式操作系统

云盘 分布式存储 分布式软件系统

为 GPU 而来,焱融科技推出新一代全闪分布式文件存储产品

焱融科技

人工智能 云计算 高性能 文件存储 高计算

代码历史上最昂贵的 7 个错误

禅道项目管理

测试 代码

使用APICloud AVM框架实现App导航栏菜单

YonBuilder低代码开发平台

APP开发 APICloud avm.js

AliIAC 智能音频编解码器:在有限带宽条件下带来更高质量的音频通话体验

阿里云视频云

语音 音频 视频云 音频编码器

中小型企业团队的CRM系统最佳实践

低代码小观

低代码 CRM 客户关系管理 CRM系统 客户关系管理系统

惨遭面试官吊打高并发系统设计,回来学习2400小时后成功复仇

Java架构追梦

Java 后端开发 程序员面试

OceanBase 3.2.3 发版|HTAP引擎全面升级,TPC-H性能10倍提升!

OceanBase 数据库

oceanbase

ETL自动化运维调度管理工具 TASKCTL 流程文件系统

TASKCTL

程序员 DevOps 运维 ETL 大数据运维

OneFlow如何做静态图的算子对齐任务

OneFlow

人工智能 graph 自动测试 算子对齐

真可笑!拿着这份JVM学习笔记学了2个月,就想着出去跳槽涨10k

Java架构追梦

Java 程序员 后端开发

Spring data JPA实践和原理浅析

领创集团Advance Intelligence Group

工作原理 java Spring JPA

java 通过 SmbFile 类操作共享文件夹

爱好编程进阶

程序员 后端开发

淘宝京东优惠券返利机器人

江苏京酷电子商务有限公司

淘宝电商 群聊机器人 返利 采集京东

博睿数据获得分布式系统稳定性实验室成员单位证书 亮相全球信息系统稳定性峰会

博睿数据

Tech Talk 宣传 | 如何高效、极简构造无服务器 Web 应用

亚马逊云科技 (Amazon Web Services)

Web

易观分析刘怡:技术投入聚焦降本增效,用技术赋能人提升企业能效

易观分析

人口变化 技术赋能

本地vs云:大数据厮杀的最终幸存者会是谁?_云原生_赵钰莹_InfoQ精选文章