Hadoop为一种基于开放源代码的软件框架,能够跨分布式集群以高吞吐量处理海量的大数据。
几年前主攻小众市场的Hadoop如今正进军主流市场。随着数字化运动的快速发展,Hadoop提供了充足的应用案例,允许使用普通的商品硬件进行大数据处理。
Hadoop还具有很高的可扩展性,可从单一服务器扩展到多个服务器农场,同时每个集群都能够运行自己的计算和存储。Hadoop为应用层提供了高可用性,由于集群硬件可以是现成的,所以它们能够实现节点轻松互换,从而提高成本收益。
“云端化”发展趋势
虽然早期使用者通常使用的是通过Apache发行版搭建的本地部署,但是目前企业开始逐步加大对云计算的使用。相比之下,自己动手DIY的方法无疑是繁琐和耗时的。
随着产品上市时间在数字时代的重要性逐渐突显,越来越多的公司开始使用迅速崛起并被大量采用的Hadoop即服务(HaaS)产品。
从用户的角度来看,将云作为首选具有重大意义。规模化经济使得单位成本更加低廉,企业可以提高效率,减少资本支出,同时获得更大的灵活性。
除了商业利益之外,云还开辟了一系列全新的数字用例,特别是在物联网环境下和需要实时数据处理的其他场景中。亚马逊网络服务的ElasticMapReduce(EMR)即为该领域的开拓性产品之一。
基本上所有的大型服务提供商都不约而同地在其产品组合中添加了基于云的Hadoop托管服务,而且Hadoop发行版厂商自己也在努力“云端化”他们的框架,其中Cloudera的Altus就是最新的例子之一。Altus允许用户利用MapReduce上的Hive或按需的Spark运行数据处理作业。
市场发展前景
在强大的云需求下,越来越多的公司选择了Hadoop即服务。HaaS本质上是一个平台即服务(PaaS)的子类别,它包括虚拟存储和计算资源以及基于Hadoop的处理与分析框架。服务提供商通常运维一个多租户HaaS环境,允许在共享基础设施上托管多个客户。
据市场研究机构AlliedMarket称,随着越来越多的公司接受了“云优先”思维模式,预计到2020年,HaaS市场的收入将达到161亿美元;从2014年到2020年,复合年增长率(CAGR)将达到70.8%。从收入角度来看,北美地区仍然是领先的地区,其次分别是欧洲和亚太地区。
预计到2020年,HaaS的爆发将让本地部署的Hadoop的增长相形见绌。据市场研究机构IDC的研究显示,公有云部署已占全球业务分析软件市场的12%,预计其复合年增长率将达到25%。除了大型企业外,中小企业也在越来越多地选择HaaS以获得有可操作性的洞察力和创建以数据为中心的商业模式。
考虑HaaS时需要关注的事项
目前已经有了许多HaaS用例,同时也暴露出了一些缺点。将大量数据移动到云端可能会产生延迟问题并且需要额外的带宽。虽然只需点击几下即可方便地部署高度标准化的HaaS环境,但设计权限完全是由服务提供商自行决定。此外,云端上的数据会出现“引力场”并导致用户被厂商锁定。以下是评估HaaS提供商时还需要关注的事项:
1.弹性
Hadoop支持适用于各种工作负载的弹性集群,这在考虑基于云的部署时尤为重要。有哪些可用的计算和存储选项能够支持不同的用例?例如,哪些额外的“计算刀片”可用于高I/O工作负载?环境的可扩展性如何,以及调用额外资源(计算和存储)的难易程度如何?
2.HDFS的持续使用
尽管不需要将HDFS作为持久性数据存储,但在使用它们具有明显的好处。HDFS使用的是商用直接附加存储(DAS)并且分担了底层基础设施的成本。此外,HDFS可以无缝支持YARN和MapReduce,这使得其能够本地处理查询并充当数据仓库。
3.计费
服务提供商的基本价格指标是什么(按订单还是按消费进行计费)?如果能力未得到充分使用,退订服务的灵活性如何?最重要的是,要记住“数据湖”是在快速扩张的,那么价格水平将如何随着时间的推移而变化?
4.高可用性
实现“零中断”是一个微妙但却非常重要的问题。提供商的服务级协议和故障切换理念是什么?冗余是如何实现的?例如,提供商是否能够在不中断整个作业的情况下隔离并重新启动单台机器(又称“不间断运行”)?
5.互操作性
用例往往会随着时间的推移变得越来越复杂,那么将正在使用或计划使用的服务集成在一起的难易程度如何?它们支持哪些数据流和API,以及它们的文档文件完备程度如何?
6.人才需求
虽然与DIY相比,设置HaaS环境所需的人力明显减少,但是Hadoop并没有完全实现“开箱即用”。虽然节点的运行只需点击几下鼠标,但是这只是在实际工作刚开始时如此。定制仍然需要花费时间和精力。
本文作者MarcWilczek为数字战略家和首席信息官顾问,在信息和通信技术领域拥有20多年的领导经验。
原文网址
https://www.cio/article/3239528/big-data/lifting-big-data-to-thesky-hadoop-as-a-serviceis-gaining-rapid-traction.html?nsdr=true