Hadoop生态系统各组件与Yarn的兼容性如何?
内存计算使用系统中不断增加的内存占用快速执行迭代处理和交互式数据挖掘等活动。Apache Spark是一个流行的项目,是整套解决方案的关键部分,还包括用于SQL操作的Shark和用于图形处理的GraphX,Cloudera的CDH5发行包括在Yarn上运行的Spark。 2.3.8 DAG DAG执行引擎允许将数据处理逻辑建模为DAG(有向无环图),然后在大型数据集上并行执行。Apache Tez是DAG执行引擎的一个例子,它产生于需要提供更通用的MapReduce系统,该系统保留了MapReduce的并行性和吞吐量,同时支持MapReduce提供的额外处理模型和优化。Tez的功能示例包括不强加特定的数据模型,因此可以支持MapReduce的键/值模型以及Hive和Pig的基于元组模型。 Tez提供了许多优于MapReduce的优势,其中包括消除MapReduce中多个作业之间存在的复写障碍——这是Hive和Pig等系统的主要性能瓶颈。Tez中的应用程序不需要排序,可减少MapReduce中的排序开销,从而产生更高效的管道。Tez还支持复杂操作,比如Map-Map-Reduce或任意操作图,开发人员能够更自然地表达他们的管道。Tez还可用于在执行时选择动态数据流,例如,根据流中数据大小决定将其存储在内存、HDFS或本地磁盘中。 2.4 结语 Hadoop整个生态自Hadoop 2.0版本出现之后发生了巨大的改变,弥补了Hadoop 1.0中的诸多不足。在Hadoop 3.0及之后的几次小版本迭代中,Yarn在时间轴服务方面进行了升级,提高了时间轴服务的可伸缩性和可靠性,并通过引入流量和聚合来提高可用性。虽然不再像Hadoop 1.0时期依靠MapReduce完成大量工作,Yarn已经与Hadoop 1.0时期出现的众多组件形成了良好的互补合作模式,这一点是毋庸置疑的。 【责任编辑:未丽燕 TEL:(010)68476606】点赞 0 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |