微软即将开源REEF大数据框架
微软开发出一套名为REEF(即可保留评估执行框架的简称)的大数据框架,并有意在一个月之内将其推向开源。REEF在设计上以下一代Hadoop资源管理器YARN为运行基础,尤其适合完成机器学习类任务。
微软公司技术研究员兼信息服务部门CTO Raghu Ramakrishnan在本周一上午于芝加哥举办的知识发掘与数据发现国际大会上,以主题演讲的形式介绍了REEF项目与微软的开源规划。
YARN是一款资源管理器,最初作为Apache Hadoop项目的组成部分开发而来,旨在帮助用户在由多台物理设备构成的同一套集群内运行并管理多种任务类型(例如批量MapReduce、与Storm及/或图形处理包共同实现流处理等)。这项新机制不仅能够缩减机构所需管理的系统数量,而且能在同一位置以同一批数据为基础执行不同类型的分析工作。在某些情况下,全部数据工作流甚至可以完全在同一套设备集群内进行处理。
不过根据Ramakrishnan的解释,某些工作类型(例如机器学习)对于YARN类框架并不适合,因为它们对于数据移动、任务监控以及前续结果集迭代(以避免多次重启)等功能存在特殊要求。针对REEF,Ramakrishnan表示这是一套运行在YARN之上的库;虽然他并未深入探讨其具体运作机制,但宣称REEF能在一定程度上解决上述问题。
但他曾明确解释称,REEF被分为两大主要部分:首先是作为容纳REEF服务的YARN容器——Evaluator;然后是使用户代码运行在Evaluator当中的Activity。他还为我们带来一段工作流演示,即在YARN当中启动Evaluator,并以Evaluator为容器实现Activity代码运行直到结束。值得一提的是,同一Evaluator还可以再次启动并维持其初始状态,这样其它Activity进程也可以针对初始数据实现运行。据推测,微软很可能是利用某种SQL查询或者其它机器学习算法来实现这样的效果。
从理论上讲,REEF是一种非常有趣的技术。它希望解决企业在尝试对数据进行进一步分析时所面对的遗留问题。我们期待微软正式发布REEF之后,再从实际使用中获取更多效果信息。尽管目前尚未实践证明,但REEF仍然值得关注——这是因为微软已经对Hadoop(YARN即为Hadoop的重要组成部分)及开源社区表现出高度关注。就在几年前,微软还在寻找Hadoop的替代方案及专有平台。如今,软件巨头已经开始在Hadoop技术社区中倾注心力,希望借开源之力助自己更上一层楼。