开年第一单!阿里花7亿收购了一家怎样的公司?
1月8日,彭博社消息称,阿里巴巴收购了位于德国柏林的数据处理公司Data Artisans。另据外媒报道,此次交易金额为1.033亿美元(9000万欧元),Data Artisans未就此事置评。
阿里巴巴官确认确有此项投资,并表示,“过去两年,阿里巴巴一直是Apache Flink最大贡献者之一。阿里巴巴将和Data Artisans一起持续为所有Flink社区用户、合作伙伴和开发者提供更多支持,致力于不断投资技术和未来”,但对具体金额不作评论。
Data Artisan 成立于2014年,专门提供为公司企业部署大规模数据处理解决方案的服务。该公司的解决方案可以实时管理和部署这类数据,以便客户更合理更快速地做出决策。Data Artisans由开源数据流处理技术Apache Fink的几位开发者创办。
阿里巴巴为什么选择Apache Flink?
此次收购,其实可从阿里巴巴与Apache Flink的不解之缘看出端倪。阿里巴巴计算平台事业部资深技术专家莫问曾在云栖大会上发表演讲《阿里巴巴为什么选择Apache Flink?》,或为此次收购埋下了伏笔。
阿里选择Flink的背景和初衷
随着人工智能时代的降临,数据量的爆发,在典型的大数据的业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。在绝大多数的业务场景之下,用户的业务逻辑在批处理和流处理之中往往是相同的。但是,用户用于批处理和流处理的两套计算引擎是不同的。
因此,用户通常需要写两套代码。毫无疑问,这带来了一些额外的负担和成本。阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题,所以阿里就在想,我们能不能有一套统一的大数据引擎技术,用户只需要根据自己的业务逻辑开发一套代码。这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持,这就是阿里选择Flink的背景和初衷。
Flink的诞生
Flink诞生于欧洲的一个大数据研究项目StratoSphere。该项目是柏林工业大学的一个研究性项目。早期,Flink是做Batch计算的,但是在2014年,StratoSphere里面的核心成员孵化出Flink,同年将Flink捐赠Apache,并在后来成为Apache的顶级大数据项目,同时Flink计算的主流方向被定位为Streaming,即用流式计算来做所有大数据的计算,这就是Flink技术诞生的背景。
2014年Flink作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。区别于Storm、Spark Streaming以及其他流式计算引擎的是:它不仅是一个高吞吐、低延迟的计算引擎,同时还提供很多高级的功能。比如它提供了有状态的计算,支持状态管理,支持强一致性的数据语义以及支持Event Time,WaterMark对消息乱序的处理。
Flink在阿里的现状
Flink是一个低延迟、高吞吐、统一的大数据计算引擎。在阿里巴巴的生产环境中,Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。同时Flink提供了一个Exactly-once的一致性语义。保证了数据的正确性。这样就使得Flink大数据引擎可以提供金融级的数据处理能力。
基于Apache Flink在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于Flink搭建的实时计算平台。同时Flink计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度,以 HDFS作为数据存储。因此,Flink可以和开源大数据软件Hadoop无缝对接。
目前,这套基于Flink搭建的实时计算平台不仅服务于阿里巴巴集团内部,而且通过阿里云的云产品API向整个开发者生态提供基于Flink的云产品支持。
阿里巴巴自2015 年开始改进Flink,并创建了内部分支Blink,目前服务于阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。12 月20 日,由阿里巴巴承办的Flink Forward China 峰会在北京国家会议中心召开,来自阿里、华为、腾讯、美团点评、滴滴、字节跳动等公司的技术专家与参会者分享了各公司基于Flink 的应用和实践经验。在大会的主题演讲上,阿里巴巴集团副总裁周靖人宣布,阿里巴巴内部Flink 版本Blink 将于2019 年1 月正式开源,之后会经过社区讨论合并回Flink。
由此可见,此次收购并非突然,是基于阿里巴巴长期战略发展的需要而为之。