大数据正在遭遇成长的烦恼
为期两天的“2018大数据产业峰会”在北京国家会议中心召开。本次会议由中国信息通信研究院主办,旨在进一步落实《促进大数据发展行动纲要》和《大数据产业发展规划(2016-2020年)》,支撑大数据国家战略落地,展示大数据产业发展成果,探讨发展面临重大问题,推动产业交流与合作。
中国信息通信研究院云计算与大数据研究所所长何宝宏在首日会议上作了题为“预见大数据的2018”主题报告,以下为演讲实录:
大数据遭遇成长的烦恼
从2011年至今约7年的时间,大数据正在遭遇成长的烦恼。欧盟5月份实施GDPR通用数据保护规则,核心是个人隐私数据保护,要求用户明确同意授予数据的流动权。最近的大数据在杀熟,Facebook遭遇的窘境,包括今日头条也正遭遇窘境。7年了,大数据必须进行方向性的调整。
这是又一个三角困境,技术上追求很多目标时,目标之间容易出现冲突。尤其数据方面,个人隐私、国家安全、便利性三者不可兼得,只能选择两个。2013年奥巴马讲到,不可能既享有100%的安全,又享有100%的隐私,同时没有丝毫的不便,我们不得不做出选择。大数据也需要做出选择,二选一时会发生一些调整。
这些事件意味着什么?短期看,说明一些大数据应用真正落地。如果大数据在用户画像及营销没有落地,这些事情不会发生。这也反向证明大数据真的已经成功应用,所以才能出现问题。几年前搞云计算时说可靠性不行,我说恰恰说明是人们开始广泛使用云计算,要不然不会关心这些问题。中期看,保护个人隐私必然是未来3年或更长时间内的重中之重,全行业必须团结起来,为保护用户隐私制定规则,这也需要恰当地技术手段提供支持。长期看,最近一系列事件的爆发是不是意味着已经使用20多年的互联网免费模式宣告终结。恐怕这是更大的议题,免费模式都是以用户数据换取用户服务的便利性。
大数据行业正在回归理性
个人判断,行业发展需要调整变化。从过去7年时间强调技术、发展,下一步更多的关注合规、隐私保护、安全。任何产业发展到第二阶段必须要强调关注合规性、安全及隐私问题,早期会重点关心技术与发展。现在,正在从几年来高估大数据的影响开始转变为低估大数据的影响,因为人总是会高估技术短期影响,而低估技术的长期影响。我们即将迎来开始低估大数据长期影响的阶段,现在进入回归理性阶段,行业正在回归理性。对大数据以前高估的价值更加理性,以前不太关注的隐私必须补课,这需要3年左右的时间。2021年前后大数据会迎来新一轮的黄金发展期。
从市场看,我们还将继续维持规模小、增速快的态势。过去的几年大数据的主要应用场景是互联网,未来几年的核心是大数据与传统行业、实体经济的深度融合。十九大报告讲的很清楚,我们必将迎来的是传统行业如何更好使用大数据的过程,因为传统行业更容易赚钱。
从技术看,开源正在引领各行各业,大数据也不例外。今天上午报告也讲到实现在线分析的分布式,下一步需要实现在线处理事物的分布式。OLAP/OLTP的融合是新的趋势。随着产业的发展完善,意味着产业的分工越来越细,相互之间的协作会越来越麻烦。反推的结果是我们所做的大数据产品与技术需要标准化、模块化。因为不可能庞大体量堆在一起,运维需要自动化比较好理解,系统越来越庞大,机器产生的事情只能用机器解决,大数据产生的运维问题只能靠大数据产生的自动化运维解决。
容器化,今天的大数据也需要借助容器的思想封装交付。几年前发现软件开发交付等跟环境关系过于密切,今天看到大数据也是这个问题。大数据迁移时与环境配置的关系过于密切,我们应该发展类似于容器的技术。专用硬件,随着摩尔定律的减速,越来越多地需要靠一些专用的而不是通用的硬件解决问题。面向特定场景数据处理的专用硬件或软硬件结合会是重要的发展方向。
从算法看,算法的透明度会成为需要关心的议题。随着数据越来越多,数据越来越开放,要打破算法黑箱,解决算法的歧视问题、算法杀熟问题和算法疫情。如果算法一样,尤其金融市场会引发算法共振或算法疫情问题。开放算法是必须要考虑的议题,刚刚讨论过网络中立问题,算法该不该中立?算法该不该透明?算法该不该监管?我想需要。
从资产看,过去几年知道数据是资产,市场教育已完成。但如何把数据变成资产还在迷茫中,前几年想是否通过财务手段把数据变为资产,现在看是不够的,需要更多的技术支撑。未来3年要学习如何把数据变成资产,不仅通过资本与管理的手段,还需要新的技术,需要创新算法、创新技术、创新模式。
从流通看,我们还处于男耕女织的时代,据调查50%的大数据企业使用的数据还是自己生产的或隔壁家生产的。大数据说是资产,但它没有变成资产。我们说大数据是商品,但大数据没有变成商品。我们只知道大数据很有价值,但如何流通还处于早期的阶段,需要很多技术创新、理论创新。30年后得诺贝尔经济学奖的人一定会有是干这个活的,因为需要数字经济时代的数字经济学家。今天的经济学更多的建立在工业经济的假设之上,上来就讨论工厂、工人与产品,用货币衡量价值,这些都是工业时代的思维。数字时代需要数字时代的经济学家解决数据流通存在的理论问题、方法问题。处于从农耕产品的贸易到数字产品贸易的转折,现在不太清楚数据如何做贸易,我们正在探索之中。需要实现工业经济学到数字经济学的跃迁。
从价值看,需要新的用户,新的价值。数据保护问题更像隐私危机,我们说大数据是石油,石油也经历过危机,爱迪生危机。煤油的主要用途是照明,爱迪生发明了电灯后是不是石油面临危机?石油的用途只是照明,可是电灯来了。后来改善石油的冶炼技术,炼出汽油,更加广泛地用于动力。今天大数据主要面向人,面向人的大数据分析处理应用必然会带来隐私危机。只要知道的都是隐私,不知道的就不是隐私。凡是能够发现处理的最终都会被归于用户隐私范围内,必然会导致隐私危机。我们需要新的模式与新的创新,将大数据的使用范围扩展,使用价值扩展。不仅仅面向人,可能要面向物联网、工业等各行各业。而过去几年更多处理人产生的数据。
从风险看,必然会出现风险,数据是资产,资产是数据。人类的财富正在虚拟化,正在数据化,意味着风险正在由物理世界、现实世界迁移到虚拟世界、数据世界。哪里有风险,哪里就有保险。中国信通院联合中国人保推出云计算保险已经有四年的时间,希望与业界一起研究如何为数据买保险,如何通过金融手段解决数据面临风险问题。
从理想看,万物皆数据,数据皆兄弟,我们需要连接。单个的孤岛数据价值不大,我们必须搞流通。我们是连接的时代,流通产生新的价值。现在不是单体重要,而是单体与别人之间的连接更加重要。数据的价值不取决于数据本身是什么,而取决于数据跟其它数据之间的关系是什么,位置是什么,在数据世界处于什么位置。连接比数据本身更重要,我们一定会连接起来。我们搞开放、共享的核心目的只有一个,让数据连接流通是长期的目标,需要与在座的诸位共同努力。
以后,数据会去往何方?
我们正在迎来摩尔定律老去的时代,摩尔定律减速的时候会对整个行业带来翻天覆地的变化,我们需要改变传统思维方式。以前觉得计算资源很便宜,浪费点没什么,今天的计算资源越来越贵,因为摩尔定律减速。以前行业的增速非常稳定,有节奏感,因为有摩尔定律什么也不干也能稳定的让你增长。今天当摩尔定律减速甚至停缓的时候,行业当然会往前走,但不能仅仅依靠摩尔定律,我们要依靠软件。我们需要更新软件的结构,最近看到很多新的软件架构出现的原因之一是,底层计算资源不再符合摩尔定律增长速度,所以要创新软件与架构的设计。
改进算法。以前不太关心算法的改进,因为算法改进付出的成本可能比摩尔定律芯片买一个更高。与其改进算法,不如再买芯片。今天必须改进算法,因为底下的计算资源越来越贵。算法优化成为未来几年非常重要的发展方向,包括大数据处理。因为底层资源再浪费不起。
硬件。以前通用硬件非常广泛,越通用价格越低,缺点是越通用的性能越差。硬件性能上不去只好优化硬件,而不再是通用的硬件。面向数据的软硬件结合是重要的发展方向。
当大数据遇到区块链,两者都是用来处理数据,一个是希望扩展数据的内心,结构化扩展到更多的数据结构。数据以前做信息,现在做价值,海量数据提高计算性能。区块链说针对关键数据,主要核心目的是为了防篡改,也有计算模式。把一件事分给多个人做,区块链希望多个人重复做一件事情,有利于防篡改。一个用服务器积存,一个是用P2P网络,一个数据是信息,一个数据是价值。大数据处理需要给做大数据的人发工资,因为激励是外部的。区块链发币的时候可以内置,而不是通过外部的数据。大数据宣传的口号是相信数据,区块链的口号是相信数学。
大数据遇到人工智能。大数据做数据的可视化,是因为计算机把数据看明白了,可是人看不明白。计算机视觉,是因为人看明白了,但机器看不明白。一个往左一个往右,前几年宣扬大数据主张关联关系而不是因果关系,要回到愚昧的原始社会。机器学习能证明数据之间有关联,但机器学习为什么出现这样的结果无法解释。证明存在关联关系,但无法解释为什么有因果关系。
当忘记成为例外,被机器忘记也是一种幸福。发明很多技术,核心目的就是记住,因为人的记性太差。你忘了黑客没有忘记,数据很久远,一上永流传。以前发表文章需要交版面税,今天删贴子试一试,遗忘权成为新问题。以前只关注如何记住问题,现在关注如何永久性地消灭数据是工程师新的发展机会。
我们做很多数据,只关心数据从哪里来的,用完了以后数据去了哪里?大数据基本“进冷宫”,用完了就完了,80%的数据3个月以后无人理睬。GDPR隐私数据“要灭绝”,区块链数据价值“得永生”,因为是为了防篡改,数据世界的价值越高寿命越长。有的数据会莫名其妙地消失,不知道去哪里,因为介质的寿命很短。我们的磁盘长点就是几十年的寿命,今天存储的数据千年以后的人怎么找到,如何打开word文档。他们去哪里考古这代人所谓的大数据,到哪里发现?