专家解读:大数据是未来的新石油
大数据来袭,究竟意味着什么?在中国科协近日举办的科学家与媒体面对面活动上,中国联通网络技术研究院首席专家唐雄燕给出一组直观数据来描绘了大数据的未来图景:到2030年,中国一个普通的家庭会有40~50个智能终端,一个家庭产生的数据是20TB,相当于半个国家图书馆的藏书容量,即2600万册,40TB。
“最近两三年产生的数据可能比人类历史上4万年产生的数据还要多,实际就是由于互联网的发展,互联网是大数据来源的最重要的地方。”唐雄燕说,如果在一辆普通家用轿车上安装传感器,大约需要几十到近百只,而豪华轿车的传感器数量可达200余只。在传感器的监测之下,汽车每小时能产生5~250GB的数据,而谷歌的无人驾驶汽车每秒产生约1GB数据。而据IDC预测,到2020年,全球将有300亿个物联网终端,远超人类的数量。
大数据就是未来的新石油。唐雄燕说:“数据已经成为一种新的经济资产类别,就像货币或黄金一样,将形成数据材料、数据探矿、数据加工、数据服务等一系列新兴产业。”正如《大数据时代》一书里所说的:知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。
一个经典的营销案例是:美国一家零售连锁超市Target创建的一套女性购买行为在怀孕期间产生变化的模型。一次,一男子闯入了他家附近的Target店,向店铺经理大吼:“你们竟然给我17岁的女儿发婴儿尿片和童车优惠券,她才17岁啊!”店铺经理向来者道歉,表明那肯定是个误会。但一个月后,这个愤怒的父亲打来电话道歉,他女儿的确怀孕了。
“谷歌流感趋势”也曾震撼世人。2009年2月,谷歌在《自然》杂志上发文,解释了谷歌仅仅通过研究人们上网的搜索记录,就能够预测季节性流感的爆发和传播。谷歌的预测与美国疾控中心的预测数据存在很高的相关性。但美国疾控中心通告新流感往往会有一两周的延迟,而谷歌的预测数据更有效、更及时。为此,谷歌公司处理了5000万条词条与将近5亿数学模型。
“要在数据里面找出有价值的东西来,这是大数据技术的核心,迅速完成数据价值的提纯。”唐雄燕说。以监控摄影为例,有的监控累计一整天,其中真正有价值的可能只有“发现你干坏事的那一两秒钟”,在这中间怎么找出来,就是数据挖掘技术的关键。
当然,在利用大数据价值的同时,也须警惕数据安全和隐私保护问题。工信部电信研究院互联网中心主任何宝宏说,对于政策制定,原来对用户的隐私保护更多侧重于隐私本身,如个人姓名、电话号码、银行账号等,而大数据时代除了保护这些信息,更需要一些新的思路和方法,如果只是保护用户信息的采集环节,在大数据时代就是不完整的,因为总有一些其他信息能够分析出有些涉及用户隐私的信息。