数据核战争已经爆发,支付产业深陷其中
过去一周,Facebook因间接致超过5000万用户数据泄露徘徊在生死边缘。美国联邦贸易委员会的调查已经开始,如果属实,Facebook将面临高达2万亿美金的罚款,且深陷信任危机。事件爆发后,公司股价一路下跌,两日市值便蒸发500亿。
稍早前的3月7日深夜,全球第二大虚拟货币市场币安交易所被黑客攻击,大量虚拟币被转换成比特币,包括币安、火币在内的加密货币全盘暴跌,部分主流货币跌幅超过5%。随后,币安交易所发布公告称,“这是一次大规模通过钓鱼获取用户账号并试图盗币事件。”
最新引发热议的是大公司利用大数据“杀熟”。比如使用滴滴打车,同样的出发地点和目的地,价格却不一样,甚至不同手机生成的价格也不尽相同。虽然滴滴CTO张博否认“杀熟”的存在,但这是用户近距离感受到大数据威力的存在。一切取决于企业的态度和决定。
仅仅一个月时间,因数据问题衍生爆发了几起全球恶性事件。虽然发生地点、领域有所不同,但背后无一不涉及商业利益。牺牲品即是用户的数据安全和信息隐私。令人心惊的是,截至2017年年中,中国网络黑产从业人员已超过150万,市场规模高达千亿。
不可否认,在万物互联的时代,数据的战略重要性与日俱增,大数据产生的商业价值也得到共识,但真正能实现商业价值的数据只是一小部分。那些打着“保护用户隐私”旗号的作恶者却在有意且盲目地抢占数据。作为被争夺的主角,用户往往表现得很无力,毫无反抗余地。
一定程度上这与监管缺失有关。去年6月1日,两项网络安全的法律条例开始施行,非法获取、出售公民个人信息最低五十条以上即可认定为“情节严重”,达到入刑的标准。三个月内,北京市海淀警方破获了30余起与此相关的案件。而在此前,即便是上亿条数据的交易,由于缺乏司法解释,案件走不到诉讼程序,往往不了了之。
能站在数据权力顶端的,很可能是那些能真正使用好数据的超级公司。因为几乎所有采访对象都表示,国内对数据的保护和使用仍然杂乱无章,黑产毫无底线,互联网企业则是靠自律行事。
掌管着10亿用户的微信被质疑“天天看用户聊天”,张小龙曾在2018微信公开课亲口否认。官方也明确回应,微信不留存任何用户的聊天记录,聊天内容只存储在用户的手机、电脑等终端设备。此外微信不会将用户的任何聊天内容用于大数据分析。
阿里巴巴是国内最推崇数据价值的企业之一。过去五年,马云大多数公开演讲都提到DT时代企业的机会和责任。2012年,在阿里巴巴首设CDO(首席数据官)时,马云在内部邮件写到,“将阿里巴巴变成一家真正意义上的数据公司”。
握有数据的一方急需兑现数据的权力,似乎这样可以站到未来战略的制高点。随着人工智能、新零售等行业一个个踏上风口,数据开始被大规模使用,企业与用户之间、企业与企业之间的摩擦明显加剧。
数据黑产
信息泄露正以无孔不入的态势入侵正常生活。用户授权某一应用使用手机麦克风,或在社交平台与好友互动,甚至无意间登陆一个网站,都存在信息被实时获取的可能性。
“过度且愚蠢。”火绒安全联合创始人马刚有些愤恨,在他看来,数据也分有效和无效,大多数企业对数据的使用效率很低。“像是跑到用户家搜了一圈,拿走很多信息,但没发现任何有用的。伤害了用户,自己也没得到什么好处。”
火绒是聚焦PC端软件安全的服务商,在他们的监测中,几乎所有桌面端的软件都存在侵权行为,“很疯狂,甚至一些软件50%的宽带用来上传用户信息,它们不仅能监测存储在电脑中的数据,还能记录用户上网的账号。”
知道创宇这家公司得到的数据是,每天PC端的攻击在300亿次左右,而正常访问量在200亿次左右,远远低于黑客的攻击次数。其中,教育、医疗、金融、健身等领域信息泄露最为严重。
移动端的数据问题显然更严重,无意中点击的功能或者下载的应用,就存在手机被ROOT的风险,“它可以绕过任何权限,无论用户是否同意,都可以记录用户所有操作,做任何想做的事情。”梆梆安全副总裁方宁告诉记者。
与火绒不同,梆梆安全是一家针对移动和物联网的安全服务商,目前为超过80万个移动APP提供安全服务。他们的观察是,除了金融类公司和大体量的互联网公司有自己的安全团队,70%的APP最初都是裸奔上线。
移动互联网中至少有30%的流量流向黑产。以共享单车行业为例,公司初期通过补贴的方式获取用户,比如,骑一次单车补贴1元,黑产会模拟手机号和用户行为,并没有骑车最终还能骗取1元的补贴。如果一年的推广经费是10亿,其中3亿流到黑产。
相比黑产的低级野蛮,移动互联网窃取用户信息则充满狡猾。
Facebook最近深陷危机的原委是,一家名为英国剑桥分析的公司通过一款个性分析测试APP触及Facebook用户,在这款测试中,用户被要求“授权允许该应用获取自己和朋友的Facebook数据信息”,虽然只有27万名用户同意,但滚雪球效应之后,这款应用最终获取超过5000万Facebook用户的信息。
真正引起恐慌的是英国剑桥分析公司转手将5000万用户的信息售予第三方。Facebook认为上述公司获取用户信息经过了用户许可,但售予第三方未经用户允许,这是导致此次信息泄露最主要的原因,虽然此前,Facebook已经意识到漏洞的存在。
“是否经过用户允许”是判断企业使用用户信息合法与否的重要标准。在安装一个新APP时,通常被要求访问通讯录、地理位置等信息,但访问的目的、时间和方式等,几乎没有企业会给出明确解释,而《网络安全法》对此有明确的规定。
2018年春节,今日头条狂砸10亿元发起“发财中国年”的活动,用户可以通过集生肖卡、红包雨、拍小视频拜年等方式领取现金红包。本是一个撒钱赚用户的活动,但在提现协议中,包含大量对个人隐私“包括但不限于身份信息、个人信息、账户信息”的收集。更重要的是,签订这份协议就表明用户同意今日头条将所有个人信息提供给第三方,以及要求用户同意在注销账户之后,“公司仍可保存注销前的相关信息”。
而就在此事发生前一个月,今日头条、蚂蚁金服、百度三家公司被工信部约谈,起因也是私自收集个人信息,工信部认为上述公司存在用户信息收集使用规则、使用目的告知不充分的情况。
“过度采集用户信息在互联网公司很普遍。”中关村大数据产业联盟秘书长赵国栋告诉记者,利用获取信息的特权,企业搭便车过度采集信息。
面对“独角兽”和“巨无霸”,海淀警务支援大队的董立波能采取的应对之策非常有限,“它们不会明确超出法律界限,只是行走在灰色地带,而且关键数据都存在自己的服务器,调查取证比较困难。”2017年,董立波和团队破获了上百起案件,一年中大半年时间都在出差。
由于保护隐私意识匮乏,用户很有可能无意识签下同意泄露个人信息的协议。
1月初,支付宝发布年度账单,最下方的“我同意《芝麻服务协议》”一行字不仅字体小,而且默认打勾。协议声称,支付宝可以直接向第三方提供用户相关信息,并且可以进行分析、推送给合作机构,以及有权不支持用户撤销第三方的信息查询授权。后被用户发现,支付宝道歉并修改默认用户同意的选项。“无论如何,支付宝不应该默认用户允许,但是否违法也说不清楚,还是灰色地带。”马刚分析。
诸如此类的擦边球在互联网行业非常普遍。董立波发现最新版的淘宝平台服务协议详细定义了“淘宝平台”和“阿里平台”的范围,“以前没有这么详细。”在他的案头,摆着大量和法律条文相关的书籍,各家协议通常充斥着文字游戏,董立波需要从里面找到漏洞。
虽然法律已经明确规定未经被收集者同意,不能将合法拿到的用户信息向他人提供,但在淘宝协议中,仍然表示“会将用户信息与关联公司共享”,并且未标明使用目的、方式和范围。董立波解释在新的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(下称《解释》)中,数据不能继承,比如,母公司获取的数据,不能直接提供给子公司。
数据黑洞
想方设法获取用户数据只是一方面,企业之间的数据争夺也浮上水面。
撞库是指黑客通过收集互联网已泄露的用户和密码信息,尝试批量登陆其他网站,得到一系列可以登录的用户,在用户不同平台采用同样的登录账户和密码时,撞库成功率尤其高。最近发生的360与B站之争就涉及到撞库问题。
快视频是奇虎360于去年11月推出的短视频产品。今年2月,大量B站用户用同样的用户名和密码可以直接登录快视频,而他们此前并未在快视频注册。快视频被诟病的另一问题是,大量内容与B站重合。截至2月22日,快视频查出来自B站的非正版账号近五千个,相关视频内容共计一万六千多条。
虽然快视频否认撞库并拖库B站数据,但外界认为撞库是快速获取用户和信息的重要手段,一位业内安全人士分析,“这样做是造成虚假繁荣的假象,把影子搬来了,但没有人。”
从注册账户的竞争到“账户+数据”的竞争,七牛云总裁吕桂华的感受非常明显。日活是比注册账户数更重要的考核维度,而支撑日活的是用户留在平台上的数据和关系,“企业现在都知道如何控制用户,留下用户和数据,以及过程中产生的关系,用户自然会回到平台。”
过去三年,吕桂华感受到企业对数据愈发重视。作为企业级云服务商,大量公司将数据存储在七牛云的服务器上面,“过去企业会因为省钱,定期删掉服务器上的一些数据,但现在即便短期用不到,企业也会保留数据。”
去年6月1日,顺丰、菜鸟短兵相接,争夺的焦点就是数据。菜鸟声称为保护消费者隐私、电话信息安全,对全网物流数据进行信息安全升级,但顺丰拒不配合。顺丰的理由是,菜鸟要求提供与其无关的客户隐私数据,此类信息隶属于用户,未经用户许可,无法提供。
一天之后,两家之争迅速扩张为两个阵营,一方是以“四通一达”为代表的菜鸟系,一方是迅速驰援顺丰的京东、美团、网易等企业。双方最终调和细节不得而知,但事关身家性命,任何一方都不想退步。
去年8月底,上海知识产权法院就百度涉嫌以不正当手段使用大众点评信息一案作出判决,百度败诉,赔偿大众点评323万元。吕桂华认为这是典型的因数据争夺而引起的企业摩擦。
事情的起因是,用户在使用百度地图和百度知道搜索某一商户时,页面会显示用户对该商户的评价信息,其中大部分来自于大众点评。比如,涉及餐饮行业的1055个商户中,共有86286条评论信息来自大众点评,有784家商户使用的评论信息中超过75%来自大众点评网。
最终法院以“百度大量使用大众点评网的信息,实质性替代了原告网站,具有不正当性”为由宣判。在这起摩擦中,百度显然动用了本应属于大众点评和用户的数据信息,并对双方都没有告知。
桌下的数据导流交易在行业内也是公开的秘密。
从2016年开始,支付宝作为征信机构,将芝麻分与不少网贷平台打通,为后者提供风控业务。此前一位网贷平台业务负责人在接受采访时曾表示,支付宝会向其提供用户风险评估结果,作为交换,用户在网贷平台完成借贷行为,“需要将20天以上的用户相关数据回复给蚂蚁金服”,以此,支付宝完善自己的征信黑名单。
类似行为在《征信业管理条例》中已经有明确规定,作为网贷平台,“向征信机构提供个人不良信息的,应当事先告知信息主体本人。”去年下半年,在积累大量数据之后,支付宝开始收紧合作的口袋。
在去年6月1日开始施行的《解释》中提到,“未经被收集者同意,将合法收集的公民信息向他人提供”属于非法出售、非法提供个人信息的行为。
相比企业之间的数据争夺,赵国栋认为更严峻的问题是数据割据,BATJ都有自己的数据,但之间并不互通,企业在知道数据重要性之后,纷纷建起篱笆。而在此之后的数据交易中,由于体量不对等,很容易出现数据霸权。
从某种角度来说,网联的出现就是为了平衡第三方支付平台与传统银行之间的关系。网联出现之前,第三方支付通过在多家银行开设的账户直连,绕开清算机构。“银行无法获取第三方支付平台之间交易的数据,长期以往,就会成为数据黑洞,拥有大量数据,又完全对外隔离。”赵国栋分析。
赵国栋认为瓦解数据霸权的方式是对数据确权,也是就是所有权。目前业界达成的共识是用户的基本信息,比如个人信息、购物信息、地理位置等应属于用户,但在商业过程中产生的信息和数据应属于企业。以高德地图为例,个人的行踪信息的归属权在个人,但高德根据路况判断出的拥堵时长等数据归属于企业。
数据挖掘
对于数据的挖掘虽然还是冰山一角,但能够看到,以BAT为代表的互联网巨头正逐步走向正循环。
京东大数据平台与产品研发部高级技术专家赵国梁认为,数据应用关键在于是否有场景支持,“场景越丰富,数据能发挥的空间越大,反之,数据就是没用的垃圾。对于BAT体量的公司,业务场景多,根本不愁数据没法用。”
迄今为止,京东已经在商品采购和销售、用户购买、仓储配送,以及物流售后等环节积累数据,总量达到400PB。
新零售就是将线上数据进行线下使用的场景。7FRESH是京东旗下的生鲜超市,京东可以根据对用户的精准画像向其推送7FRESH的商品。这个过程并不是直接把用户之前的交易信息给它们,而是一个分析结果。
无人超市也需要对不同场景下数据加以综合利用。阿里巴巴去年开设第一家无人超市“淘咖啡”,用户登录淘宝ID进入超市,购物过程中,摄像头会收集用户行为轨迹,以保证后续产品的陈设更好地满足用户需求,在结算过程中,摄像头会自动完成结算和更改库存记录,这背后就需要打通不同维度的数据。
彼之蜜糖,吾之砒霜。一样的数据放在不同的场景,能发挥的作用完全不同。用户的购物信息留在手中并无价值,但企业可以将此作为多种判断的依据,一件商品在某个地区销量格外多,凭借这个信息可以提前在仓储多囤货,缩短物流时间。但其中又涉及到数据的流通问题。
赵国梁认为真正阻挡数据在企业间流通的是技术,“不解决脱敏和匿名数据的问题之前,数据在企业之间的流通都会受到阻碍。”
不同于黑产行业,企业对数据的争夺多是因为想更快占领数据赛道。
去年,华为与微信就因用户数据发生争执,事情的脉络很清晰:华为希望能够读取用户微信中的数据,并且自动加载相关信息,比如聊到电影时,推荐与此相关的应用。但在抓取微信数据时,后者以保护用户信息为由拒绝,华为则表示已经获得用户许可。
毫无疑问,微信的数据属于用户,无论二者之中谁在获取和使用数据时,都要获取用户授权。华为之所以想调用微信数据,是想据此尝试更多交互性体验。但对微信而言,用户的聊天数据是它的核心资产,不可能轻易拱手让出。
在赵国栋看来,企业之间数据争夺只会越来越激烈,“小公司面对大公司可能没有讨价还价的余地,但大公司都在寻找新的增长点,数据被视为金矿,大家都想挖掘。”
对于目前巨头可能产生的数据权力,赵国梁认为没有想象的大,“很难说对社会秩序、经济制度产生怎样的影响,但是可以帮助企业家更超前的判断行业趋势。”
政府在数据分享中的作用也没有充分发挥。浪潮集团董事长孙丕恕连续几年在两会提出关于“政府开放数据共享”的议案,在他看来,相比于互联网企业,政府手中的数据体量更大、质量更高。
在阿里巴巴、腾讯等互联网公司内部,都有一张巨大的ID映射表,按照不同维度标识用户,比如姓名、微信ID、淘宝ID、京东ID、摩拜单车ID等,不同场景用户的信息不同,但这张ID映射表就是将不同场景下的用户一一对应起来。随着信息密度的增加,用户的画像会逐渐清晰,也毫无秘密,最终成为一个个透明体。