AI和大数据让科技公司的地位比从前更难撼动
在新的一周里,谷歌发布了一项新的AI调查研究,这项研究再次彰显当今AI事业蓬勃发展的强势劲头。消费者生活和经济体发展越来越依赖科技进步,而科技公司的生态体系则依靠小公司不断颠覆大公司来实现不断创新和非垄断。但当科技竞争涉及到由大数据库驱动的机器学习时,大科技公司的地位将比从前更难以撼动。
这项新研究由谷歌同卡内基梅隆大学(Carnegie Mellon University)投入大量资金一起合作完成,于周一公布了预印版。谷歌同CMU 大学花了整整两个月时间将50个图像识别器连接到一起,并采集了3亿标识过的图片。此项目的目的是检验在不调整算法而是进行大量数据输入的情况下,机器能否更准确的识别图像。
答案是肯定的。 Google和CMU的研究人员对新的数据库进行了一个标准的图像处理系统培训之后,他们表示机器在图像识别相关的标准测试(如发现图中的物体)中获得了新的进展。显然输入数据的量和图像识别的准确度之间有直接关系。这项发现明确了之前关于AI界能否在维持下现有算法、只增加数据输入的条件下获得更多产出的问题。
由此发现可看出像谷歌、脸书和微软这种数据巨头公司,通过大数据的支持,会比之前预想的收益更大。谷歌3亿图像的数据库并不能产出巨大利润。图像数据库从1百万增长到3亿多带来的识别精度增长只有3%。但此次研究论文的作者表示他们认为可以通过将软件调整到更适合超大数据库的方式来扩大优势。即使最终这一预期没能达成,但在科技界,一点小优势也十分重要。举个例子,在无人驾驶汽车中,视觉识别精准就特别关键。对于某些产品而言,哪怕只有丝毫的性能优化,也能快速的带来几十亿的收入增长。
囤积数据早已是以AI为主要业务公司的防御策略。像谷歌、微软这样的公司都已开放软件甚至是硬件的源码,但对能使这些工具有用的支撑数据却并没有这么开放。但也不是说数据不开放:去年,谷歌公开了从700多万YouTube 视频中采集的数据;Salesforce 也开放了从维基百科中收集的数据库,方便算法可在各语言中使用。针对这些开放数据,来自AI开发实验室Manifold的合伙人卢克·德·奥利维拉(Luke de Oliveira)和劳伦斯伯克利国家实验室(Lawrence Berkeley National Lab)的访问研究员表示(想必大家也想到了),这种公开的数据库通常对潜在竞争对手而言价值并不高。“这种数据库绝不是那种对产品后续市场定位有关键影响的数据库。”
谷歌和CMU的研究人员表示,他们希望他们最新的研究、所谓的“大数据”的价值,能催化创建处更大的、Google规模的开放图像数据库。他们写道:“我们真诚地希望这能激发视觉界的人员不要低估数据,并开发集体努力来构建更大的数据集”。负责研究的CMU的Abhinav Gupta表示,想实现这一点,一个可行的选择是与通用视觉数据基金会(Common Visual Data Foundation)合作,这是由Facebook和微软发起的非营利组织,该公司已经发布了开放图像数据集。
同时,数据匮乏的公司想要在持有丰富数据的科技巨头公司间生存下去,则更需要创新意识。 DataRobot公司首席执行官Jeremy Achin表示,机器学习对更多公司和行业而言越发重要,小型公司(认真地)将数据集中在一起,使其风险预测与较大竞争对手竞争的保险模式可能会受到更广泛的关注。
使机器学习更少的依靠数据的进步可以提高AI的数据经济性; Uber去年收购了一家从事该项目的公司。但是现在也可以尝试并回避AI传统运营商通常的数据优势。Fast.ai,一家致力于使机器学习更大众化的公司,其联合创始人雷切尔·托马斯(Rachel Thomas)表示,初创公司可以在互联网巨头很少涉及的产业(如农业)展开机器学习。“我不确定这些大公司是不是在所有行业都那么有优势。在很多领域,并没有去收集相关数据”。即使人工智能巨头公司也有未涉及的盲点区域。