专访 Oxylabs 首席执行官:合乎道德的网络数据收集如何为公众利益服务?
请介绍一下 Oxylabs,公司一开始是什么样的,这些年来最重要的成就有哪些?
Oxylabs 是高级代理和公开网络数据采集解决方案的领先提供商,让各种规模的公司都能利用大数据的潜力。简而言之,我们提供所有必要的工具和解决方案,供企业大规模收集公开可用的数据。
这些年来,我们的产品组合不断发展,能够满足对公开网络数据的日益增长的需求。例如,我们推出了即开即用的抓取解决方案,如爬虫 API,让我们的客户能够专注于分析数据,而不用考虑棘手的网络抓取过程。
如今,我们拥有 1000 多家客户,其中包括数十家全球财富500 强企业。此外,Oxylabs 拥有 400 多名员工,他们真正专注于每天为我们的客户交付出色的产品和体验,我对他们每个人都心存感激。
请向我们的读者解释一下什么是网络抓取?
简单来说,网络抓取就是从预定义的网站采集大量公开可用数据的自动化过程。企业可以使用收集的数据来获得数据驱动型洞察,推动其运营,并支持战略性企业决策。
例如,网络抓取是在线购物中不可或缺的一环,因为它让企业能够访问可靠的实时数据,并更好地理解其友商的行动。因此,公司能够以最具竞争力的价格向客户提供最令人满意的产品和服务。
这只是一个网络抓取商业案例,这样的案例还有很多。随着对大数据的需求极速增长,不同的用例也浮现出来,新的行业也在发现外部数据的优势。
不太懂互联网技术的中年人如何从网络抓取技术获益?
自动化网络数据采集解决方案不仅可惠及各个企业,还能为更广泛的普通大众带来诸多便利。
想象一下这样的场景,你需要获取特定产品的最优价格。我们不用打开不同零售商网站的多个浏览器标签页,记录产品信息并花费数小时试图找出最优惠的价格,而只需访问价格产品比较网站。所有比较网站都依赖网络抓取技术,在几秒之内提供这些信息。
旅行规划是另一个很好的例子。旅游比价平台网站很适合用于组织家庭度假,或者规划国外城市短假。它们提供了最优机票和食宿价格,并可帮助我们找到经济实惠的交易。如果没有网络抓取,旅行者又只能花费数小时甚至数天来研究最优惠的价格,或依赖其当地旅行社。
当然,最明显的例子还是搜索引擎,因为它们依赖网络抓取技术来对互联网上的所有网站编制索引。通过这样做,搜索引擎实际上可以将我们定向到在线来源以解答我们的问题。简单来说,网络抓取是一项神奇的技术,可以让我们的生活轻松得多。
如今数据保护法律似乎越来越向消费者倾斜,Oxylabs 是如何在广袤的数据海洋中找到航向的?你们在采集公开数据时遵守什么禁忌规则?你们是合乎数据收集行业规范的提供商吗?
我已经不止一次听到这个问题了,以后肯定还会有人提出这样的问题。如今,大部分人一听到“数据”这个词,立马想到这会影响自己的隐私。这也在情理之中,因为世界范围内的数据泄露比比皆是。
在 Oxylabs,我们处理的是公开网络数据的 B2B 端。不管怎么样,这仍是一个棘手的法律格局。网络抓取是一项相对比较新的技术,缺乏广泛的法律监管。因此,各家公司必须总是谨慎考虑自己计划收集哪种网络数据,以及是否会违反任何法律,例如,版权法。在开展任何网络抓取活动之前,我们鼓励每家公司咨询律师,评估法律细节。
在 Oxylabs,我们投入了大量时间精力来培训行业和我们的客户,宣传如何开展合乎道德的网络抓取。我们在公开网络数据采集方面有严格的政策,并确保我们的所有运营以最高的商业伦理标准为准绳。
能否讲一讲网络抓取技术对整个社会的好处的成功案例?
我们一直致力于宣传合乎道德的网络抓取的积极作用,并展示这对更广泛的普通大众的好处,为此,我们推出了“Project 4β”,专门帮助大学、研究人员和组织解决紧迫问题和使命。
通过“Project 4β”,我们与许多大学建立了有影响力的伙伴关系,包括密歇根大学和 CODE - 应用科学大学,我们向他们共享了我们的工具和专业知识。
此外,在赢得 Govtech 实验室挑战赛之后,我们与立陶宛共和国通信管理机构 (CRA) 建立了无偿服务的卓越伙伴关系。他们的一大使命是保护立陶宛互联网空间,杜绝非法内容。
CRA 面临自动识别非法内容的挑战,为此,我们的团队创建了由 AI 驱动的网络抓取工具,扫描互联网以检测与儿童性虐待相关的非法视觉内容。之前,他们主要依赖互联网用户出于善意而向热线电话举报非法内容。截至 2022 年,该工具已在 CRA 的日常运营中完全部署,能够积极主动采取措施取缔这些网站,并确保恶意行为者受到惩罚,实在大快人心。
凭借“Project 4β”,Oxylabs 总是乐意成为研究人员和组织的帮手,帮助他们解决紧迫的社会问题。在网络数据采集解决方案的帮助下,我相信我们可以解决更多社会问题。