生成式 AI 的开发需要极大量的数据用作训练,这些训练数据不少都是从网络抓取,也因此引起争议。虽然有一些业界标准可以表明拒绝抓取,但看来 AI 开发公司并没有遵从此规定。
据报导指,不少 AI 开发公司并没有遵守拒绝抓取内容的 robot.txt 协议,擅自从网站取得内容训练 AI。其中 AI 搜索新创公司 Perplexity 就因此被媒体指责。内容授权公司 TollBit 表示,他们分析这些出版商的网站抓取记录,发现一些代理有规律的抓取网站,「这意味着不仅是一家公司的 AI 代理选择无视 robots. txt 协议来取得网站内容」。
Business Insider 进一步爆料,OpenAI 和 Anthropic 等知名 AI 公司也存在类似行为。对此,Perplexity CEO Aravind Srinivas 在接受 Fast Company 采访时辩称,他们「并非故意忽视 Robot Exclusions Protocol」。
他解释,他们除了自家抓取工具外还使用第三方网络抓取服务,而发现的抓取工具就是其中之一。他认为情况很复杂,而且 robots.txt 协议并非法律框架,出版商应该与 AI 开发公司建立新的关系。