AI 公司被指无视 robot.txt 协议抓取内容

2024年 6月 25日 65.7k 0

生成式 AI 的开发需要极大量的数据用作训练,这些训练数据不少都是从网络抓取,也因此引起争议。虽然有一些业界标准可以表明拒绝抓取,但看来 AI 开发公司并没有遵从此规定。

据报导指,不少 AI 开发公司并没有遵守拒绝抓取内容的 robot.txt 协议,擅自从网站取得内容训练 AI。其中 AI 搜索新创公司 Perplexity 就因此被媒体指责。内容授权公司 TollBit 表示,他们分析这些出版商的网站抓取记录,发现一些代理有规律的抓取网站,「这意味着不仅是一家公司的 AI 代理选择无视 robots. txt 协议来取得网站内容」。

Business Insider 进一步爆料,OpenAI 和 Anthropic 等知名 AI 公司也存在类似行为。对此,Perplexity CEO Aravind Srinivas 在接受 Fast Company 采访时辩称,他们「并非故意忽视 Robot Exclusions Protocol」。

他解释,他们除了自家抓取工具外还使用第三方网络抓取服务,而发现的抓取工具就是其中之一。他认为情况很复杂,而且 robots.txt 协议并非法律框架,出版商应该与 AI 开发公司建立新的关系。

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论