GPT4 训练数据偏科幻可能影响表现并有版权纠纷

运维资讯 2023-07-21 三掌柜手机阅读

大型语言模型训练用的数据来源繁多，OpenAI 未公开过来源，但有学者分析，发现含不少知名小说内容，多是科幻和奇幻小说。

加州大学柏克莱分校学者发表论文，研究 ChatGPT / GPT-4 有多少本小说内容。OpenAI 模型训练过程含大量版权物，收录标准视网路出现频率高低。

最有名的小说有《哈利波特》、《魔戒》、《饥饿游戏》、《银河便车指南》、《一九八四》和《冰与火之歌》等。

学者强调并非尝试完全解开 GPT-4 训练数据库的谜团，这些小说也并非完整收录至模型，只研究小说内容与模型表现是否有关。

而他们发现，GPT-4 训练用小说多是科幻和奇幻，其他类作品相对少，国际英语文学作品和黑人作品就不多。

模型训练偏重科幻和奇幻小说，对叙事和表现的影响值得思考，确保训练模型时用什么数据透明公开很重要，因此开源模型会是更好方式，希望此研究协助提升收集数据训练时的负责任标准。

另一问题是，当更多版权物内容进入大型语言模型，开发科技企业将会遇到更多版权法律纠纷，使用这些数据训练的模型能否公平使用，只能留待法院判定。

德国法院裁定 AI 发明可申请专利

运维资讯 2024-07-15 三掌柜

运维资讯 2024-03-14 三掌柜

流行!_OS升级到Linux 6.8内核

运维资讯 2024-03-28 三掌柜

OpenSSH 9.6到来：修补和启动

运维资讯 2023-12-24 三掌柜

运维资讯 2023-09-15 三掌柜