报告:过去十年中,有四分之一的网页已经消失

2024年 5月 22日 25.7k 0

皮尤研究中心(Pew Research Center)最新发布的一份报告指出,截至 2023 年 10 月,2013 年至 2023 年期间存在的所有网页中已有 25% 不再运行。

其中 16% 的页面单独无法访问,但其根域仍可正常使用;另外 9% 的页面则因为其整个根域已无法正常使用,导致无法访问。

至于 2013 年之前存在的旧网页,相关趋势则更加明显,有 38% 无法再访问。2021 年期间的页面,在仅仅两年后就已有约五分之一无法再访问。相比之下,2023 年期间的网页约有 8% 已经消失。

报告:过去十年中,有四分之一的网页已经消失-1

报告指出,这种“数字化衰退”发生在许多不同的在线空间中。研究人员检查了截至 2023 年春季出现在政府网站、新闻网站以及维基百科页面“参考文献”部分的链接。分析发现:

  • 23% 的新闻网页至少包含一个损坏的链接,21% 的政府网站网页也是如此。网站流量较高的新闻网站和流量较低的新闻网站包含损坏链接的可能性大致相同。地方政府网页(属于市政府的网页)尤其可能存在损坏的链接。

报告:过去十年中,有四分之一的网页已经消失-2报告:过去十年中,有四分之一的网页已经消失-3

  • 维基百科上链接的所有参考资料中有 11% 不再可访问。在大约 2% 包含参考链接的源页面中,页面上的每个链接都已损坏或无法访问。54% 的维基百科页面在其“参考文献”部分中至少包含一个指向不再存在的页面的链接。

报告:过去十年中,有四分之一的网页已经消失-4

为了了解数字化衰退在社交媒体上的表现,研究人员还收集了 2023 年春季 Twitter/X 上的实时推文样本,并对其进行了三个月的跟踪。发现:

  • 近五分之一的推文在发布几个月后就不再在网站上公开可见。在其中 60% 的情况下,最初发布推文的帐户被设为私有、暂停或完全删除。在另外 40% 中,账户持有人删除了个人推文,但账户本身仍然存在。
  • 某些特定类型的推文往往比其他类型的推文更容易消失。超过 40% 的土耳其语或阿拉伯语推文在发布后三个月内就不再在网站上可见。来自具有默认配置文件设置的帐户的推文特别有可能从公众视野中消失。

报告:过去十年中,有四分之一的网页已经消失-5

这项研究基于对 Common Crawl 中随机收集的近 100 万个网页样本、约 5 万篇维基百科文章以及 2023 年 3 月 8 日至 4 月 27 日在 Twitter/X 上发布的近 500 万条推文的分析。

详情可查看完整报告。

相关文章

Java 之父 James Gosling 宣布退休
快手文生图大模型可图宣布开源
李彦宏:开源模型是智商税
VLMs多模态大模型当下进展与思考
开源日报 | 李彦宏称开源模型是智商税;Windows下的GUI开发;有趣的人形机器人;边学AI边赚钱
Meta 开源新的“多标记预测”语言模型

发布评论