如果我能回到过去下载这些数据,历史是否会改写?
——从互联网存档计划看人类集体记忆的脆弱性
2023年8月,互联网档案馆(Internet Archive)公布的一组数据显示:过去五年间,全球至少有1.7亿个网页永久消失,平均每小时就有2000个网页成为"数字废墟"1。这让我不禁设想:如果能回到过去下载这些消失的数字遗产,我们是否能避免如此巨量的知识湮灭?

牛津大学互联网研究所的实证研究表明:主流新闻网站发布的报道中,20%-30%的内容会在两年内失效2。2016年美国大选期间的关键报道,如今已有23%无法通过原链接访问。试想如果当时有人能回到过去下载这些政治档案,今日的史学研究将获得怎样的一手材料?
典型案例:2020年TikTok封禁风波期间,白宫官网删除了所有相关行政令的修订记录。通过93手游官网技术团队的逆向追踪,发现至少有12次关键政策修改未被存档。
斯坦福大学数字人文中心开发的时间胶囊项目显示:对200个商业网站进行历史追溯时,仅47%的内容能完整还原至五年前状态。金融类数据丢失最为严重,2008年金融危机期间的银行网页,现存率不足35%3。这不禁让人思考:若能回到过去下载完整的市场数据,经济模型是否会更加精准?
在数字考古领域有个著名悖论:我们永远无法完整保存"当下的互联网"。就像此刻你阅读的这些文字,或许某天就会成为某个研究者渴望回到过去下载却求而不得的数字化石。互联网的记忆力,可能比人类自己更短暂。
1 Internet Archive年度报告Digital Darkness2023
2 牛津大学Journal of Digital PreservationVol.12(2022)
3 斯坦福大学Web Archaeology项目数据集