中文互联网在变得越来越差吗？

刘海明 · 发表于 2024-6-11 23:32:47

中文互联网在变得越来越差吗？

文 | 李厚辰
现在的互联网环境，基本没有人会满意，李想主义专栏也多次撰文讨论。最近有一个话题在网上引发关注，就是简体中文网络的内容缩减。这个话题的讨论热度是对当下舆论环境悲观的呼应。但更关键的问题依然是这对我们每个人有什么影响，以及一个如此宏观的问题，是否存在微观领域的解决方法。

01.互联网信息的缩减 最源初的那篇文章，提供的简中互联网缩减证据是搜索马云过去的新闻，会发现信息很少，但这点被人质疑搜索的时间相对较早，马云本来尚未有很大的影响力。但之后，知名互联网博主“月光博客”找到了其他数据支撑这个视角。他在文章《中文互联网内容正在逐步消失》提到“Web Technology Surveys”网站对全球网站使用的语言的排序。在2024年，全球网页使用语言数量排序依次是英语、西班牙语、德语、日语、法语、俄语、葡萄牙语、意大利语、荷兰语、土耳其语、波兰语、波斯语，然后才是中文，排名第十三。而在2013年，中文可以排到第七名。在这十年间，中文网页的数量从2013年的4.3%降低到2024年的1.3%，比例下降了70%，目前数量仅略高于印尼语和越南语。同一篇文章内亦引用了CNNIC发布的《中国互联网络发展状况统计报告》的数据。数据显示从2018年12月到2023年12月，中国的网站数量从544万个下降到388万个，五年时间内下降近30%。

相反，从2018年到2023年，中国网民人数却从8.3亿上涨到10.92亿。这代表两方面的趋势。一方面，网站数量大幅度下降。持续的审核与删除，让早期论坛和网站的内容大幅下降，这可以被上述统计报告佐证。另一方面，近几年新的互联网内容，很多是不可检索的封闭信息，例如短视频、公众号文章、小红书笔记等。连知乎也改变了搜索策略，和最近的强制登录策略同时推出的，就是禁止Google和Bing爬取和检索其内容，目前仅有百度和搜狗可以抓取知乎的信息。实际上，内容缩减这个现象不仅仅最近被探讨，在2023年8月就有统计数据发布过。根据“Common Crawl”（一个专门复制全网数据供研究者使用的组织）的历年数据，简体中文压缩数据仅有6TB，解压后也仅有30TB，中文互联网数据量到2023年到达最大值，随后快速回落，呈现出锐减的态势。因此，准确地说，不是互联网的信息内容减少了，现在各种介质的信息呈现着爆炸的状态，而是过去的可检索信息在大幅减少。

02.可检索内容为何重要？ 对一般网民而言，这不构成直观的影响。毕竟新闻热点事件一天就有三四个，在此基础上生产的公众号文章、微博、小红书、播客、短视频，可以说是无穷无尽。其实四五年之前，搜索能力的下降，搜索引擎使用的减少就已经成为趋势。公众不是不会搜索，而是没什么搜索的必要了，各个社交媒体平台上的热榜和推荐算法已经提供了大多数的信息需要。只有少数需要生成理性内容的人，才需要密集的搜索。而这部分的需要，随着LLM模型（大语言模型）的生成变淡，很多人逐渐依赖它们提供的答案，而不再进行搜索和浏览。这么看来，这些“长尾”内容不过是互联网时代的遗迹和荒原，对大多数人并不重要，好像失去了也不可惜。但反过来想，互联网上的内容在变得越来越糟糕吗？这个问题涉及价值判断，恐怕很难有数量上的定论。较悲观地说，一切都在变糟恐怕更容易取得共识。不过这个问题有另一个微观视角：浏览内容的人无所谓搜索，但生产内容的人却依赖大量信息。假设你是一位做经济分析的内容创作者，那么不管是历史数据，还是当下的数据，都会影响你分析的质量。同理，判决文书数据的收紧，也会让法律研究受挫。从微观角度来讲，对于一篇文章或内容，可检索数据的收缩甚至难度的加大，都会导致内容生产的困境。

03.信息压缩到物种进化 我们可以把问题往前推一步，还是从生产内容开始。进行经济分析、社会分析，也不总是都从一手数据开始，很多时候也会参考二手分析找视角。这对于研究或内容创作非常重要，有越多优秀的二手分析，我们就更可能不断推进边界。因此，一手数据和内容的缩减会进一步导致二手分析内容的数量、质量双重降低，减缓新内容的生产。然后内容生态链的下游也会逐步受影响，整个内容生态会被拖垮。这与AI的演化类似，在ChatGPT刚推出时，人们对这种算法有个精妙的比喻——压缩。 AI的内容生成就像是对互联网所有既有内容的无损或低损压缩，原始的内容库质量有多好，产出的内容就有对应的质量。所以最初讨论到AI，大家才会格外关注数据质量的高低，担心国内的互联网并没有足够的优质语料，并最终影响大模型的质量。

同样的“压缩”逻辑与每个网民接受的内容类似。非常宏观地看，我们每日浏览的公众号文章、短视频、长视频，也可以用这种“压缩”逻辑进行思考。例如，有人写一篇分析特朗普刑事案件的文章，最有可能的写作过程是根据他对美国的印象，看数篇类似立场的文章后，“压缩”出一篇他自己的。那么，这些文章的平均水准就变得很重要了。如果整个信息环境中的平均内容水平高，那么互相压缩，可能让内容不断升级。反之，则大家都囿于一种低水平状态。 “压缩”的隐喻只要往前一步，就可以更好地概括我们面临的处境。人的创作过程毕竟不像AI，现在的AI大概不会创造新的内容，而是根据既有内容的压缩和复述，但人作为创作者，总是可以加入自己新的理解。这个过程有点像生物演化。我们的新内容，很大部分来自“遗传”，每次创作的火花，就像是“突变”。而遗传就像是物种“杂交”，近亲繁殖只会让遗传病越来越显著，基于信息茧房内的内容，会使偏见不断累积，带有偏见的观点和逻辑越来越极端，也就导向了我们目前经历的互联网体验。从这个角度上看，内容生态与生物生态很相似，多样化、充分竞争是维持良性循环的关键。信息的丰沛与多样，让各个生物不断提高自己的适存性，也让整个环境更稳健。而信息、可检索内容的缩减，则会导致多样性的式微，种群则可能陷入简化和平庸。

04.最小单位的保育 从上述生态的比喻，我们可以延伸到个体摄取信息的策略，这里的问题和解决呼之欲出。既然面临的媒介环境如此，对于个体而言，可以做的事情就像物种保育一样，你需要一个保护区，就以你为圆心展开。既然整体环境已经失去可持续的空间，我们就需要建立一个属于自己的封闭式环境。这里探讨一下每个人能执行的方案。 a）多样与质量 如果我们相信一个简单的视野：“you are what you read/watch”（你由你所阅读和观看的东西塑造），那么仔细思考信息摄入问题，无论如何都不过分。既然现在的问题是多样性与质量的双重问题，那么解决方案也从这两部分开始。多样性是一件知易行难的事，这需要整体改变你已习惯和舒适的媒体摄入习惯。大多数读者以简中媒体圈为核心信息源，包括但不限于公众号、微博、B站、小红书、中文播客。最简单地说，我们可能认为上述平台已经包罗万象，只需要找到这些平台里优秀的内容即可。但这里需要考虑几个方面：1）在这些平台上，你能摆脱推荐算法的影响吗？（执行选优内容的可能性）2）在这些平台上，内容的多元化程度高吗？（不要高估简中内容的丰富程度）3）在这些平台上，优质内容与非优质内容的比例如何？（执行选优内容的成本）。甚至，我们还需要深思那些我们已经认为是优质的内容，是真的优质还是源于我们对它的熟悉。因此，从多样性的角度来看，最容易的方式反而是“引入外来物种”。去不熟悉的网站、平台看看，多使用搜索、使用外语。为这件事找到必要性是困难的，如果没有十足的理由，谁会走出自己的舒适圈去不熟悉的地方呢？这里可能的实现路径是对于新话题的关心。通过关注新话题，从而对这些话题的来源产生兴趣，并拓展自己的摄取范围。比如，如果你对特朗普的审判感兴趣，这就是关注一批英语播客的好时机。现在的简中舆论环境提供了一个难得的机会，书籍阅读变得前所未有地紧要起来。这里说的“书籍阅读”，未必要以逐字逐句的方式完成。对于一些非理论书籍，听书也是好办法。将你的媒介摄入通过听、读的方式转向更多书籍，将漫不经心的滑动屏幕变为投入在一本书籍上集中摄取，长期下来一定会提高对信息的检索能力和吸收能力。

不过这仍然是不足够的。或许很多人都有这样的体验：你看了一篇很好的文章，或者听了一期不错的播客，期间颇有收获，但过了一两天就把那些内容忘得七七八八。如果我们可以用欣赏音乐会一样的要求来应对知识和信息，这倒也无妨，只要在阅读和收听的当下给予我们愉悦的体验，之后的部分就全不在乎。但网络内容能传达的视角通常都很简单，是一个概念或一个简单的叙事。一篇飞速炮制的文章或播客本来就难以传达很深度的信息，其残留的内容则会更扁平。与其相反，我们在大学时期学到的内容，都是以更大的篇幅吸收的。当前面提及的可搜索性减少时，恐怕需要在我们自己的内容周围提供一种搜索的可能。很多人在阅读文章或吸收内容的时候制作“思维导图”，可能就会在未来提供搜索的可能。我有一个习惯，在遇到有价值的文章时，我都会转存到Evernote，并在之后利用Evernote内部的搜索功能来进行检索。或者在阅读器内直接检索一些电子书中的内容，这弥补了无法在网上进行搜索的问题。不过这也需要每个人去寻找适合自己的笔记app。完成以上两点，至少能在个人生活的周围，在贫瘠的信息环境下，进行一定的保育。互联网信息崩溃式的缩减在你的生活中会得到遏制，甚至会带来一些新的机会和转变。但我不认为这可以为整体环境带来大的改变，除非我们开始慢慢从信息的接受者转换为创造信息的人，这又是另一个难题了。

尾声.AI是最终的答案吗？

现在开始有一种新的可能性，即我们所有信息的需要，都可以通过AI完成。不需要搜索，不需要文章、书籍、社交媒体，所有问题都可以由AI给予答案。我想诸位应该都已经尝试过一二，有时候AI能带来惊喜，但大多数时候过于笼统，且信息的准确性都很难保证。当然，AI依然在一日千里地发展。经过不断迭代，上述问题是否都可以得到解决？我不敢断言这是不可能的。不过我的疑惑是，如果将来我们用这个方式替代了原始的搜索，并依赖AI给予我们对很多问题的直接答案，我们如何确保自己的独立性？

来源：看理想

链接：https://mp.weixin.qq.com/s/t2JBmlQC5oVe8EEtpM9yOw

编辑：程正元

帐号		自动登录	找回密码
密码			实名注册