4 数据来源:畸形的 Common Crawl 样本
本章将从数据收集、数据筛选和数据过滤三个核心环节入手,对 LAION-5B 数据集的构建过程展开细致分析,以期能够解答以下问题:LAION-5B 数据集究竟是如何被创建的?其原始数据从何而来?在构建过程中又经历了怎样的信息塑造、内容整理与潜在审查?最终的数据集中具体包含或排除了哪些类型的内容?
4.1 数据集的先天基因
4.1.1 Common Crawl 是什么
构建 LAION-5B 这一大规模图像数据集,首要前提是获取海量的图像 - 文本对。为此,LAION 团队需要一个能够提供规模宏大且内容多样化数据的源头。经过细致评估,他们最终选定了 Common Crawl——一个由非营利组织负责维护的公共网页存档项目。
Common Crawl 以每月一次的频率对互联网进行快照式爬取,从而保存了极为丰富的图像和文本内容。这一独特的资源为 LAION-5B 的构建提供了理想的原始数据池,使其能够以相对高效且成本可控的方式,从中提取所需的目标数据。换言之,如果你立志要构建一个大规模的数据集,那么你首先必须找到一个规模更为庞大的现有数据集作为基础。
在详细分析 LAION 团队具体如何从 Common Crawl 中提取附带图像 - 文本配对的数据之前,我们有必要首先对 Common Crawl 本身进行一番深入的剖析。这不仅因为它是 LAION-5B 的数据源头,更因为对它的理解有助于我们厘清 LAION-5B 数据集本身所固有的可能性边界与潜在局限。
Common Crawl 作为一个在公众视野中相对低调,却对生成式人工智能发展起到了至关重要作用的组织,成立于 2007 年。它是一家小型的非营利机构,自创立伊始便由吉尔·埃尔巴兹(Gil Elbaz)持续提供资金支持并担任主席职务。在创立 Common Crawl 之前,埃尔巴兹曾于 1999 年联合创立了应用语义公司(Applied Semantics)。该公司凭借其 AdSense 技术,通过收集并分类网站信息以提供精准的上下文广告服务,并于 2003 年被谷歌成功收购。
在谷歌的工作经历使埃尔巴兹深刻认识到数据规模对于技术创新的决定性重要性,同时也促使他开始反思单一大型企业(例如谷歌)对创新资源形成垄断所可能带来的潜在风险。基于这些考量,他进而提出了创建一家「中立数据公司」的宏大愿景,旨在通过推动数据的开放访问来促进更多元化的创新活动。
4.1.2 Common Crawl 的原初使命
上述这一愿景成为了 Common Crawl 项目得以建立并持续发展的核心驱动力[1]。根据其官方网站的介绍,Common Crawl 的使命是:「向研究人员、开发人员和分析人员提供高质量的网络数据,以缩小(他们与大型科技公司之间的)资源差距,进而促进科技创新和进步。」同时,网站也强调「数据的民主化使得较小的企业也能够与大型组织展开有效竞争」。
Common Crawl 在设计之初便将自身清晰地定位为一个公共资源库,其目标是模仿谷歌等搜索引擎的网页抓取能力,为广大用户提供一份尽可能未经严格筛选的原始网络数据。Common Crawl 的工作人员认为,最大限度地减少对原始数据的筛选,能够为下游用户保留更为广阔的研究与创新空间。
例如,在数据集中保留诸如仇恨言论等负面内容,对于那些专门研究此类社会现象的学者而言,可能具有不可替代的研究价值。其执行主任曾进一步明确指出:「我们不希望通过移除某些特定页面来限制这些数据潜在的用途,具体如何使用,这应当由下游用户根据自身的需求自行决定」[1]。这种「最少干预」的指导原则,旨在支持更为开放式的应用场景,使数据能够适用于多样化的研究与开发需求,而非仅仅局限于某些特定目的,更非直接为了服务于人工智能模型的训练。
4.1.3 Common Crawl 在生成式人工智能产业中所扮演的角色
然而,在生成式人工智能迅猛崛起的时代背景下,Common Crawl 的原初使命正面临着全新的解读与严峻的挑战。尽管其创立初衷并非专门为 AI 训练而设计,但由于其所拥有的数据规模异常庞大、来源极为多样,并且涵盖了多种信息格式与不同类型的网站,Common Crawl 却在无意之间成为了众多 AI 公司(其中也包括 OpenAI 的 GPT-3 模型)进行大规模预训练时不可或缺的资源[2]。甚至可以说,如果没有 Common Crawl 所提供的海量数据,我们目前所见到的这种形式的生成式人工智能,其发展很可能无法达到今日的水平与规模[3]。为了更深入地理解 Common Crawl 在这一生态系统中的重要性,我们有必要首先简要概述生成式人工智能开发的两个核心阶段:预训练(pre-training)和微调(fine-tuning)。
预训练(pre-training)是训练深度学习模型过程中的一个基础性步骤。它指的是利用超大规模的数据集,通过无监督学习或自监督学习的方式,让模型自主从原始数据中提取潜在的模式、结构和特征。
简单来说,我们可以将其形象地理解为给模型「打下坚实基础」的过程。不妨假设你要教一个孩子学会准确地回答各种问题,但在最初阶段,他甚至连基本的语言规则和词汇都尚未掌握。此时,若直接让他回答复杂的问题,其难度可想而知。因此,你会首先让他大量地听故事、阅读各种句子,帮助他逐步学会词语的含义以及句子是如何组织和连接的。预训练就好比这个「听故事、学语言」的阶段:在模型真正面对并处理具体任务(例如撰写文章或进行语言翻译)之前,先利用海量的通用性数据来教它「认识」并理解这个世界运行的基本规律。通过这样的方式,模型便能在后续针对特定任务的训练中,更快、更高效地适应并满足具体的需求。
以大语言模型为例,假设我们向模型展示一句不完整的句子,比如「今天天气很」,然后引导它预测下一个最可能出现的词语是「好」。通过反复进行此类预测任务的练习,模型便能够逐渐学会语言的内在语法规则、词语之间的复杂关联,甚至掌握一些基础的常识性知识。这种学习过程通常不需要人工预先标注正确答案(这正是「无监督学习」的核心含义),它仅仅需要海量的文本数据作为输入,例如从 Common Crawl 中抓取获得的众多网页内容。因此,预训练阶段的核心目标,并非让模型立即就能解决某个特定的应用问题,而是要将它塑造成为一个初步懂得「语言基础规律」的通用型工具。
为何要采用这种预训练的策略呢?因为若试图直接从零开始训练一个模型去完成某项复杂的特定任务,就好比让一个从未学过基础数学的人去尝试解决微积分难题一样,不仅难度极大,而且效率也极为低下。预训练则像是先教会模型掌握基础的加减乘除运算法则,在打下坚实的数学基础之后,再进一步教它如何解决更复杂的方程式——这个「再教」的过程,在机器学习领域便被称为微调(fine-tuning)。
例如,GPT-3 模型在经过大规模预训练之后,已经能够生成颇为像样的连贯语句,但仍需要通过针对性的微调,才能使其准确地理解并回答用户的各类具体问题,而经过这一微调过程所形成的实际产品,便是我们如今所熟知的聊天机器人 ChatGPT。在生成式人工智能领域,这类经过大规模预训练的模型常被称为「基础模型」(foundation models),因为它们如同建筑物的地基一般,能够为后续多种不同类型的应用提供坚实的支撑[4]。
理解了预训练在模型开发中的核心作用之后,我们便可以更准确地定位 Common Crawl 在整个生成式人工智能产业链中所扮演的关键角色。AI 公司在训练其大型模型时,通常会竭尽所能地去提升训练数据的质量、扩大其规模并增强其多样性。而 Common Crawl 凭借其高达 9.5 PB 的总数据存储量,以及其中包含的数十亿个 URL 所对应的 HTML 代码和文本内容,几乎成为了这些 AI 公司在寻求大规模、多样化训练数据时一个近乎必然的选择。
4.2 Common Crawl 的暗面
4.2.1 Common Crawl 并非「互联网的副本」
尽管 Common Crawl 为 AI 领域的发展提供了显著的便利,但其数据内容在质量、潜在偏见以及固有局限性等方面的暗面,却很少为公众所充分了解。然而,这个数据黑盒的内在特性,却深远地影响着所有建立在 Common Crawl 基础之上的下游 AI 产品与应用。
首先,OpenAI 等众多 AI 公司以及硅谷科技界的公关宣传,往往热衷于强调其各自的大型模型是基于「整个互联网」的内容进行训练的;或者宣称为了使每一代大语言模型都比上一代更为强大,AI 公司几乎已经快要耗尽了所有可用的互联网数据。这类「搜刮整个互联网」的论述,一方面确实有助于提升公众对于 AI 公司大规模数据攫取行为的认知,这本身具有积极意义。
但另一方面,此类宣传却也在无意之中误导了大众,使其倾向于认为:这些训练数据集真实地囊括了网络空间中的所有内容,是极为全面且能够代表全体网民乃至全人类的。而作为此类训练数据集主要来源的 Common Crawl,也因此常常被错误地定性为整个互联网的完整副本。
种种类似的说法叠加发酵,便在不经意间逐渐掩盖了 Common Crawl 数据本身固有的局限性和潜在的系统性偏差。毕竟,当你先入为主地认为它已经是抓取自整个互联网的全部内容时,自然也就难以意识到其中可能存在的缺失与偏颇了。
但实际的真相是,Common Crawl 远非互联网的完整副本,它充其量只能算是主流英文互联网世界的一个大规模、但仍有偏向的样本。「整个互联网」作为训练数据来源的说法,是一个亟需被戳穿的神话。Common Crawl 并不能代表互联网上所有的声音,更不用说代表全人类的所有声音。为了清晰地证实这一点,最为直接有效的方式便是揭开 Common Crawl 在数据抓取算法和规则层面所隐藏的秘密。
4.2.2 Common Crawl 的抓取算法和规则
为了更形象地理解 Common Crawl 的抓取算法和规则,我们可以将其想象成一个规模庞大的数字图书馆,然而这个图书馆在甄选藏书时的标准,却并非完全基于公正与均衡的考量。它在决定是否将某个网页抓取入库时,主要依据的并非其内容的质量或多样性,而是该网页在网络中的受欢迎程度,或者更通俗地说,是其畅销程度。
也就是说,如果一个网页被其它众多网页频繁地引用或链接,那么它就更有可能被这个数字图书馆所收藏。这种选择机制源于 Common Crawl 所采用的一种名为「调和中心性」(harmonic centrality)的算法1。该算法通过精确分析一个网页被其它网页链接的频率以及它在整个网络拓扑结构中所处的相对「距离」,来综合评估其重要性程度[1]。因此,Common Crawl 所收集的数据,天然地更偏向于那些在网络中已经具有较高影响力和可见度的网页,而非网络中每一个相对边缘或孤立的角落。这种机制也就难免导致那些与数字化边缘社群相关的、或是相对小众的内容,几乎无法被有效纳入其数据采集范围。同时,由于 Common Crawl 的基础设施主要架设在美国境内,这也间接导致了其在内容抓取上对英语语种的显著偏爱。
其次,Common Crawl 的抓取过程是高度自动化的,类似于图书馆管理员定期按照既定程序外出批量收集新出版的书籍。在每次进行数据抓取时,其系统会从一个名为 CrawlDB 的内部数据库(可以将其理解为一份动态更新的「待抓取书目清单」)中,挑选出本次任务的目标 URL。由于其抓取活动通常按月进行,这就意味着在两次抓取任务之间的间隔期内,形成了一个固定的数据「盲区」。在此期间,互联网上新出现的大量网页,便无法被 Common Crawl 的爬虫实时发现和即时记录。
这份「待抓取书目清单」会根据各个网页的调和中心性得分进行持续的动态更新,系统会优先选择那些得分较高且符合其它预设条件的网页进行抓取。然而,受到技术和资源的限制,其抓取的总体规模是有限的,通常每次只能收集大约 30 至 50 亿个有效链接,这意味着仍有大量的网页内容因超出处理能力而无法被纳入。
值得注意的是,在每一次的抓取任务中,大约有 50% 的链接是针对之前已经收集过的网页进行的重复抓取或更新,这样做是为了确保像维基百科这样公认的重要信息源能够始终保持其在数据集中的可用性和时效性。相比之下,那些新近发布的网页,在发布初期往往因为缺乏足够的外部链接指向,导致其调和中心性得分相对较低,因此很难在短时间内迅速进入 Common Crawl 的优先抓取清单之中。
此外,Common Crawl 严格遵循国际通行的 robots. txt 协议。如果某个网站在其服务器上明确设置了 robots. txt 文件以禁止网络爬虫的访问,那么该网站的内容就不会被 Common Crawl 所抓取。近年来,随着诸如《纽约时报》等众多主流媒体机构纷纷加入到抵制 AI 公司无偿数据攫取的行列中[5,6],Common Crawl 所能合法抓取的「网络版图」正在日益缩小。这同时也意味着,从某种意识形态的视角来看,其最终能够触及并收录的网页内容,也可能越来越偏向于那些对 AI 技术持积极拥抱态度,或者至少不明确表示抗拒的来源。
4.2.3 Common Crawl 的毒性内容
经过上述一系列深入分析,我们可以确信,Common Crawl 所提供的数据,在内容的代表性和完整性方面均存在着不容忽视的缺陷,它所能反映的仅仅是互联网世界中极少数一部分群体的声音。然而,更为严峻的是,即便在这本已偏颇的样本之中,还混杂着数量众多毒性内容。曾有研究者[7] 从 2020 年 11 月/12 月期间的 Common Crawl 数据版本中,随机抽取了大约 1% 的文件作为研究样本。这个样本包含了约 115GB 的原始文本内容,对应着超过 583 万个独立的网页。研究团队随后运用了三种不同的先进技术方法,来检测该样本中所含的仇恨言论。
结果发现,即使在经过初步的常规过滤处理之后,Common Crawl 的语料库中仍然潜藏着大量的仇恨言论。具体而言,据统计,大约有 5.24% 到 6.38% 的网站样本中包含了明确的仇恨言论,其形式包括针对特定种族的歧视性语言、对特定社会群体的暴力威胁以及各种未经证实的阴谋论内容等。另外,研究还发现,大约有 2.36% 的网页样本涉及露骨的色情内容,这些色情内容则主要来源于各类成人网站,并且其中常常伴随着针对女性和少数族裔群体的性暴力描述。
该研究还进一步揭示,Common Crawl 数据集中包含了大量来源于可信度存疑的新闻网站以及已被封禁的 Reddit 论坛版块的文档资料。这些来源的内容也同样充斥着大量种族主义言论和煽动性仇恨言语,甚至可以说构成了一个「极端右翼文化的大酱缸」[8]。令人担忧的是,所有这些有害和偏颇的内容,都有可能在下游 AI 模型的训练过程中被无差别地吸收和学习,从而导致模型在生成输出时表现出类似的负面倾向,进而在实际应用场景中引发严重的伦理问题和社会危害。而 LAION-5B 数据集正是通过从 Common Crawl 中提取带有图像及其相关文本描述的配对数据来构建的,因此,它自然也难以完全幸免于这些源头性污染的影响。
总结来说,本小节首先清晰地界定了 Common Crawl 在当前生成式人工智能产业链中所扮演的核心基础角色;接着,通过深入分析其抓取机制与内容特性,有力地反驳了那种将 Common Crawl 简单等同于「整个互联网」副本的普遍误解,明确指出其实质上仅是互联网海量信息的一个大规模样本,并且这个样本还显著地过度代表了英语使用者以及来自发达国家的互联网用户群体。
而更为重要的是,研究揭示了在这个本就存在结构性不公的样本偏差之中,还潜藏着许多亟待处理的有害「毒性」内容。归根结底,之所以需要如此细致地剖析 Common Crawl 数据集的内在构成与潜在缺陷,是因为它能够帮助我们更为清晰地看清 LAION-5B 这个影响深远的数据集,其「先天基因」究竟是怎样的。接下来的小节,则将聚焦于 LAION-5B 在构建过程中的「后天训练」——即如何在这样一个充满挑战、甚至可以说是「畸形」的原始数据基础上,努力提炼出符合其建构目标所需要的有效图像 - 文本对。
4.3 替代文本:以搜索引擎的眼睛看世界
上文我们提到,Common Crawl 数据集中包含了数十亿计的原始网页代码。那么,LAION 团队究竟是如何从这些纷繁复杂的代码中,精准地获取到构建其大规模图像数据集所必需的核心内容呢?答案的关键,就在于从这些网页代码中有效地提取出图像本身,以及与这些图像紧密匹配的替代文本(ALT-text)。那么,替代文本是什么呢?
4.3.1 替代文本是什么
根据世界万维网联盟(W3C)制定的相关技术规范,替代文本(ALT-text)是 HTML(超文本标记语言)中图像标签(<img>)的一个重要属性——即 alt 属性。它存在的目的,是为网页上的图像提供一段简洁的文字性描述。这段描述通常以清晰、概括的文字形式呈现,例如,一个图片标签可能会包含这样的属性设置:「alt=这是一本关于学术写作的论文打印稿」。
其主要功能之一是,当图像由于网络连接问题、路径错误或其它原因而无法正常加载并显示在用户浏览器中时,这段替代文本便会在页面上原图像应处的位置替代性地出现,从而向用户传递该图像本应承载的核心信息。在互联网发展的早期阶段,由于网络带宽普遍较为有限,图像加载失败的情况相对更为常见,因此,替代文本作为一种重要的备用机制,有效地保障了在各种不利条件下信息的最低限度可传递性。
同时,替代文本也是现代无障碍网页设计的核心组成元素之一。它能够为屏幕阅读器等辅助技术提供关键支持,使得这些软件可以将图像所承载的信息内容,准确地转化为语音播报或盲文点显输出,从而极大地帮助视障用户理解和感知网页上的视觉内容。
W3C 发布的《网页内容无障碍指南》(WCAG)中明确指出,替代文本的内容应准确、忠实地反映图像本身的意义或其在当前上下文中的具体用途。例如,对于那些承载描述性信息的图像,替代文本需要提供对图像内容的具体描述;而对于那些纯粹起装饰作用、不传递实质性信息的图像,则可以将其替代文本标记为空值,以避免对屏幕阅读器用户造成不必要的冗余信息干扰。
由此可见,替代文本的设计初衷,在很大程度上是为了给视障用户群体提供必要的信息获取支持,从而确保他们在网络世界中的信息获取权利能够得到平等的保障。
4.3.2 迎合算法的替代文本
然而,不幸的是,尽管替代文本对于网页的可访问性和信息完整性至关重要,但实际网络环境中图片的替代文本覆盖率却长期处于极低的水平[9,10]。例如,一项针对超过一百万条推文的分析研究发现,在所有包含图片的推文中,仅有区区 0.1% 的图片帖子为其所含图片提供了替代文本。而在专门针对盲人用户群体的社交媒体时间线上进行观察,平均有 18.4% 的推文内容包含图片,但在这些包含图片的推文中,也仅有 4.6% 的图片附带有相应的文字描述。
更为令人担忧的是,即便在这些为数不多的描述中,其质量也往往不尽如人意。有研究者曾对 1000 条随机抽取的图片描述进行了细致的质量评估,结果发现,高达 62.6% 的描述被评定为「与图片内容不相关」或「仅略有相关」,而只有微不足道的 15.8% 的描述能够达到「优秀」的评级标准[11]。这一系列的研究结论有力地证实了一个观点:在许多实际应用场景中,替代文本的本质更多地是反映了文本生成者的主观意图、特定目的或认知局限,而非对图像内容的纯粹客观描述。
除了覆盖率低下和质量参差不齐的问题之外,替代文本在其发展过程中还遭遇了另一个不容忽视的困境。那就是,随着互联网商业化进程的不断加深以及相关技术生态的持续演变,替代文本原有的核心角色和功能逐渐发生了微妙而深刻的偏移。
最初,这种角色的转变与搜索引擎优化(SEO)技术的兴起与普及密切相关。众多网站的运营者和内容创建者很快发现,诸如 Google 这样的主流搜索引擎在对网页内容进行索引和排名时,会高度参考并利用替代文本中所包含的文本信息。因此,他们开始有意识地利用这一 HTML 属性来提升自己网页在搜索结果中的排名。例如,一张原本普通的风景照片,其替代文本可能会被精心编写为包含诸如「最佳旅游景点推荐」、「热门度假胜地排行」等热门搜索关键词。
这种以关键词堆砌为主要特征的做法,使得替代文本逐渐偏离了其最初准确描述图像内容的核心初衷,转而异化成为一种吸引网络流量、提升广告曝光率乃至实现商业变现的工具。在这样的趋势下,图像所承载的真实视觉含义已经彻底让位于 SEO 的营销策略需求。换言之,在很大程度上,替代文本的撰写已经越来越倾向于迎合复杂算法的「偏好」,而非满足真实人类用户的实际信息需求。
4.3.3 当替代文本遇上了 AI
而当替代文本与人工智能技术进一步交织之后,其所面临的挑战则变得更为复杂和棘手。近年来,各大科技公司纷纷开始尝试借助先进的计算机视觉技术,来实现替代文本内容的自动化、规模化生成。例如,在 2016 年,Facebook(现 Meta)率先推出了其自动替代文本(Automatic Alt Text, AAT)功能,该功能能够利用 AI 算法为社交平台上用户上传的每一张照片自动生成相应的文字描述。
紧随其后,谷歌和微软等科技巨头也相继在其产品和服务中采用了类似的人工智能驱动技术,其公开宣称的目标普遍是提升网络图片的替代文本覆盖率与整体描述质量,从而为包括视障群体在内的所有用户提供更为公平、便捷的信息获取途径。尽管自动化替代文本技术在提升信息无障碍水平方面展现出了显著的潜力,但如何准确、恰当且负责任地描述一张图像——尤其是当描述的对象涉及到人物时——不仅是一个极具挑战性的技术难题,更牵涉到一系列复杂而敏感的伦理考量。
在实践中,AI 自动生成的替代文本在涉及人物的种族、性别、年龄、情绪状态乃至身份归属等方面的描述时,其固有的分类本质化问题则表现得尤为突出,由此产生的错贴标签、刻板印象强化以及各种令人啼笑皆非的低级错误,也更是屡见不鲜,层出不穷[12–15]。
综上所述,替代文本中所蕴含的各类偏见,其根源往往在于文本生成目的(例如 SEO 优化、AI 自动生成等)与原始文化背景之间的偏差;其固有的局限性则主要体现在对复杂、微妙或主观视觉信息描述能力的不足;而其字里行间所隐含的潜在价值观,则常常不自觉地反映出商业利益的优先考量以及既有社会结构的深层影响。所有这些特性共同参与塑造了 LAION-5B 数据集中图像 - 文本对的内容分布特征与潜在的风险隐患,这使得 LAION-5B 数据集在本质上可能更接近于网络商业运作逻辑和搜索引擎算法偏好的一种镜像反映,而非对人类真实世界图景的忠实再现。
4.4 本章小结
在本章中,我深入探讨了 LAION-5B 数据集的主要数据来源——Common Crawl,并细致剖析了其在数据质量与内容代表性方面所存在的若干根本性缺陷。首先,通过分析 Common Crawl 的抓取机制可以发现,其所收集的内容显著偏向于主流的英文互联网世界,这使得来自边缘社群或非英语文化圈的声音在很大程度上被边缘化,从而限制了最终数据集在多样性和包容性方面的表现。
其次,研究表明 Common Crawl 数据集中不可避免地存在着大量潜在的毒性内容,例如仇恨言论、歧视性信息和不当的色情材料等,这些源头性的问题也极有可能延续并渗透到了基于其构建的 LAION-5B 数据集中。
此外,作为 LAION-5B 图像描述信息主要来源的替代文本,不仅在网络上的覆盖率本身就非常之低,而且其现存内容的质量也往往良莠不齐,这进一步加剧了最终数据集在图像 - 文本配对准确性方面的偏差与潜在的不确定性。
以上这些分析共同揭示了 LAION-5B 数据集在源头层面所面临的先天不足,同时也为后续基于该数据集进行的模型训练过程,引入了潜在伦理风险。在下一章中,我将聚焦于分析 LAION 团队是如何通过一系列数据清洗与筛选的技术手段——尤其是借助 CLIP 模型的语义过滤能力——来尝试提升其数据集的整体质量,并评估这一系列方法的实际成效及其局限性。
与此相对,谷歌著名的 PageRank 算法则是一种基于特征向量中心性(eigenvector centrality)的复杂算法,用于衡量特定网页在整个网络图谱中的相对权威性或重要性。若同样以图书馆为喻,谷歌搜索在选书时所遵循的规则,其核心思路则大相径庭。图书馆的管理员不仅会关注一本书被其它书籍提及的次数,更会关注是哪些书提及了它。假设一本书被图书馆中声誉卓著的典籍(例如某位文学巨匠的传世名作)所推荐或引用,那么这本书的权威分就会很高;反之,如果它仅仅被一些普通或不知名的书籍所提及,其分数则会相应较低。↩︎