5 数据清洗：让数据变得更脏的 CLIP 滤网

在成功获取图像链接、图像及其对应的文本描述之后，下一步的关键任务便是从海量的原始数据中，系统性地剔除那些不符合预设质量标准或明显存在各类问题的图像 - 文本对。LAION-5B 的内容过滤过程主要划分为两个核心阶段：初步清洗与语义过滤。本章将详细阐述这两个阶段的具体运作方式及其潜在影响。

5.1 初步清洗

内容过滤流程的第一步是初步清洗。在这一阶段，LAION 团队主要通过应用一系列相对简单的规则，来快速剔除那些明显不符合基本要求的图像 - 文本对。具体而言，在初步清洗过程中，研究人员会首先移除那些替代文本长度少于 5 个字符的图像 - 文本对。其主要理由在于，如果替代文本的长度过短，它往往无法为图像提供足够充分且有效的信息。例如，一个替代文本若仅为「图」或「照片」这样的简单词汇，显然无法准确传达该图像所承载的视觉内容与含义。

另一条重要的筛选规则是移除那些图像数据文件大小小于 5KB 的样本。通常情况下，图像文件过小往往意味着其分辨率较低，或者图像内容本身过于简单、缺乏细节。这样的图像样本，对于那些需要捕捉并学习精细视觉特征的 AI 模型而言，其训练价值相对有限，甚至可能引入干扰。

此外，初步清洗阶段还会致力于剔除那些明显涉及色情、暴力等不当内容的图像 - 文本对，以及那些图像文件过大或内容存在冗余的样本。有害内容因其不适宜公开传播和使用而必须被移除；过大的图像文件则可能不必要地占用大量存储空间并降低处理效率；而冗余的图像（例如完全重复或高度近似的内容）则会显著降低整个数据集的多样性，影响模型的泛化能力。通过实施上述这些基于明确规则的初步清洗措施，LAION 团队得以从海量的原始数据中快速去除一部分低质量或不合规的样本，从而为后续更为复杂的语义过滤环节奠定基础。

5.2 语义过滤

在初步清洗的基础之上，语义过滤是内容过滤流程的第二阶段，同时也是一个更为复杂且居于核心地位的关键环节。这一阶段的核心目标，是深入评估并量化每一对图像与其对应文本之间的语义关联性，以确保两者在意义层面能够匹配得当。也就是说，其目的是要准确判断一段给定的文本描述是否真实、有效地反映了其所对应图像的视觉内容，即考量图像与文本之间是否达到了理想的「对齐」状态。

为实现这一筛选目标，LAION 团队引入了当时备受瞩目的 CLIP（Contrastive Language-Image Pre-training，对比性语言 - 图像预训练）模型，来进行过滤与筛选操作。CLIP 模型通过计算图像和文本表征之间的相似度得分，来筛选出那些被认为是「高质量」的匹配数据，因此被广泛应用于创建各类大规模图文数据集中。然而，这种基于 CLIP 的过滤方法，其效果远非表面看上去那般高效与纯粹，甚至在某些情况下，可以说数据在经过 CLIP「过滤」之后，反而可能变得更「脏」。在深入探讨其影响之前，让我们首先来了解一下 CLIP 模型本身究竟是什么。

5.2.1 CLIP 模型是什么

在我们的日常生活中，大量的信息是通过视觉图像与相关文字描述相结合的方式进行传递和理解的。然而，对于计算机而言，准确理解这两种截然不同形式的信息，并将它们之间正确的内在关联建立起来，一直是一项极具挑战性的任务。CLIP 模型的出现，正是为了尝试解决这一核心问题：它旨在帮助计算机更好地理解图像与文本之间的深层联系，使得计算机能够依据图像内容来认知和理解相关的文字描述，或者反过来，通过输入的文字信息来准确识别和检索图像中的对应内容。

这个巧妙结合了先进视觉处理与强大语言理解能力的神经网络模型，是由 OpenAI 团队成功研发并公开发布的^[1]。其最为核心的创新之处在于，通过在超大规模的自然语言 - 图像配对数据上进行预训练，使得模型能够同时理解图像的视觉特征，以及与其紧密相关的文本描述的语义内涵。用更通俗易懂的话来说，CLIP 模型能够同时「看懂」一幅画作的内容和一段对该画作的文字描述，并准确判断这两者在意义上是否匹配。例如，如果将一幅《蒙娜丽莎》的画作与文本描述「蒙娜丽莎的微笑」配对输入，CLIP 模型会认为它们之间具有高度的匹配性；但如果将其与文本「梵高的星空」相配对，模型则会判断这两者之间缺乏相关性。

CLIP 模型的内部结构主要由两个关键部分组成：一个负责深度分析图像视觉特征的卷积神经网络（CNN），以及一个专门负责处理和理解文本语义信息的变换器（Transformer）模型。通过采用一种名为「对比学习」（Contrastive Learning）的创新训练方法¹，CLIP 在训练过程中逐渐学会了将语义上匹配的图像和文本在表征空间中拉近，例如，它会将各类书籍的图片与英文单词 Book 的文本表征进行有效配对。其设计的主要目标，是使计算机在图像理解方面不再仅仅局限于传统的、基于固定类别标签的单一图像识别任务，而是能够借助文本信息的引导和辅助，以一种更为灵活和泛化的方式来理解和分类各种纷繁复杂的事物。通过比较 CLIP 模型与传统图像识别模型的差异，我们可以更清晰地理解其独特之处。

传统的图像识别模型，例如那些主要基于 ImageNet 等大规模标注数据集训练而成的模型，在功能上更像一个只会按图索骥的机器人。它首先需要人类用户预先准备好数量庞大且带有明确类别标签（如猫、狗等）的训练图片集，在经过充分训练之后，它也仅仅能识别出那些在训练阶段已经学习过的、固定的物体类别。如果遇到模型在训练时从未见过的、或是更为复杂的概念组合（例如「一只戴着派对帽的哈巴狗」），这类传统模型往往就显得无能为力了。

而 CLIP 模型的运作方式则截然不同。用户可以直接输入如「一只戴着派对帽的哈巴狗」这样的自然语言文本作为提示词，CLIP 便能够依据这段文本描述去理解并检索相关的图像内容，从而高效完成传统图像识别模型难以处理的、更为开放和灵活的任务。此外，CLIP 模型的训练数据主要来源于互联网上自然存在的、海量的图像 - 文本配对，其数据规模和多样性远超传统的、依赖人工标注的图像数据集，这从而也显著增强了其对各种复杂多样视觉场景的理解与适应能力。

总之，CLIP 模型凭借其多模态设计，使其能够有效处理一系列复杂的视觉理解任务，例如准确理解抽象概念的视觉表达，或是识别传统图像模型难以有效应对的特定宗教符号、商业品牌标志等内容。它在一定程度上弥补了传统模型主要依赖图像底层视觉特征、而缺乏语义理解能力的不足，从而使其一度被誉为连接文本语义与图像视觉的一座重要「桥梁」。然而，正如后续分析将揭示的，我们也不得不指出，在许多关键方面，CLIP 这座「桥梁」或许也仅仅是一座由「碎瓦残垣」勉力搭建而成的「断桥」。

5.2.2 CLIP 模型的缺陷

尽管 CLIP 模型在技术层面无疑代表了一项显著的突破，但其自身存在的诸多不足之处同样不容忽视^[2]。在多种复杂的应用场景和严格的测试条件下，CLIP 都不同程度地展现出了其内在的不可靠特性。

首先，CLIP 模型在处理多模态输入信息时，表现出一种明显的「先读后看」或可称之为「文本主导」的倾向。也就是说，在进行分类决策的过程中，文本信息往往占据了绝对的主导地位，而图像信息则常常被置于次级处理的地位，甚至被部分忽略。例如，在一个实验场景中，当输入图像清晰地显示为一个苹果，但其配对的文本标签却是蜜蜂时，CLIP 模型竟以高达 98% 的置信度将该图像错误地分类为蜜蜂，从而完全忽略了图像本身明确无误的视觉内容。这一令人惊讶的结果清晰地表明，在该模型的内部机制中，负责处理语言的变换器模块对于文本输入的权重，显著高于其负责处理图像的卷积神经网络模块对于视觉信息的处理能力。

甚至即便是面对那些存在明显拼写错误的文本标签，例如，将 beetle（甲壳虫）错误地拼写或识别为发音相近的 bee（蜜蜂），只要该错误文本在某种程度上仍然接近于模型词汇表中所包含的某个已知词项，CLIP 模型依旧会优先依据这个（可能是错误的）文本信息来进行分类。这种独特的行为模式，其根源可能在于模型在预训练过程中，受到了对语言监督信号的过度强化，从而导致其在面对图文信息不一致或存在矛盾的输入时，更倾向于依赖抽象的文本表征进行判断，而非基于具体的、眼见为实的图像特征^[3]。

其次，研究发现，输入文本的排版特性（例如字体的大小、样式、颜色以及在图像中叠加的位置等）也会显著地改变 CLIP 模型的分类结果与判断逻辑^[2]。例如，在一张清晰的福特 Model-T 老爷车图像上，如果叠加一个尺寸较小的文本标签 bike（自行车），CLIP 模型通常仍能正确地将图像识别为汽车；然而，当这个文本标签被替换为一个尺寸更大、更醒目的 mountain bike（山地自行车）时，模型的分类结果便会完全被这个强干扰性的文本所「覆盖」，其判断完全偏向于文本标签所指示的内容，而非图像本身所呈现的真实物体。

最后，当输入的图像与文本之间存在更为复杂的概念层面或符号层面的矛盾与冲突时，CLIP 模型往往更容易产生各种荒谬甚至完全错误的分类结果。这类情况的典型例子包括利用概念上的双关语（例如，ear 一词在英语中既可以指代人或动物的耳朵，也可以指代玉米的穗轴）或是在图像上进行符号的误导性叠加（例如，在与贫困、求助等负面场景相关的图像上，刻意添加美元符号）。

在一项具体的实验中，研究者向模型展示了一张描绘无家可归者手持求助纸牌（牌上写有 hungry, needhelp 即「饥饿，需要帮助」）的图像，并在这张图像上叠加了一个显著的美元符号。结果，CLIP 模型竟将这张充满悲情色彩的图像错误地分类为 piggybank（储蓄罐），从而完全忽略了图像所传达的真实社会语境与人文关怀信息。这种严重的误分类现象，深刻地反映了该模型在处理复杂信息时，对某些强相关符号（如 $ 代表金融）可能存在的过度依赖，以及其对图像深层背景意义理解能力的显著欠缺。

此外，在针对品牌标志识别的进一步实验中，例如在测试夏威夷航空公司（Hawaiian Airlines）的独特图标时，研究者观察到，仅仅当文本提示或图像背景颜色发生一些细微的变化时，CLIP 模型的分类结果就能从原本正确的 plane（飞机），戏剧性地转变为毫不相关的 sea anemone（海葵）或是 web site（网站）。这些实验结果充分显示了 CLIP 模型在处理真实世界中复杂且充满噪声的多模态数据时，其表现所具有的内在不稳定性。

总结来说，CLIP 模型在运作时展现出若干关键缺陷：其一，它倾向于优先依赖并过分信任文本输入，而非充分考量图像信息；其二，文本的排版与视觉呈现特性（如字体大小、样式和位置等）能够显著影响并干扰模型的最终分类结果；其三，当图像与文本之间存在概念或符号层面的矛盾组合时，模型极易引发对概念或符号的误读与误分类。这些实验结果均清晰地暴露了 CLIP 模型的局限性。

5.2.3 CLIP 模型对 LAION-5B 数据集内容过滤的影响

CLIP 模型在尝试匹配文字与图像的复杂过程中，本身就会不可避免地出现各种类型的判断差错，这无疑会导致最终构建出的 LAION-5B 数据在内容层面的准确性受到损害。但更为致命的问题在于，CLIP 模型自身也内嵌并携带着多种形式的隐性偏见。当 LAION 团队选择使用这样一个「有偏」的模型作为其核心「滤网」时，这些偏见将直接且深刻地影响甚至决定 LAION-5B 数据集中各类有害「毒性」内容的最终比例与分布。

在 CLIP 模型的原始发布论文中，其开发团队便相对坦诚地公开了一部分令人不安的测试结果：例如，在针对不同族裔人脸图像的分类测试中，非裔人士的图像被模型错误地归类为诸如「动物」、「大猩猩」、「黑猩猩」、「猩猩」，乃至「小偷」、「罪犯」和「可疑人物」等侮辱性或负面标签的概率，竟然达到了约 14%^[1]。不幸的是，各种深深内嵌在 CLIP 模型内部的文化、社会或语言层面的偏见，在 LAION-5B 数据集的过滤过程中，不仅未能被有效剔除，反而得到了进一步的「发酵」与强化。这主要是因为 CLIP 模型在进行筛选时，天然地倾向于保留那些与其自身训练数据原始分布特征更为相似的样本，从而可能无意中巩固了原初数据中本就存在的偏见模式^[4,5]。

因此，当 LAION 团队决定采用 CLIP 模型作为其数据过滤的核心工具时，他们所面临和使用的，在某种程度上，可以说是一个带有显著「白人中心、异性恋本位」倾向的「滤网」。其深层原因在于，研究表明，CLIP 在进行数据过滤时，不仅会不成比例地、系统性地排除掉某些特定社会群体（尤其是边缘化群体）的相关数据，而且还会进一步放大原始数据中本已存在的代表性差异与不平衡现象^[6]。

那些在原始数据抓取阶段就已经代表性不足的群体，例如 LGBTQ+ 社群的个体、老年女性以及年轻男性等，其相关数据在经过 CLIP 的「筛选」之后，往往会被更快、更彻底地过滤掉。具体而言，与其它社会群体相比，那些涉及到 LGBTQ+ 身份认同的文本数据（例如包含「同性恋」、「跨性别」等关键词的描述），在经过 CLIP 过滤后的最终保留率显著偏低。这种系统性的差异清晰地表明，CLIP 过滤机制可能在无形之中大幅减少了某些边缘化群体在最终数据集中的表征比例。

而在进一步的性别与种族交叉维度分析中，研究还发现，在与女性身份相关的文本描述中，包含「拉丁裔」和「亚裔」等族裔关键词的数据保留率，相对高于包含这些族裔关键词的男性身份数据；而与「欧洲裔」（通常指代白人）相关的关键词，则在男性身份的数据中表现出更高的保留率^[7]。

其次，CLIP 的过滤机制还表现出一种非常明显的以西方文化为中心的偏见^[6,7]。研究人员通过对过滤前后数据集中文本语言种类、IP 地址的地理位置信息以及网站域名的来源地进行综合分析后发现，那些与西方发达国家（例如使用英语、法语等主流西方语言的地区，以及与这些地区紧密相关的网络域）相关联的数据，在经过 CLIP 过滤后的保留率，显著高于来自非西方国家和地区的数据。

这种偏见在以英语为主的数据子集中表现得尤为突出。例如，与西方主流新闻网站和常见国家顶级域名（如「. uk」代表英国，「. us」代表美国）相关联的内容，相较于来自印度、非洲国家等非西方地区的内容，其在过滤后的保留率要高出许多。这种可被称之为「排除性放大」（exclusion amplification）的现象明确地表明，CLIP 的过滤过程不仅未能有效缓解原始数据收集中本已存在的对非西方文化内容的表征不足问题，反而可能进一步加剧了这类内容的缺失，从而导致经过滤后的数据集，在地理分布和文化多样性层面进一步缩减和单一化。

此外，CLIP 的过滤机制在处理不当内容（例如色情、暴力信息）和受版权保护的材料方面，也暴露出其固有的局限性。即使在经过 CLIP 的多轮过滤之后，最终的数据集中仍然保留了部分包含明显性意味或露骨描述的样本，例如那些涉及到裸露、性行为暗示或直接描绘的文本与图像配对。这一现象清楚地表明，现有的基于 CLIP 的过滤机制，在识别和清除潜在有害内容方面，仍然存在着不容忽视的「漏检」问题。

与此同时，CLIP 过滤在处理受版权保护的图像材料方面也存在显著缺陷。许多来源于知名商业图片库网站、明显带有版权水印或标识的图像，在经过 CLIP 过滤后，其保留率反而相对较高。这背后的原因，可能更多地是由于这些商业图片通常具有非常清晰、准确且与图像内容高度对齐的文本描述（这恰恰是 CLIP 模型所「偏爱」的特性），而非模型对版权合规性进行了有效考量或识别。这些重要的发现共同凸显了一个核心问题：CLIP 过滤机制在致力于优化下游 AI 任务（如图像生成、视觉问答等）的性能表现时，可能在无形中忽视甚至牺牲了在伦理规范和法律合规层面本应坚守的诸多重要约束^[6]。

综上所述，当 LAION 团队采用 CLIP 模型作为其核心过滤方法，来决定哪些图像 - 文本对应该被保留或排除时，其筛选的判断标准并非完全基于数据客观的「内在质量」——例如图像的清晰度、文本描述的准确性、内容的完整性与信息量等通常意义上被广泛认可的质量衡量指标。

恰恰相反，其筛选结果在很大程度上依赖于 CLIP 模型在预训练阶段就已经学习并固化下来的、对特定模式和关联的「偏好」。然而，这些模型内部的「偏好」模式，又往往深刻地反映了其自身训练数据中所潜藏的各种社会刻板印象与系统性偏见。因此，CLIP 的过滤过程不仅未能有效消除、反而可能进一步放大了原始数据中本已存在的代表性不平衡问题；它还在无形中将西方中心主义的视角和某些固化的性别刻板印象嵌入到了筛选决策之中；同时，在有效去除不当内容和充分尊重版权方面，其表现也难尽如人意，存在明显不足。

5.3 本章小结

在本章中，我详细分析了 LAION-5B 数据集在构建过程中所经历的数据清洗环节，并将焦点集中于初步清洗与基于 CLIP 模型的语义过滤这两个核心阶段。通过细致的审视，我发现，尽管初步清洗阶段通过应用一系列相对简单的规则，确实剔除了一部分明显不符合要求的低质量样本，但真正对最终数据集内容构成起决定性影响的，无疑是后续的、基于 CLIP 模型的语义过滤过程。

然而，正如文中所深入剖析的那样，CLIP 模型本身所固有的诸多缺陷——例如其在图文信息处理中对文本输入的过度依赖、其内在所嵌入的西方文化中心主义偏见，以及其在检测和排除不当或有害内容方面存在的明显「漏检」问题——使得这一核心过滤环节，不仅未能如预期般有效地提升整体数据质量，反而可能在某些方面带来了更深层次的问题。

也就是说，当 LAION-5B 项目团队选择使用 CLIP 模型来作为衡量图像与文本之间匹配程度的关键标尺时，其所进行的数据「清洗」工作，事实上可能并未能使数据变得更「干净」；恰恰相反，由于 CLIP 模型本身的「偏见滤镜」效应，这一过程反而可能进一步筛选、浓缩并过度呈现了那些本就包含着有害刻板印象或潜在社会偏见的内容。

即便如 LAION 团队在其报告中所述，「在这一（CLIP 过滤）过程中，数据集的规模被大幅减少，从最初约 500 亿对原始数据，经过筛选后缩减到最终近 60 亿对的高质量数据，从而去除了大约 90% 的低质量样本」^[8]。然而问题是，倘若我们使用的是一个本身就已经被严重污染过的滤水器，那么即便经过层层过滤之后，流出的水量确实变少了，但最终留下来的那部分，恐怕也正是其中最为污浊的部分。

在对 LAION-5B 数据集的具体建构过程进行了阶段性的分析之后，新的、更深层次的问题也随之浮现：究竟是怎样的一种意识形态，在驱动着 LAION 团队投入巨大的精力与资源来开发并推广这样一个数据集呢？

因为，如果我们的讨论仅仅停留在数据集搭建的「行」（即具体的技术操作与实践层面），那肯定是远远不够的。只有当我们进一步深入到对其背后意识形态的判断、审视与分析，才能够尝试勾勒出 LAION 团队在整个项目中所秉持的「知」（即其核心的理念、价值观与目标驱动），进而将「知」与「行」相结合，实现以小见大，从而更为全面和深刻地诊断当前这个生成式人工智能时代所面临的种种复杂「病症」。因此，在下一章中，我将把研究的重心转向深入剖析驱动 LAION 团队及其所代表的更广泛开源 AI 运动的核心意识形态——我称之为「开源 AI 解决主义」。

1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning transferable visual models from natural language supervision (arXiv:2103.00020). arXiv. https://doi.org/10.48550/arXiv.2103.00020

2. Goh, G., Cammarata, N., Voss, C., Carter, S., Petrov, M., Schubert, L., Radford, A., & Olah, C. (2021). Multimodal Neurons in Artificial Neural Networks. Distill, 6(3), e30. https://doi.org/10.23915/distill.00030

3. Noever, D. A., & Noever, S. E. M. (2021). Reading Isn’t Believing: Adversarial Attacks On Multi-Modal Neurons (arXiv:2103.10480). arXiv. https://doi.org/10.48550/arXiv.2103.10480

4. Agarwal, S., Krueger, G., Clark, J., Radford, A., Kim, J. W., & Brundage, M. (2021). Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications (arXiv:2108.02818). arXiv. https://doi.org/10.48550/arXiv.2108.02818

5. Ali, J., Kleindessner, M., Wenzel, F., Budhathoki, K., Cevher, V., & Russell, C. (2023). Evaluating the Fairness of Discriminative Foundation Models in Computer Vision. Proceedings of the 2023 AAAI/ACM Conference on AI, Ethics, and Society, 809–833. https://doi.org/10.1145/3600211.3604720

6. Hong, R., Agnew, W., Kohno, T., & Morgenstern, J. (2024). Who’s in and who’s out? A case study of multimodal CLIP-filtering in DataComp. Proceedings of the 4th ACM Conference on Equity and Access in Algorithms, Mechanisms, and Optimization, 1–17. https://doi.org/10.1145/3689904.3694702

7. Wolfe, R., & Caliskan, A. (2022). American == White in Multimodal Language-and-Image AI. Proceedings of the 2022 AAAI/ACM Conference on AI, Ethics, and Society, 800–812. https://doi.org/10.1145/3514094.3534136

8. Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., Schramowski, P., Kundurthy, S., Crowson, K., Schmidt, L., Kaczmarczyk, R., & Jitsev, J. (2022). LAION-5B: An open large-scale dataset for training next generation image-text models (arXiv:2210.08402). arXiv. https://doi.org/10.48550/arXiv.2210.08402

这种训练方法，可以形象地比作我们儿时常玩的一种配对游戏：面前摆放着一堆图片和一堆与这些图片相关的文字描述，我们的任务是将正确的描述与对应的图片一一匹配起来。在训练计算机的过程中，研究人员会向 CLIP 模型展示海量的、已经正确配对好的图像 - 文本样本，以及大量故意错误配对或完全不相关的图像 - 文本样本。计算机的核心任务，便是通过学习来准确区分哪些配对是正确的（即语义匹配的），哪些则是不匹配的。通过持续不断地进行这种对比性练习，计算机便会逐渐变得越来越擅长理解和把握图像与文字之间的复杂内在联系。这整个过程，就好比你初到一个陌生的城市旅游：一开始，你可能完全不认识路，对周遭环境感到迷茫；但通过不断地将手中的地图与实际的街道景象进行对照和比较，你就能逐渐更好地理解这个城市的整体布局和各个地点之间的关系，最终甚至能够做到不依赖地图也能在城市中自由穿梭。CLIP 模型的训练也是一个与此高度类似的过程，它让计算机通过大量的对比学习和实践经验积累，最终能够更准确、更鲁棒地将图像内容与其对应的文字描述紧密地联系起来。↩︎