开源 AI 解决主义
LAION-5B 图像数据集的建构与意识形态
随着图像生成模型在全球范围内的广泛应用,既有研究多集中于其社会影响,而较少关注模型本身如何被社会形塑。作为模型训练的核心,数据集的重要性日益凸显。本文以 LAION-5B 数据集为研究对象,采用数据集系谱学和批判性话语分析方法,系统探讨该数据集的创建背景、数据来源、清洗过程及其背后的意识形态驱动。研究发现,LAION-5B 的诞生源于对 AI 多模态需求的回应、对传统数据集局限性的挑战以及对 AI 民主化的追求。其数据主要来源于 Common Crawl,这一开源互联网档案项目为数据集提供了丰富素材,但受限于抓取算法和毒性内容等问题,数据质量和代表性面临挑战。在数据清洗中,CLIP 模型的语义过滤虽提升了内容质量,却因模型缺陷而可能加剧数据集的偏差。此外,本文提出并且深入剖析了驱动 LAION 开发者团队的意识形态——开源 AI 解决主义,并对其在透明度、安全性及行业集中度方面的观点进行了批判。本研究不仅填补了以 LAION-5B 为代表的大规模图像数据集批判研究的空白,还阐明了数据集创建背后的动机与意识形态,为未来数据集构建及 AI 技术的民主化发展提供了理论参考与实践启示。
1 绪论
从 1826 年首张照片诞生至今,人类历经一个半世纪,累积拍摄了约 150 亿张图像。然而,文本生成图像模型(text-to-image model)仅用了短短一年半的时间,便生产出了同样数量的图像[1]。当图像的「创作者」变成 DALL-E、Midjourney 或者是 Stable Diffusion 这样的图像生成模型,我们再重新发问:艺术创作是人工智能无法企及的领域吗?回答恐怕就无法那么斩钉截铁了,毕竟当下我们已经几乎无法区分人类创作和人工智能生成的内容[2,3]。
图像生成模型的兴起,源于深度学习与生成式人工智能(Generative AI)的突破[4,5]。从生成对抗网络(GANs)到扩散模型(Diffusion Models),这些技术的进步,使得生成图像的质量和多样性大幅提升。如今,我们只需要输入一段文字描述,就可以生成一幅高质量的图像,还可以实现对图像纹理进行细微修改,转换图像风格和设计全新构图等等,基本上实现了从自然语言到视觉输出的顺滑转换。
对于艺术创作而言,这些模型不仅是技术奇观,更是对艺术本质的深刻诘问[6–8]。它们正在重塑艺术创作的过程:艺术家可以借助模型激发灵感,探索前所未有的艺术形式;但与此同时,模型也引发了关于版权归属、审美标准和身份认知的激烈争论。基于当前困境,不少研究者忧心忡忡地考量图像生成模型对艺术与文化的影响,并希冀能够探索出应对这些变化的适当策略。
尽管这些研究具有重要的学术价值和现实紧迫性,但当前学术界较少聚焦于一个更为根本的问题:这些影响究竟是如何产生的?换言之,图像生成模型为何呈现出当前的特定形态?其潜在的负面效应植根于何处?是哪些因素塑造了其发展轨迹与社会后果?要解答这些疑问,我们必须将研究视线投向图像数据集——这一训练和塑造图像生成模型的核心要素。例如,Stable Diffusion 模型的卓越性能,在很大程度上便得益于其所依赖的超大规模 LAION-5B 数据集。
为了深入探讨数据集的关键作用,我们首先需要理解它在技术层面上是如何支撑模型运作的。在图像生成模型的训练流程中,数据集为模型提供了原始的学习素材。通过分析海量的图像样本,模型得以逐步学习,并捕捉图像数据底层的统计规律与复杂的视觉特征,进而获得生成全新图像的能力。因此,数据集的质量、规模及其内容的多样性,直接决定了模型能够学习到的特征广度,以及生成结果的品质。
更进一步审视,图像数据集并非仅仅是训练模型的原料,它同时也扮演着社会技术基础设施(socio-technical infrastructure)的角色。这意味着它并非中立的技术工具,而是嵌于复杂的社会、文化和制度网络之中,受到权力动态、价值观念和历史偶然因素的深刻影响。这些维度在无形中塑造了模型的行为模式和输出倾向,例如,数据集的样本选择可能内隐地反映了某种文化偏见,而数据标注过程则可能固化了标注者的特定意识形态。因此,唯有深入剖析和理解数据集的建构过程,我们才能更透彻地洞察图像生成模型的本质及其引发的种种现象。这正是本研究的核心关切所在。
1.1 研究缘起
1.1.1 为什么研究图像生成模型的社会形塑
与其说我关心每一次重大数字技术转变对社会的冲击和影响,不如说我关心的是,是哪些因素导致了具体技术本身的产生和发展?又是什么样的意识形态在驱动着技术的开发?我相信只有厘清上述这些问题之后,才有可能突破技术决定论对我们想象力的限制。技术决定论者认为,科技按照其自主逻辑产生、进步和发展,社会变革是新技术发明的结果,换句话说,技术发展是社会变化的驱动力。在这样的阴影之下,人们和技术的关系,最终就只剩下几个被窄化的选项:不假思索地全盘拥抱技术、被迫无奈适应、顽固抗拒或者被残酷地排斥在外。
技术决定论的最佳拍档常常是技术乐观主义。2023 年 10 月,硅谷风投巨鳄 a16z 的创始人马克·安德森(Marc Andreessen)[9] 发表了一篇名为《The Techno-optimist Manifesto》的宣言,畅谈了他的技术乐观主义愿景。这篇宣言,可以视作当下生成式人工智能产业背后的意识形态代表:「我们遇到了孤立的问题,所以我们发明了网络……给我们一个现实世界的问题,我们可以创造出能够解决它的技术……我们相信科技资本机器并不反人类,事实上,它可能是最支持人类的存在。它为我们服务。科技资本机器为我们工作。所有的机器都为我们工作。」
当我读完全文,发现自己和宣言中的第一句话强烈共鸣,那就是:「我们都被骗了」。安德森只考虑网络的连结作用,却忽略网络也带来了人们「在一起孤独」的现象[10];只考虑技术发展,而无视人工智能发展带来的各种社会威胁和排斥[11,12];只考虑社会财富的总体增长,而回避财富是如何生产和分配的,更对生产过程的隐形劳动剥削视而不见[13]。硅谷科技行业善于营造一尘不染的门面,那是因为数据密集型劳动都是在距离硅谷千里之外的东非、印度、菲律宾和肯尼亚的难民营里完成的。通过隐匿人类在数据工作中的辛劳,模型的「超能力」大放异彩,而实际上,人工智能神话背后都是那些不被看见的汗水与眼泪[14]。
我不想成为替新技术唱赞歌的狂热拥趸,但也不希望陷入另一个极端,即社会决定论,认为新科技仅仅是社会变迁的产物而已。用曼威·柯斯特(Manuel Castells)[15(页 5)] 在《网络社会的崛起》中的话来说:「技术并未决定社会,而是技术具体化了社会;社会也并未决定技术发明,而是社会利用技术」。这句开宗明义的提醒,告诉我们只有看到社会和技术之间的辩证互动,才可能摆脱粗糙的二元认识论,看到更复杂的情景,也只有把社会和技术之间的关系复杂化,才会有另类可能的出现。
1.1.2 为什么研究图像数据集
随着图像生成模型在全球范围内的广泛应用,既有研究虽已开始关注其社会影响,但揭示模型赖以构建的基础——数据集本身——则显得愈发紧迫。本文选择以 LAION-5B 数据集作为核心研究对象。在阐述具体研究问题之前,有必要先说明,在形塑和影响图像生成模型的诸多因素中,为何选择数据集作为研究的核心切入点?以及在众多图像数据集中,又为何特别关注 LAION-5B?
首先,训练数据集构成了生成式人工智能的核心基础设施。数据集不仅是算法得以学习和优化的基石,更是技术潜能发挥与伦理风险滋生的源头。作为一种信息基础设施,数据集既是技术实践得以展开的背景条件,又是特定历史情境下的社会文化产物。通过深入考察数据集的构建过程,我们能够揭示图像生成模型所引发社会影响的深层根源,超越仅仅停留在分析模型输出表象的局限。
其次,相较于对数据集的内容本身进行静态分析,研究其构建过程更能提供一种动态的视角,有助于揭示数据筛选、清洗、标注等环节背后隐藏的动机、遵循的规范以及所嵌入的价值观。这种过程导向的研究路径,能够更有效地回应生成式人工智能的社会形塑这一核心议题。
1.1.3 为什么研究 LAION-5B
而在众多图像数据集中,本研究选择聚焦 LAION-5B,主要基于以下几点关键考量。其一,LAION-5B 包含了高达 58.5 亿个图像 - 文本对,是目前已知规模最大的开源图像数据集,并被广泛应用于训练诸如 Stable Diffusion、Midjourney 等前沿图像生成模型。其庞大的规模和广泛的影响力,使其成为理解当前图像生成生态的关键样本,也是进行此类研究的理想对象。
其二,与许多处于保密状态的私有数据集不同,LAION-5B 的开源性质为研究者提供了探究其构建过程的可能性。更为重要的是,LAION 项目的运作在很大程度上依赖于一个公开的 Discord 社群平台。这个平台聚集了所有参与 LAION 各项计划的开发者和志愿者,大量关于数据抓取策略、数据集构建决策乃至伦理考量的讨论均在此发生,这极大地方便了本研究获取第一手资料以进行深入分析。
1.2 研究问题
基于上述背景,本研究旨在探究以下核心问题:(1)LAION-5B 数据集是如何以及为何被创建出来的?其数据来源为何?在形成过程中经历了怎样的筛选、整理或审查机制?(2)数据集的创建者群体由哪些人构成?受到何种意识形态或价值观念的驱动?我们又应如何分析和理解这些潜在的意识形态?
1.3 研究方法
为解答上述研究问题,本研究将采用数据集谱系学(genealogy of dataset)的研究方法。该方法由雷米·丹顿(Remi Denton)等人提出[16,17],其理论根基源于米歇尔·福柯(Michel Foucault)的谱系学思想,旨在对机器学习数据集的起源、构成要素与发展流变进行批判性审视与分析,从而揭示其背后潜藏的价值观、权力关系以及社会规范。为了实现这一目标,本研究还将辅助运用批判性话语分析(critical discourse analysis)的方法,通过细致解读相关的技术文档、公开声明以及社群内部讨论记录,深入理解 LAION 开发团队及其社群所秉持的意识形态。
| 资料类型 | 资料来源 |
|---|---|
| 官方博客 | A Call to Protect Open-Source AI in Europe[18] |
| 官方博客 | Laion-5B: A New Era of Open Large-Scale Multi-Modal Datasets[19] |
| 官方博客 | Safety Review for LAION 5B[20] |
| 官方博客 | Petition for keeping up the progress tempo on AI research while securing its transparency and safety[21] |
| 官方博客 | Releasing Re-LAION 5B: transparent iteration on LAION-5B with additional safety fixes[22] |
| 访谈 | Joscha Bach: Open Sourcing AI & it’s implications[23] |
| 访谈 | LAION-5B: 5 billion image-text-pairs dataset (with the authors)[24] |
| 访谈 | Joscha Bach: Open Sourcing AI & it’s implications[25] |
| 访谈 | Nina Schick: How could societies adapt to generative AI?[26] |
| 访谈 | Christoph Schuhmann on Open Source AI[27] |
| 访谈 | AI as a Superpower: LAION and the Role of Open Source in Artificial Intelligence[28] |
| 技术文档 | LAION-5B: An open large-scale dataset for training next generation image-text models[29] |
| 新闻报道 | The Future of AI Relies on a High School Teacher’s Free Database[30] |
本研究分析所运用的资料来源广泛多样,详细列表请参见 表 1.1 处。第一类是 LAION 官方网站发布的博客文章,我抓取了所有文章并筛选出数篇与本研究问题密切相关的篇目,这些材料直接反映了 LAION 团队面向公众的立场陈述与价值宣示。
第二类是访谈资料,涵盖了网络上能搜集到的所有对 LAION 核心团队成员进行的公开访谈记录,这些访谈为了解 LAION 项目及其背后的理念提供了宝贵的深度见解,是分析团队意识形态和价值观的重要素材。此外,也包括 LAION 创始人克里斯托夫·舒曼(Christoph Schuhmann)在其个人 YouTube 频道所开设的 Democratizing AI 访谈系列节目内容。
第三类是技术文档,主要是指正式发表的学术论文或技术报告,例如关于 LAION-5B 数据集本身的技术报告,这些文档提供了数据集构建的技术细节与规范说明。
第四类是新闻报道,选取了主流媒体对 LAION 项目的相关报道,例如《连线》杂志关于 LAION 数据集重要性的报道[30],这些报道反映了外部社会对 LAION 项目的观察视角及其产生的社会影响。
第五类是从公开 Discord 平台抓取的 LAION 社群聊天记录。主要抓取了 LAION 官方 Discord 服务器中的 General 频道自 2021 年 3 月 23 日创建至 2025 年 2 月 18 日期间的所有公开讨论信息,共计 83483 条。这些交流记录为探究 LAION 组织的历史、决策过程和价值观念提供了丰富的第一手资料。
在数据分析层面,除 Discord 聊天记录外,其余各类文本资料均采用 Taguette 这一开源数据分析软件进行归纳式定性编码和主题分析,旨在系统性地识别和发现在不同数据源中反复出现、具有显著意义的话语模式、主题和论点。
1.4 章节概述
本论文主体部分共五章,循序渐进地展开论述。第一章首先分析 LAION-5B 数据集的创建背景与核心动机。随着人工智能领域对高质量多模态模型的需求日益迫切,大规模图像 - 文本数据集的价值愈发凸显。然而,传统的闭源数据集存在诸多局限,例如限制科研工作的可重复性、可能掩盖潜在的伦理风险,以及加剧技术资源的寡头垄断。正是这些局限性催生了对开源数据集的需求,并最终促成了 LAION-5B 的诞生。本章也将介绍 LAION 项目发起人克里斯托夫·舒曼所倡导的开源理念,并追溯该数据集的创建历程。
第二章聚焦于 LAION-5B 的主要数据来源——Common Crawl 网络爬虫数据集。本章旨在揭示 Common Crawl 抓取机制存在的固有局限,特别是其数据样本在地域和语言上过度偏向主流英文互联网,导致数据集的代表性严重不足,同时还不可避免地混入了大量低质量甚至有害内容。此外,本章还将探讨作为图像替代文本在数据集构建中所扮演的关键角色及其内在缺陷,并论证这些源头问题如何为 LAION-5B 数据集的先天性偏差埋下了伏笔。
第三章详细剖析 LAION-5B 所采用的数据清洗流程,该流程主要包括初步的自动化筛选和基于 CLIP 模型的语义过滤两个关键阶段。研究发现,尽管引入 CLIP 模型的初衷在于提升图像与文本描述的语义匹配度与整体数据质量,但 CLIP 模型自身存在的缺陷——例如其对文本信息的过度依赖以及潜在的文化偏见——使得这一过滤机制未能有效净化数据。相反,在某些情况下,这些缺陷甚至可能固化乃至放大了数据集中原有的偏差和有害内容。
第四章深入探讨驱动 LAION 团队的核心意识形态——开源 AI 解决主义。本章首先阐释该意识形态的基本概念、主要特征及其核心主张,随后对这些主张进行批判性分析,指出尽管开源 AI 解决主义带有理想主义色彩,但其在实践中面临显著的局限性。
在结论部分,本研究对前述章节的核心发现进行了总结,并着重强调了开源 AI 解决主义实践中存在的若干潜在风险,诸如可能加剧技术依赖、无意中巩固而非打破技术垄断,以及「透明度」本身并不能完全确保 AI 系统的安全性与公平性。基于上述分析,呼吁业界与学界重新审视大型科技公司应当承担的社会责任,并倡导超越单纯的技术开源路径,探索建立更为健全、开放和包容的监管框架,以此推动构建更负责任、更符合伦理规范的数据集创建与应用实践。