7  结论

回溯全文对 LAION-5B 的分析,我们看到的是一个充满善意和理想主义的开源项目,如何在现实的数据来源、技术工具的局限性以及潜在的意识形态盲区中,不自觉地复制甚至放大了现有的社会偏见和不平等。这并非苛责 LAION 的开发者,而是旨在揭示,即使是心怀开放共享理念的技术实践,也可能因其所依赖的基础设施、所采用的技术工具以及所处的社会文化语境而产生非预期的负面后果。开源本身不是万灵丹,它需要与更深层次的制度保障、伦理自觉和责任担当相结合。

7.1 LAION-5B 建构:开源理想下的多重困境

具体而言,本研究通过对 LAION-5B 图像数据集的系统性分析,深入探讨了其创建背景、数据来源、清洗流程及其背后所蕴含的意识形态倾向。研究表明,LAION-5B 的诞生并非偶然事件。它既是对人工智能技术多模态发展需求的直接回应,也是对传统数据集固有局限性的一种挑战,同时还折射出其创始人对闭源 AI 模式的不满与反思。这种不满与反思,驱动着一部分开发者和研究者投身于开源实践,期望以此打破技术壁垒,促进 AI 的民主化。然而,正如本研究后续的分析所揭示,单纯的开源路径,尤其是当其演化为一种无所不包的「解决主义」时,其自身亦会衍生出新的复杂问题。

研究发现,LAION-5B 的构建高度依赖于 Common Crawl 数据集。Common Crawl 作为一个庞大的网络存档,为 LAION-5B 提供了海量的原始图文素材。然而,这种依赖性也意味着 LAION-5B 从源头上便继承了 Common Crawl 的内在缺陷。Common Crawl 所采用的「调和中心性」(Harmonic Centrality)算法,在筛选和抓取网页内容时,实质上是一种优先采集那些被广泛链接、位于网络「中心」位置的主流网页内容的机制。其直接后果便是,数据集严重过度代表了以英文为主导的、主要源自西方发达国家的互联网信息,而全球范围内其它语言社群以及非西方文化背景下的多元声音则相应地被边缘化,成为了数据世界中的「沉默的大多数」。

与此同时,互联网空间中普遍存在的有害内容,例如煽动仇恨的言论、基于特定身份的歧视性信息以及不当的色情材料等,在 Common Crawl 的抓取过程中被一并纳入,而在 LAION-5B 后续的数据清洗流程中,这些污染物并未能被彻底清除。这无疑进一步损害了该数据集的伦理安全性,使其潜藏着传播偏见、复制伤害的风险。这些固有的局限性清晰地表明,LAION-5B 所宣称的多样性与代表性,从根本上便受到了其数据来源的严格制约,其声称的「开放」与「广纳」,在现实的数据构成面前,显得颇为无力。

在数据集构建的关键环节——图像与其对应描述文本的配对中,替代文本扮演了连接两者的核心纽带角色。替代文本的初衷是为视觉障碍用户提供图像内容的文字描述,或在图像无法加载时提供替代信息。因此,其质量优劣直接关系到图文数据对的准确性,进而影响到基于此训练的 AI 模型的性能和可靠性。然而,研究分析揭示,LAION-5B 所依赖的替代文本普遍存在覆盖率偏低、质量参差不齐等显著问题。这意味着,网络上大量的图像信息不仅缺乏有效的、能够准确概括其内容的替代文本描述,甚至在许多情况下,这些所谓的「描述」文本充斥着大量仅仅为了提升搜索引擎排名而刻意堆砌的、与图像本身并无直接关联的关键词。这种现象,远非对图像内容的真实、准确反映,反而更像是对搜索引擎算法的一种机会主义迎合。当这样的替代文本被用于训练 AI 模型时,模型学到的可能并非图像与真实语义之间的关联,而是图像与一堆优化标签之间的虚假对应。

更为关键的是,本研究发现,LAION-5B 在数据清洗阶段所采用的核心技术——由 OpenAI 开发的 CLIP 模型,非但未能有效提升数据集的整体质量,反而因其自身固有的缺陷与偏见,进一步加剧了数据集的偏差问题,甚至可以说是在一定程度上「污染」了数据集。研究发现,CLIP 模型表现出一种显著的「先读后看」或者说「重文轻图」的倾向。这意味着,在进行图文匹配判断时,模型会过度依赖文本信息所提供的线索,而相对忽视图像本身的实际视觉内容。这种机制导致在文本描述与图像内容不完全相符,甚至存在微妙出入的情况下,只要文本在某种程度上「听起来合理」,模型就容易给出「匹配」的判断,从而产生误分类。此外,当面对那些涉及复杂抽象概念、文化符号、或者文本与图像之间存在反讽、隐喻等非字面对应关系的图文对时,CLIP 模型所展现出的理解能力和判断准确性也显著下降,进一步削弱了其作为数据过滤工具的有效性。

然而,问题的症结远不止于此。由于 CLIP 模型的训练数据主要来源于互联网,其不可避免地学习并内化了网络信息中普遍存在的社会偏见,特别是关于种族、性别和文化的刻板印象。最为严重的问题在于,当这样一个自身就携带着偏见烙印的 CLIP 模型被应用于 LAION-5B 的数据过滤过程时,这些内嵌的偏见非但没有得到修正或缓解,反而有被进一步放大和固化的趋势。具体表现为,那些来自社会边缘化群体或非西方文化背景的、可能不符合模型「主流认知」的图像和文本内容,更容易被模型错误地判断为「不匹配」或「低质量」而剔除;相反,那些与西方主流文化价值观和表达方式相契合的内容,则更容易被保留下来。这种近乎「越过滤越脏」的反常现象,使得经过 CLIP「清洗」的数据集,其在特定维度上的偏差不减反增。这不仅未能有效滤除原始数据中固有的不当内容和偏见信息,其整体质量反而可能因偏见的系统性累积与强化而进一步下降,距离一个真正「干净」、公正的数据集的目标渐行渐远。

7.2 开源 AI 解决主义的审思:停止技术迷信

与此同时,本研究将视野投向驱动 LAION-5B 开发者团队的核心理念倾向——在本研究中,我将其概括并批判性地审视一种可称之为开源 AI 解决主义的意识形态。这种意识形态往往将开源奉为圭臬,深信通过开放源代码、开放数据、开放模型等手段,便能自然而然地推动 AI 技术的民主化,解决现有 AI 发展中存在的技术壁垒、权力集中、伦理失范等诸多问题。尽管这种理念高举通过开源实现 AI 民主化、提升技术透明度、保障安全可靠性以及缓解行业集中趋势等关键目标的大旗,但在实践中,其所倡导的路径显现出明显的局限性,甚至可能在不经意间导向新的困境。

行文至此,我希望阐明,进行上述批判并非意在全盘否定开源运动的价值,更非拥护封闭保守的闭源模式。恰恰相反,之所以在本研究中将开源 AI 解决主义作为一种关键的意识形态进行分析和批判,正是因为我深切珍视开源运动最初所倡导的核心价值——开放与负责。

然而,令人遗憾的是,在观察当前人工智能领域的发展态势时,我们不难发现,这些宝贵的初始价值已在一定程度上被异化为科技巨头进行市场营销、品牌塑造和产业策略扩张的工具。开源 AI 作为一种技术实践的范式和一种倡导开放合作的态度本身是值得肯定的,但一旦其被拔高到无所不包、能够解决一切问题的开源 AI 解决主义的层面,便可能弊大于利。

首先,一个显著的问题在于,开源 AI 解决主义容易引向对技术的过度迷信与简单化依赖。这种意识形态倾向于将开源 AI 技术奉为解决各类复杂社会经济问题的万能灵药,似乎只要将一切开源,就能迎刃而解。这种思维模式,往往会忽视社会问题本身所具有的多维度、深层次的复杂特性,以及其背后盘根错节的权力关系、利益结构和文化因素。对技术方案的过度倚重与路径依赖,可能导致对其它同样重要甚至更为根本的非技术性解决途径的漠视。

这些非技术性途径,例如健全且与时俱进的法律法规体系的构建、适应技术发展特点的公共政策引导、促进社会包容与理解的文化调适过程,以及保障各方利益的广泛社会协商机制的确立等,对于应对 AI 带来的挑战而言,其重要性丝毫不亚于技术本身。这种对技术万能的单向度思维方式,不仅极大地限制了我们思考和选择问题解决策略的多样性,更可能因为技术本身的局限性而无法真正触及问题的核心症结,甚至可能催生新的、更隐蔽的问题。

一个值得关注的现实例证是:当前人工智能领域的话语权争夺,日益显现出一种简单化、标签化的趋势,即过度聚焦于开源与闭源的二元对立叙事。我们看到,诸如杨立昆(Yann LeCun)、埃隆·马斯克(Elon Musk)等在人工智能领域具有举足轻重影响力的业界领袖,多次在公开场合不遗余力地强调开源的至关重要性,甚至宣称「DeepSeek 的胜利是开源的胜利」,以此强化开源路线的天然正当性。作为 AI 领域的意见领袖(KOL),他们凭借自身的技术权威和媒体影响力,其言论自然能够赢得大量的追随者和认同者。在这样的舆论氛围下,许多人可能会未经审慎思考,便本能地倾向于支持开源阵营,毕竟能够在个人设备上自由部署一个功能强大的 AI 大模型,对许多开发者和技术爱好者而言无疑是极具吸引力的。

然而,倘若我们能够拨开这些极具煽动性的口号与标签,便不难发现,那些站在聚光灯下高声倡导开源 AI 的旗手们,往往也正是那些已经掌握着巨大技术权力和社会资本的精英群体。他们所构建的话语力量,持续不断地吸引着更多人加入并认同开源 AI 的立场。但这种热情,往往会巧妙地掩盖一个至关重要的事实:开源 AI 在致力于解决某些旧有问题的同时,也完全可能催生出更为复杂的新问题。例如,强大 AI 模型的无限制扩散可能带来的安全风险、被滥用于恶意目的的风险、开源社区治理的困境、以及开源项目背后实际控制权的归属等问题,都并未因开源这一标签而自动消解。

其次,开源 AI 解决主义在其发展过程中,存在着被大型科技公司进行战略性利用的显著风险,甚至可能在客观上沦为其巩固乃至加强自身市场垄断地位的工具。尽管开源运动的初衷在于促进技术的开放获取、知识的自由共享与社群的广泛协作,但在其与商业化浪潮和产业化进程深度融合的演进过程中,最初那种纯粹的、带有理想主义色彩的价值观,已逐渐受到强大商业利益逻辑的侵蚀。

我们观察到,许多大型科技公司通过发起、主导或深度参与重要的开源 AI 项目(如 TensorFlow, PyTorch 等),能够非常有效地吸引全球范围内庞大的开发者社区和用户群体。它们借此迅速扩大自身的市场份额和行业影响力,同时也在相当程度上引导甚至隐性操控着关键 AI 技术的发展方向和标准制定,最终目标往往是获取对底层技术基础设施(如深度学习框架、模型生态)的实际掌控权。

这种现象,与开源 AI 所宣称的旨在实现技术民主化、打破权力垄断的目标,形成了颇具讽刺意味的鲜明反差。它非但无助于从根本上瓦解既有的垄断格局,反而可能在新的技术层面进一步加剧技术领域的权力集中,使得少数已然占据优势地位的寡头企业得以巩固其市场主导地位,并构建起更为隐蔽的生态壁垒。

此外,开源 AI 解决主义所常常伴随的、对政府监管持怀疑甚至排斥态度的主张——认为监管会扼杀创新活力——恰好与某些科技巨头寻求更少外部约束、更大自主发展空间的利益诉求不谋而合。然而,互联网产业发展数十年的长期历史经验已经反复昭示我们,一个缺乏有效、独立且与时俱进的监管的数字空间,并不会自然而然地导向一个更加公平、民主、安全的未来;相反,它更容易滋生垄断、不公与风险。

最后,需要再次郑重强调的是,开源虽然在形式上提高了技术的可见性和可审查性,即我们通常所说的透明度,但透明度本身并不等同于安全性的可靠保障,更不意味着其在伦理层面具有天然的正义性。开源 AI 解决主义者常常抱持一种过于乐观,甚至可以说是天真的信念,认为只要技术是开源的,相关的风险、弊端和伦理争议便能够通过社群的集体智慧和自发行为自然得到控制、修正或解决。然而,人工智能这一复杂技术系统所涉及的诸多深层问题,例如潜在的、可能导致灾难性后果的安全隐患,对个人隐私的深度侵犯风险,算法模型中可能固化并放大的社会偏见,以及 AI 技术应用可能带来的大规模失业和社会结构调整等,并不会因为技术的源代码被公开而自动消解。

对开源这一标签的过度强调与近乎盲目的信赖,反而可能在一定程度上转移公众和政策制定者的注意力,使人们忽视那些潜藏在技术表层之下的、更为根本和棘手的风险,从而可能导致 AI 技术在实际应用中,因缺乏足够的审慎评估和有效规制而引发更广泛、更严重的社会危害。关于这一点,前文对 LAION-5B 数据集在构建、清洗过程中如何因工具的固有偏见而导致「越过滤越脏」的细致分析,相信已经提供了有力的例证。

因此,一个核心的结论浮出水面:如果我们期望构建一种更负责任、更具伦理自觉的数据集政治,乃至更宏观的 AI 治理范式,那么仅仅将希望寄托于开源这一单一维度,或许并非最优解,甚至在某些情境下可能是一个具有误导性的答案。相比之下,一种更为稳健和可靠的路径或许在于:一方面,要坚定不移地强调并要求掌握和开发 AI 技术的公司(无论是开源还是闭源的倡导者)切实承担起其应有的社会责任和伦理义务;另一方面,必须确保其运营过程和技术实践对有效的、独立的、具有专业能力的监管机制保持开放,并接受必要的审查与问责。这并非要扼杀创新,而是要确保创新始终在服务于人类福祉的轨道上运行。

7.3 Cosy AI 的平台合作社路径:探寻第三条道路

那么,在剖析了 LAION-5B 的局限以及开源 AI 解决主义的迷思之后,我们不禁要问:是否存在更具建设性的、能够超越当前开源与闭源二元对立的 AI 发展与治理模式?是否有可能构建一种既能充分利用 AI 的技术潜能,又能有效防范其风险,并确保其发展成果正义分配的「第三条道路」?正是在这样的追问之下,一些富有远见的探索性实践开始浮现,它们试图从根本上重构 AI 的生产关系、治理结构和价值分配逻辑。其中,Cosy AI 项目所倡导的合作社模式,或许能为本文提供了一个极具启发性的参照案例,以此作结也算是预留未来行动的伏笔。

Cosy AI 的核心理念,在于将合作社的组织框架与去中心化技术相结合,致力于实现人工智能的共同所有权。这些设想,深刻地植根于平台合作主义(Platform Cooperativism)的理念[1]。平台合作主义是对当前主流的、由少数大型科技公司主导的平台资本主义的一种反思和替代。它主张建立由平台的参与者(劳动者、用户等)共同拥有和民主治理的数字平台,简单来说,平台合作主义的特点是成员共同拥有、民主管理、共享收益、共担风险。现在,Cosy AI 将这个理念应用到人工智能领域。

Cosy AI 就像是要建立一个「AI 合作社」,其成员可能包括 AI 开发者、数据贡献者、算力提供者、AI 应用的使用者,甚至更广泛的社会公众代表。这个合作社的目标,不是像传统公司那样为少数股东追求利润最大化,而是为了所有成员的共同利益。

为了实现这一目标,Cosy AI 提出了几个关键方案(参见 图 7.1 )。其一是分配用于推理和训练专用 AI 模型的计算资源所有权。在 AI 时代,算力是核心生产资料,如同工业时代的机器。目前,高端算力高度集中在少数科技巨头手中。Cosy AI 设想通过构建去中心化的 GPU 集群,将分散的计算资源汇聚起来,由合作社成员共同拥有和管理。这就好比,与其让每个人都去买昂贵的专业工具,不如大家集资购买,然后按需共享使用,这样既降低了门槛,也打破了垄断。

其二是建立合作所有的数据基础设施。数据是 AI 的燃料,LAION-5B 的案例已经充分说明了数据来源和质量的重要性。Cosy AI 计划利用数据去中心化自治组织(Decentralized Autonomous Organizations,简称 DAO)和联邦学习(Federated Learning)[2] 等技术,探索新的数据治理模式。数据 DAO 可以理解为一种由代码和社群共识管理的「数据合作社」,成员可以共同决定数据的收集、使用和收益分配规则,同时更好地保护个人隐私。联邦学习则是一种分布式机器学习技术范式 1,允许 AI 模型在各个本地数据源上进行训练,而无需将原始数据集中上传,从而在利用数据的同时保护数据隐私。

图 7.1: Cosy AI 路线图

最为引人注目是 Cosy AI 提出的创建由 AI 支持的基本收入(A Basic Income backed by AI)的构想。合作社通过提供 AI 计算服务(如模型训练、推理)产生收益,其盈余的一部分将注入一个基本收入基金,自动分配给对合作社生态系统做出贡献并获得认可的成员。这直接回应了人们对 AI 可能导致大规模失业、加剧贫富分化的忧虑。它试图探索一条将 AI 创造的巨大生产力红利,转化为保障社会成员基本生活的稳定收入来源的路径,从而让技术进步的成果能够更广泛地惠及大众,而不仅仅是技术和资本的拥有者。

7.4 重新想象 AI 的新剧本

最后,让我将 Cosy AI 的模式置于本研究之前对 LAION-5B 和开源 AI 解决主义的批判框架下进行分析。我们可以发现 Cosy AI 的探索,在很大程度上正是试图回应和克服前文所揭示的那些困境。

首先,针对闭源模式下透明度匮乏与权力过度集中的问题,以及开源模式下可能出现的风险和责任归属问题,Cosy AI 的多方利益相关者合作社模式提供了一种制度性的解决方案。它不是简单地将代码开源了事,而是从根本上改变了生产资料(算力、数据、AI 模型)的所有权结构和治理机制。通过共同所有和民主决策,理论上可以提升运营的透明度,并使权力分配更加均衡,避免少数人或组织对 AI 发展方向和资源分配的过度控制。这与 LAION-5B 虽然开源,但其数据来源和清洗工具本身的问题导致了新的偏见和不透明形成了对比。Cosy AI 试图通过组织架构的设计,将伦理考量和责任机制内嵌于 AI 的开发和运营全过程。

其次,针对纯粹开源模式下潜在的失控与滥用风险,以及开源 AI 解决主义对技术过度乐观而忽视深层风险的问题,Cosy AI 的合作社框架提供了一种更为审慎和负责任的路径。它强调「真诚的人类合作」(sincere human cooperation)和「减少全球不平等」(reduction of global inequality)的社会价值导向,这意味着技术的应用和发展必须服务于这些共同目标。合作社内部可以建立比松散的开源社区更为严格和有效的行为规范、安全审查和伦理评估机制。这并非要扼杀创新,而是要在创新的同时,预先考虑到并努力规避潜在的负面影响。这与 LAION-5B 的案例中,尽管有开源的意愿,但由于工具和数据的内在缺陷,反而可能加剧风险形成了对照。Cosy AI 试图在开放协作与风险可控之间寻求一种动态平衡。

再者,Cosy AI 的 AI 驱动基本收入计划,直接回应了 AI 时代关于价值分配和社会公平的核心焦虑,这超越了传统开源模式主要关注技术共享而较少触及经济利益分配的局限。开源 AI 解决主义往往默认技术扩散本身就能带来普惠,但现实是,技术红利往往不成比例地流向掌握核心技术、资本和市场渠道的少数群体。Cosy AI 则明确地将 AI 产生的经济价值的一部分,通过制度化的方式(基本收入)回馈给社群贡献者,这是一种对 AI 社会经济影响更为积极和主动的应对策略。它试图确保,在 AI 驱动生产力极大提升的时代,普通人也能分享到技术进步的果实,而不是仅仅承受其带来的冲击。

当然,Cosy AI 的模式并非没有挑战。正如任何开创性的社会实验一样,它在实践中必然会面临诸多困难。例如,治理的复杂性:如何在多元的利益相关者之间达成共识、高效决策、公平分配权益?技术的可行性与竞争力:去中心化的计算和数据基础设施能否在性能、成本和安全性上与中心化的巨头竞争?经济的可持续性:合作社能否产生足够的商业回报来支撑其运营和基本收入计划?法律与监管的适应性:现有的法律框架如何适应这种新型的、跨越传统组织边界的 AI 合作社?这些都是 Cosy AI 未来发展中需要认真思考和解决的现实问题。

然而,尽管挑战重重,Cosy AI 的探索本身就具有无量的价值。其重要之处在于超越了当前盛行的、围绕「开源 vs 闭源」的简单化二元对立叙事,为我们展现了 AI 发展与治理的「第三条道路」的可能性。它提醒我们,技术的发展路径并非是唯一注定的,技术也无法决定着社会,人类完全有能力通过制度创新、组织变革和价值引领,将技术导向服务于更广泛的公共利益。用稍微煽情一点的话来表述便是:我们依旧可以通过「合作」来重新理解、想象和设计人工智能,而这需要你我超越在技术层面修修补补的惯习,换一套笔墨纸砚,共同书写关于 AI 所有权、控制权和受益权的新剧本。


  1. 联邦学习是一种分布式机器学习技术范式,其核心目标是允许多个客户端(例如,移动电话、可穿戴设备、物联网终端、医院、银行等拥有本地数据集的独立实体)在不将其各自的原始敏感数据发送到中央服务器或与其它方直接共享的情况下,共同参与训练一个共享的、全局的机器学习模型。其基本思想是「模型走向数据,而非数据走向模型」,即计算任务在数据所在的本地设备或机构内部完成,从而最大限度地保护数据的本地性和隐私性。↩︎