6 开源 AI 解决主义
本章将聚焦于分析围绕在 LAION-5B 数据集及其背后开发者团队的意识形态。我将这种意识形态定义为开源 AI 解决主义(Open source AI solutionism)。下文先从开源 AI 解决主义是什么起笔,接着分析开源 AI 解决主义具体秉持什么样的核心观点,以及如何对这些观点展开切实际的批判。
6.1 开源 AI 不是超能力
6.1.1 开源 AI 解决主义是什么
开源 AI 解决主义作为一种层次丰富的意识形态,它融合了 AI 乐观主义的核心信念。主张通过开源 AI 系统,能够有效应对 AI 领域的诸多挑战,并最大限度地解决当前 AI 技术所引发的各类棘手问题,诸如安全性不足、权力过度集中以及创新遭遇瓶颈等。与此同时,开源 AI 致力于通过提升透明度、促进多样性及共享技术成果,来推动技术民主化与行业整体进步,并期望借此改善各类社会问题。
从更宏观的视角来看,这种意识形态深深植根于技术解决主义的土壤。技术解决主义认为,数字媒体、机器、算法等各类技术均可视为治愈社会顽疾的万能良药。在数字时代,其常见的表现形式是坚信任何特定问题均可通过计算和程序得以解决,总有一款应用程序在等待着我们——「There is an App for That!」。而随着人工智能日益渗透至生活的方方面面,这句口号也相应演变为:「总会有一个 AI 来解决这个问题。」然而,一旦有人对 AI 引发的新社会问题提出质疑,开源 AI 解决主义者便会轻松地回应:「只要开源,一切问题便会迎刃而解。」
6.1.2 开源 AI 并没有共识
在深入剖析此意识形态之前,我们有必要首先对开源 AI 这一概念本身进行细致的厘清。关键在于,LAION 机构所推崇并积极倡导的开源 AI 究竟意指何物?科技公司口中的开源 AI 与此是否存在差异?它究竟是一种善意的共识,抑或仅仅是科技巨头们各执一词、自说自话的华丽辞藻?
2023 年,LAION 机构联合多家知名研究机构与开发商,共同向欧洲议会呈交了一封公开信。信中,LAION 表达了对欧洲 AI 法案可能冲击 AI 开源研发的忧虑,并阐述了保护开源 AI 的三大核心理由。这些理由我将在后续章节逐一剖析,但在此之前,我们有必要首先明确 LAION 机构对开源 AI 的具体理解。然而,令人遗憾的是,在查阅众多相关材料后,我并未发现 LAION 对开源 AI 的明确界定或详尽阐释,仅寻得一段类比。尽管如此,这段描述也足以让我们一窥 LAION 团队的核心价值观:开源 AI 堪比一种超能力。
「设想一下,如果每个人都拥有超能力,那么我们也就都有能力去阻止破坏性行为,并将其影响降至最低。在这样一个世界里,积极的一面会层出不穷,比如涌现出拥有超能力的艺术、音乐和电脑游戏,以及那些单纯为大众生产产品的公司,其生产力也会得到超常的提升。现在,不妨扪心自问,你理想中的世界是什么样的?如果你秉持乐观的世界观,很可能会认为,将超能力以开源形式向公众开放是一件好事。一旦理解了这一点,你就会很容易明白,人工智能 AI 也应当是开源的」[1]。
这种对开源 AI 进行模糊概括,并以近乎神话的叙事将其包装为一种使命与追求的做法,并非 LAION 一家机构独有,其根源在于当前 AI 领域对开源的概念远未形成共识。一方面,传统开源软件的定义主要依据源代码的可获取性及相应的许可协议。然而,生成式人工智能固有的复杂性,使得这一定义难以直接套用。换言之,开源 AI 的理念与传统开源软件的实践之间,存在着一条难以弥合的鸿沟。传统开源软件通过公开代码,促进了开发的民主化和漏洞的集体审查;但 AI 的独特性质,使其无法简单承袭这一逻辑。
人工智能的研发不仅依赖于代码,更需海量数据集与高昂的计算资源作为支撑,而这些要素的开放程度,往往受到技术和经济双重壁垒的限制。此外,即便模型参数完全公开,其内在的复杂与概率特征,也使得模型的透明度难以得到充分保障。公开的代码和文档,并不能完全揭示模型在特定情境下的具体行为模式,这实质上削弱了多方审查的可能性[2]。
另一方面,在实际技术操作层面,众多公司正巧妙地运用开源清洗(openwashing)策略[3],借开源之名,规避潜在的严格监管。具体而言,开源清洗指的是生成式人工智能系统的提供者,在其宣传与发布过程中声称模型是开源的,但实际上仅开放了系统的部分组件(如模型权重),而将其余关键组成部分,例如训练数据集、微调细节或系统架构的详尽文档,则予以保留,秘而不宣。此种策略与商业领域常见的绿色清洗(greenwashing)颇为相似,都是通过营造表面的正面形象来掩盖实质性的不足。
例如,Meta 公司发布的 Llama 2 模型,仅提供了模型权重,却未公开训练数据集的详尽信息。这种选择性的开放,使得该模型表面上看似符合开源标准,但实际上研究人员或监管机构仍无法对其进行充分的审查。与此同时,Meta 采用的是其自创的社区软件许可(Community License),而非诸如 Apache 或 MIT 等标准化开源许可证。值得注意的是,该社区软件许可在限制潜在有害使用方面的约束力较弱,且并未明确赋予用户修改和再分发的完整权利,这进一步削弱了其开源声明的真实性。
开源清洗策略的另一重要体现是,当前许多生成式人工智能模型并非通过学术论文发表或同行评审等正规渠道发布,而是选择通过公司博客或新闻稿来宣告其开源属性。除上文提及的 Llama 系列,法国的 Mistral AI。公司也通过博客形式宣称其模型为开源或开放访问。尽管此类发布通常会附上 MMLU、HumanEval 等基准测试的性能对比表,以此模仿科学成果的传播范式,但它们实际上缺乏细致的文档支持和严格的同行审查,从而巧妙地规避了深入的技术信息披露。
综上所述,我们可以推断,开源 AI 在很多情况下已超越了单纯的技术术语或实践范畴,演变为一个被赋予特定意识形态内涵的符号。它常常作为一种营销手段或商业策略,用以影响公众舆论和政策制定者的认知与决策。同时,开源 AI 也发挥着强大的意识形态召唤功能:历史上,开源便与创新、开放及社群驱动等理念紧密相连,这些价值观在当代科技文化中备受尊崇,尤为受到热衷引领潮流的硅谷科技精英们的青睐。因此,一旦某个项目被打上开源的标签,便更容易获得开发者和政策制定者的认同。或许,从这个角度出发,我们便不难理解,为何马克·扎克伯格(Mark Zuckerberg)会因其开源 Llama 模型的决策而重新赢得年轻一代的热烈追捧。
6.1.3 作为「后勤权力」的开源 AI
通过上一节的分析,我指出了开源 AI 作为一种意识形态召唤工具的面向。那么,这种意识形态究竟从何而来?其背后又牵动着怎样的政治经济结构?要解答这些问题,我们有必要简要回顾开源运动的历史。
开源运动,作为一种软件开发与分发范式,其历史演变不仅深刻塑造了当今的技术生态,也对其与科技产业之间的关系产生了深远影响。这场影响深远的运动,若用一言以蔽之,便是开源理念从最初自由软件的理想主义情怀,逐步被大型科技公司所吸纳并工具化的过程。而这种工具化的具体表现,即是科技公司通过掌控关键开源项目,从而获取一种后勤权力(logistical power),进而影响行业标准制定,并最终塑造数字资本主义时代的互联网基础设施。
所谓后勤权力,是指通过控制关键资源和基础设施,来影响社会乃至政治走向的力量[4]。例如,掌控核心的互联网标准,足以使特定公司能够主导网络技术的发展方向。倘若我们运用此视角审视开源 AI 的话语体系,便能洞察到,当今大模型纷纷标榜开源之际,这并非一场普惠大众的免费盛宴,而更像是下一轮基础设施权力争夺战的前奏。
开源的历史可追溯至 20 世纪 80 年代的自由软件运动。该运动由理查德·斯托曼(Richard Stallman)发起,他通过 GNU 项目和自由软件基金会(FSF)积极倡导软件用户应享有自由运行、修改和分发软件的权利[5,6]。这一时期的开源运动主要由意识形态驱动,旗帜鲜明地反对专有软件的封闭性[7]。然而,到了 20 世纪 90 年代中期,开源与自由软件理念的分化,标志着其发展进入了一个新的阶段。
1998 年,开源倡议组织(OSI)的成立,将开源重新定义为一种更侧重实用主义的方法论,强调开放源代码所能带来的商业价值,而非单纯的道德诉求。例如,被誉为开源运动独立宣言的《大教堂与集市》一书,便力主开源模式能通过协作显著提升软件质量,这一观点成功吸引了企业的广泛关注[8]。网景公司(Netscape)于 1998 年将其 Navigator 浏览器的源代码公开,成为商业开源的早期成功典范,为后续开源理念与产业的深度融合奠定了基础。
综上所述,开源运动发端于自由软件的理想主义,历经 20 世纪 90 年代的实用主义转向,至 21 世纪已被科技产业深度整合。在此过程中,开源运动与大型科技公司的关系也从最初的对立逐渐演变为共生。然而,这一转变亦伴随着开源社区自主性日渐削弱以及企业权力不断集中的代价。回顾这段历史,有助于我们理解当前的开源 AI 是如何在相似的逻辑下被塑造的。
也只有在这样的历史背景下,我们才能更清晰地定位 LAION 机构所展现的开源 AI 解决主义,其背后实际上与科技公司长期以来通过开源策略所获得的权力掌控和利益攫取,构成了一种一体两面、相互构建的关系。厘清此关系,对于我们后续深入剖析和批判 LAION 开源 AI 解决主义的具体论点至关重要。
6.2 透明度迷思:开源 AI 安全承诺的困境
LAION 机构运用多重论点来支撑其开源 AI 解决主义的立场,其中首要的一点是:开源 AI 能通过提升透明度来增强安全性,从而使得研究人员和监管机构能够审查模型性能、识别潜在风险,并据此制定有效的缓解措施。
「通过透明度实现安全:开源人工智能 AI 通过使研究人员和当局能够审计模型性能,识别风险,并建立缓解措施或对策来促进安全」[9]。
「举例来说,艺术家组织 Have I Been Trained 提供了一个工具,艺术家可以用它来查找自己的作品是否被收录在 LAION-5B 数据集中。这个组织只是利用了我们的开源代码,将其用于组织那些感到权益受损的艺术家,这是一件好事。现在,那些不希望自己的图片出现在互联网上的艺术家们,可以通过这个工具找到并移除这些图片。而且受益者不仅仅是艺术家!比如,如果我在网上发现了一张我不希望出现的个人照片,我就可以通过 LAION-5B 找出这张照片的使用情况。需要说明的是,LAION-5B 并不存储图像本身,而只是存储包含链接的索引表。通过这些链接,你可以找到指向图片的 URL,然后联系网站所有者,要求他们删除图片。LAION 通过这种方式提高了透明度,并让安全研究人员能够尽早接触这些技术,并探索如何提高其安全性。这一点至关重要,因为无论如何,这项技术都必将到来」[10]。
从第二段引文中可见,LAION 创始人舒曼认为,艺术家和个人可以借助 Have I Been Trained 等工具,查找并请求移除其不愿在网络上出现的图像,从而解决了隐私泄露的问题。他强调,此类方案的实现有赖于 LAION 的开源工作,并以此证明透明化和开源化确实能够提升安全性。然而,舒曼为开源策略所作的辩护,其理由不仅难以站稳脚跟,更不具备足够的说服力。
6.2.1 删除数据并不足够
首先,LAION-5B 数据集包含了海量的网络图像链接,然而这些图像的原始所有者(无论是艺术家还是普通个人)极有可能从未同意其作品或照片被抓取并用于 AI 模型的训练。这种未经授权的数据采集行为本身,便已构成了对数据隐私和知识产权基本原则的侵犯。Have I Been Trained 这类工具所提供的移除功能,充其量只是一种「事后补救」措施,根本无法改变图像已被广泛索引和利用的既成事实。更值得一提的是,该工具甚至并非由 LAION 团队直接开发和提供,而是权益受损的艺术家们在无奈之下所采取的脆弱抵抗。
LAION 作为数据集的创建和提供者,将移除图像的责任与负担完全转嫁给了艺术家和个人用户,全然忽略了其在数据采集阶段本应承担的伦理审查与告知同意的责任。真正负责任的解决方案,应当是在数据抓取之前便建立起明确的授权同意机制和严格的伦理审查流程,而非依赖受害者在事后自行追踪、举证并寻求补救。对于广大普通用户而言,查找图像的原始来源并逐一联系相关网站要求删除,无疑是一个耗时费力且往往收效甚微的过程。这种机制不仅未能从源头上阻止未经授权的数据使用,反而迫使受害者承担了不必要的时间与精力成本。
此外,移除请求的实际执行效果,在很大程度上取决于持有图像数据的第三方网站是否配合。许多网站运营方可能会对这类请求置之不理、拖延处理,甚至根本不予回应,从而使得所谓的隐私保护效果大打折扣。这种被动式的应对机制,远未能真正赋予用户对其数据的控制权,反而更加暴露了 LAION 在数据采集过程中缺乏健全授权机制的伦理短板。即便相关网站积极响应并删除了数据,我们仍需追问:仅仅删除数据,就真的足以解决所有问题了吗?
从表面上看,删除数据似乎不失为一种简单直接且行之有效的解决方案。例如,个人用户可能会援引欧盟《通用数据保护条例》(GDPR)中的「被遗忘权」,要求清除其私人信息;研究机构也可能在公众压力下,移除那些引发广泛争议的数据集。这种处理方式背后潜藏的假设是:一旦数据被删除,其产生的一切影响便会随之烟消云散。然而,这种线性的思维模式,显然忽略了数字世界的复杂性,特别是数据固有的易传播性以及机器学习模型对训练数据的深度依赖性[11]。
首先,数据的可复制性使得彻底删除几乎成为一项不可能完成的任务。数字信息不同于可以被物理销毁的纸质文件,它能够通过复制、备份或分享等方式,在多个存储位置同时存在。即便原始数据集被移除,其副本也可能早已散布至其它服务器、研究团队乃至个人设备之中。
其次,数据的「遗迹」(remains)并不会因为表面的删除而真正消失。机器学习模型一旦在特定的数据集上完成训练,即使该数据集后续被移除,模型内部所固化的模式、知识与偏见依然存留。这种「遗迹」会以模型参数、预测行为或下游应用等形式,持续发挥其潜在影响。因此,删除数据的行为,往往只是一种表面的姿态,非但不能真正消除其深层影响,反而可能掩盖问题的实质,使人们误以为风险已然化解。
Brainwash 数据集的案例,便是一个典型例证,它充分揭示了数据删除在实践中的无效性[12]。该数据集包含了 11917 张从旧金山 Brainwash 咖啡馆的网络摄像头截取的图像,记录了 2014 年连续三天的日常场景,最初被用于训练目标检测算法。然而,这些图像的采集和公开并未获得咖啡馆顾客的同意,由此引发了严重的隐私和伦理争议。2019 年,艺术家 Adam Harvey 和 Jules LaPlace 揭露了该数据集被用于改进监控技术。随后,迫于压力,斯坦福数字存储库移除了该数据集。
乍看起来,删除 Brainwash 数据集似乎已经解决了由此引发的问题。然而,实际情况远比表面现象复杂得多。在该数据集被官方移除之后,其副本和各种衍生版本依然在数字网络中流传。例如,其它研究人员可能在移除指令生效前就已经下载并保存了数据副本,或者基于该数据集训练完成的模型早已被整合进其它的应用系统之中。
更为关键的是,即便原始数据不再公开可得,那些已经接受过训练的模型仍然保留着从 Brainwash 数据集中习得的行为模式。这些模式可能会继续对面部识别或行为检测等技术(尤其是在监控领域)产生影响,而那些曾出现在咖啡馆监控画面中、不知不觉间成为数据源的顾客,对此却可能毫不知情。此案例清晰地表明,删除数据往往只是一种表层性的回应,难以根除其已然产生的深远影响。
另一个有力佐证数据删除无效性的案例,是著名的 80 Million Tiny Images 数据集[13]。该数据集由麻省理工学院的研究人员创建,包含了约八千万张微缩图像,主要用于图像识别领域的研究。然而,在 2020 年,研究人员发现该数据集中含有大量侮辱性及歧视性的内容,这一发现迫使数据集的创建者从其官方网站上撤下了该数据集[14]。
然而,这一删除行动并未能阻止该数据集的持续传播。其副本早已在学术界和工业界被广泛分享,甚至通过 BitTorrent 等途径至今仍可下载。许多基于此数据集训练的模型早已被部署到实际应用中,这些模型所携带的偏见和伦理隐患也随之延续。删除原始数据,并不能逆转这些已部署模型所可能造成的影响,反而可能因为公众无法再直接查阅和检验数据的原始内容,而使得相关问题变得更加隐蔽。
总之,上述案例都印证,数据删除的无效性不仅体现在数据的物理存留层面,更在于其在整个技术生态系统中所留下的「功能性遗迹」。训练完成的模型如同数据的投影,即便源头消失,其影响依然存在,并持续作用于现实世界。
6.2.2 ReLAION-5B 不是更好的迭代
历史总是在重演相似的教训,但似乎鲜有引以为戒的好学生。斯坦福互联网观察站(Stanford Internet Observatory)于 2023 年 12 月发布了一份调查报告,揭示了 LAION-5B 数据集中存在的严重问题。报告明确指出,该数据集中包含 3226 个疑似指向儿童性虐待材料(CSAM)的链接,其中 1008 个链接经过外部机构验证,被确认为 CSAM。这一发现表明,LAION 最初的过滤措施未能彻底清除数据集中的非法内容——鉴于前文的分析,此结论或许并不出人意料。
斯坦福报告发布之后,LAION 迅速采取了应对措施,不仅下架了 LAION-5B 数据集,还启动了全面的安全审查与修订工作。他们积极与多个权威机构展开合作,其中包括互联网观察基金会(IWF)、加拿大儿童保护中心(C3P),以及发布该报告的斯坦福互联网观察站。这些合作的核心目标,是准确识别并移除数据集中所有存在问题的链接。
经过数月的努力,LAION 于 2024 年 8 月发布了经过修订的 Re-LAION-5B 数据集,并提供了两个不同版本:其一为 Re-LAION-5B research,主要面向科研用途,保留了绝大部分原始数据,但清除了所有已知的非法链接;其二为 Re-LAION-5B research-safe,此版本在前者基础上进一步剔除了不适宜在工作场所浏览(NSFW)的内容,旨在为使用者提供一个更为安全的选项。
据 LAION 方面称,Re-LAION-5B 共移除了 2236 个疑似指向 CSAM 的链接,其中完整覆盖了斯坦福报告所确认的 1008 个问题链接。LAION 同时表示,许多被移除的链接可能本身已经失效,因为相关国际组织一直在持续不断地从网络上清除此类非法内容。然而,在发布 Re-LAION-5B 的官方博客文章中,LAION 团队依旧固执地坚信,通过开源和透明的路径,便足以构建和维护一个安全的数据集:
「在数据集问题上,我们坚信开放策略是最有效也最安全的选择。这不仅保证了研究的可重复性,还让任何人都能检查和了解数据集的内容,从而进行验证并推动科学进步。这种方式让广大社区能够共同参与,以透明的方式不断检查和改进这一重要的研究资源。我们认为,就像所有开源项目一样,开放数据集也应该接受社区的持续审查,通过集体努力使这些数据集不断完善。因此,我们非常感谢斯坦福互联网观察站的 David Thiel 对 LAION 5B 的仔细审查,也感谢所有合作伙伴机构与我们共同努力,让这个数据集变得更好、更安全,更适合研究社区使用」[15]。
尽管 Re-LAION-5B 的发布展现了 LAION 对安全问题所采取的积极姿态,然而,大规模数据收集中固有的授权同意缺失、过滤机制的天然局限性,以及商业应用场景下问责机制模糊等深层问题,依然悬而未决。一方面,LAION-5B 数据集的广泛传播,使得潜在的攻击者能够轻易获取这些数据,并可能将其用于训练恶意模型或生成有害内容。在缺乏有效监管和明确使用限制的背景下,所谓的「开放性」反而可能加剧 AI 技术的滥用风险。另一方面,LAION 所宣称的「安全研究者可利用这些数据改进技术」的论点,并未提供充分证据以证明这种积极效应能够有效抵消其潜在的安全威胁。这一点至关重要,倘若无法确证,那么所谓的开源数据集非但不能成为提升安全性的利器,反而可能沦为滋生安全漏洞的温床。
6.2.3 审计不会自动发生
最后,回顾本节开篇提及 LAION 致欧盟议会的信函,其中除了阐释开源 AI 的重要性外,也包含若干政策建议。首先审视其第一项建议:
通过透明度实现安全:开源人工智能 AI 通过使研究人员和当局能够审计模型性能,识别风险,并建立缓解措施或对策来促进安全[9]。
建议 1。确保开源研发符合 AI 法案要求:AI 法案应鼓励开源研发,并明确区分以服务形式提供的闭源 AI 模型和以开源代码形式发布的 AI 模型。在合理的情况下,法案应免除开源模型遵守针对闭源模型的监管要求。
从第一句引文中不难发现,LAION 将开源 AI 的安全性寄希望于透明度所带来的可审计性。与此同时,其提出的第一项建议则进一步主张,应将开源模型从针对闭源模型的法规约束中豁免出来。但事实上,实施有效审计所必需的资源投入和访问权限,与欧盟《人工智能法案》(AI Act)对开放 AI 项目提出的诸多要求高度吻合。《人工智能法案》明确要求高风险 AI 系统必须提供详尽的技术文档、完整的数据集信息和全面的风险评估报告,并确保相关责任方拥有充足的资源以执行合规性检查和安全审计。这些要求,例如访问训练数据、模型架构和部署细节的权限,以及投入必要的计算资源和专业人力以评估模型行为和潜在漏洞等,恰恰是开展有效审计的先决条件。
LAION 一方面反对将开放模型纳入此监管框架,另一方面却宣称透明度足以保障安全,这种立场与其将安全性置于首要考量的公开表述之间,存在着明显的矛盾。倘若安全性确实是其核心关切,那么支持通过监管框架来确保审计所需的资源和权限得到制度性保障,似乎远比单纯依赖自愿性的透明更为合理且有效。这种立场上的内在不一致性,使我们有理由质疑 LAION 的真实意图,或许更倾向于规避潜在的监管责任,而非真正致力于提升 AI 系统的安全性。
其次,审计作为一种安全保障措施,其有效性高度依赖于充足的资源投入和健全的激励机制。开放源代码所提供的透明度,虽然为审查创造了可能性,但并不能自动确保相关专家会主动投入时间和精力进行彻底的排查。究其原因,代码审计本身是一项成本高昂的活动,不仅需要深厚的专业知识、强大的计算资源支持,还需要投入大量的时间,这些要求通常远超个人或小型团队的承受能力。此外,开源项目往往缺乏明确的经济激励或制度性支持来吸引和鼓励专家参与深度审查。例如,专家在决策时,可能需要在审查代码所带来的公益性回报与其自身的科研或职业发展优先事项之间进行权衡;在缺乏资金补偿或官方正式委托的情况下,他们往往更倾向于将有限的资源投入到能产生更直接回报的活动中。
以 OpenSSL 加密协议中的「心脏出血」(Heartbleed)漏洞为例1,该开源协议为全球约三分之二的网站提供了安全支撑,然而其年度捐款额仅有区区 2000 美元,审计资源严重匮乏,直接导致这一重大安全漏洞长期未能被发现。一旦被恶意利用,Heartbleed 漏洞可导致包括密码在内的大量敏感信息泄露。在该漏洞被曝光后,亚马逊(Amazon)、谷歌(Google)和微软(Microsoft)等科技巨头才联合发起「核心基础设施计划」(Core Infrastructure Initiative),各自出资 30 万美元用于该项目的维护与审计,但这笔资金与这些企业在内部专有软件开发上的投入相比,仍显得微不足道。Heartbleed 的惨痛教训表明,代码的可审计性并不等同于实际被审计,资源匮乏和激励缺失是横亘其中的关键瓶颈。
此问题在开源 AI 领域显得尤为突出。与传统软件相比,AI 模型的行为具有更强的不可预测性,其输出结果和决策逻辑往往无法仅从代码、文档和训练数据中完全推断出来。例如,即便模型的源代码完全公开,其在复杂应用场景中的实际表现仍有可能超出设计者的预期范围。因此,仅仅公开代码和说明文档,远不足以应对 AI 系统在实际部署过程中可能出现的各种风险。
最后,开源 AI 的安全性论述还必须直面责任归属这一核心问题。即便透明度为审计提供了可能,一旦发现漏洞或缺陷,究竟应由谁来负责修复并承担由此产生的后果,目前仍是一个悬而未决的难题。这个问题之所以关键,是因为开源 AI 的开发与应用往往涉及多个参与方,包括数据集的提供者、模型的开发者、进行微调优化的团队以及最终的部署使用者等,各方在其中的角色定位和权责边界往往难以清晰界定。尤其是在当前大模型的复杂上下游生态链中,这种责任划分的模糊性更加凸显。
例如,一个开源的大型基础模型可能由某个研究机构或公司提供初始代码和预训练数据集,随后被多个不同的团队获取并针对特定应用场景进行微调。倘若该模型因训练数据中存在的偏见或算法本身的漏洞而导致了有害输出,那么责任的追究可能涉及数据提供者在筛选审查上的疏忽、原始模型开发者在设计上的缺陷,乃至最终部署者在使用方式上的不当等多个环节。
然而,在当前的开源模式下,通常缺乏正式的治理架构或具有法律约束力的合同条款,这使得各方在问题出现时,很容易相互推诿责任。此外,大型模型固有的概率性特征使其行为难以被完全预测和控制,修复潜在漏洞所需的技术难度和资源成本也相当高昂,这些因素都进一步模糊了主导责任的归属。因此,若不能妥善解决责任归属问题,那么透明度所带来的审计潜力便无法真正转化为实际的安全保障,开源 AI 的安全性主张也就难以真正成立。
综上所述,LAION 关于「开放 AI 通过透明度创造安全性」的主张,尽管在理论上具备一定合理性且可能源于良好初衷,但在实践层面却面临资源限制、激励匮乏和责任归属模糊等多重掣肘。简而言之,一味强调透明度并不能自动转化为有效的风险控制,通过透明度本身也远不足以实现真正的安全。而「通过透明度实现安全」这一论述一旦深入人心,便自然而然地沦为开源 AI 解决主义的最佳燃料,同时也为那些希望借助开源 AI 标签来规避监管责任的科技巨头们,开辟了一条便捷的「逃生通道」。既然开源 AI 并不能简单地通过透明度来实现安全,那么它是否真能如其倡导者所言,有效降低行业集中度,从而避免垄断的形成呢?
6.3 麻烦的监管:开源 AI 未必就能反垄断
LAION 用以支撑其开源 AI 解决主义的第二个核心论点是:开源 AI 能够「使中小企业能够在现有模型的基础上进行创新,提升生产效率,而无需依赖少数大型科技公司提供核心技术」[9]。其核心逻辑在于,监管措施将给开源开发者带来过于繁琐的要求,从而无形中加剧 AI 行业的集中化趋势。故此,他们主张应为开源 AI 开发者提供「绿色通道」,减轻其监管负担,以此达到降低 AI 行业集中度的目的。这一论点对舒曼而言尤显关键,因为他在几乎每一次公开访谈中,都会强调开源 AI 在对抗科技巨头垄断方面的积极作用:
「试想一下,如果全世界都在使用类似 ChatGPT 的技术,而这些技术仅由 OpenAI、Microsoft、Google 以及少数几家大公司掌控。这些公司可以随时切断你的使用权限,或者以‘这个任务不符合道德标准’,‘我需要暂时屏蔽你一小时’,甚至‘你的请求可能与我们的产品存在竞争,因此我们将永久禁止你使用’为由,限制你的访问」[10]。
「试想一下,如果我们不将解决问题的能力(即 AI)开源,而是将其垄断在国家和大型企业手中,这样的未来会是什么样子?几乎所有人都能看出,这样的未来并不理想」[1]。
6.3.1 勿忘 AI 基础设施霸权
然而,这一论点显著忽视了 AI 开发与部署的现实根基,即其对大规模计算资源、海量数据基础设施以及复杂技术生态系统的深度依赖。换言之,若我们暂且忽略当前科技巨头在 AI 产业中已然构筑的基础设施霸权[16,17,17–20,20–23],那么「开源 AI 将降低行业集中度」的观点或许尚能勉强成立。但遗憾的是,现实不容假设,因为 AI 绝非仅仅是代码和模型的简单堆砌,它并非一个孤立存在的抽象概念,而是一个由基础设施、核心模型及上层应用共同构成的复杂技术堆栈。倘若我们以此视角重新审视,「开源 AI 将降低行业集中度」的论断,则可能导向其反面。
首先,开源 AI 的开发和应用,本质上难以脱离大型科技公司所提供的强大计算资源支持,这使得中小企业在追求独立创新时步履维艰。LAION 设想中小企业能够在现有开源模型(例如开源的语言模型或图像生成模型)的基础上进行二次开发和创新,却忽略了训练和运行这些先进模型所需承担的巨额计算成本。现代 AI 模型的训练,无一例外地需要超大规模的计算基础设施作为支撑,而亚马逊(AWS)、微软(Azure)和谷歌(GCP)等科技巨头,正是凭借其各自构建的庞大云平台,构成了当前人工智能产业化的核心基石。根据最新的统计数据[24],截至 2024 年第四季度,亚马逊在全球云基础设施市场的份额已高达 30%,领先于微软 Azure 平台的 21% 和谷歌云的 12%。「三大巨头」合计占据了全球云市场超过 60% 的份额,而其它竞争对手的市场占有率则均停留在个位数水平(参见 图 6.3)。
这意味着,当前全球仅有极少数公司真正拥有构建和运行先进 AI 系统所需的自主可控的基础设施。这一局面导致,尽管 AI 初创公司在数量上看似繁荣,但它们中的绝大多数都不得不依附于这些科技巨头,通过租赁其服务器基础设施来开展业务,并且往往在激烈的市场竞争中,将最终被大型科技公司收购视为一种重要的退出路径或发展目标。更值得警惕的是,大型科技公司已开始利用其对关键计算资源的控制权来压制潜在的竞争。例如,据报道,微软近期曾对那些试图开发可能与 GPT-4 形成竞争关系的模型的客户施加压力,威胁要限制其对 Bing 搜索数据的访问权限[25]。
舒曼所担忧的科技巨头可能随时切断用户访问权限的风险,其根源恰恰在于这些巨头对底层基础设施的绝对控制,这并非开源本身所能解决的问题。以 LAION-5B 为例,尽管其数据集本身是开源的,但其训练过程和后续的分发服务,都高度依赖于 AWS 等云服务提供商。对于中小企业而言,即便能够免费获得开源模型,它们也普遍缺乏与大型科技公司相匹敌的模型训练能力和完善的生态系统支持,因而难以独立构建出具有市场竞争力的产品或服务。
这种深度的依赖性清晰地表明,在缺乏独立基础设施支撑的现实下,开源 AI 不仅难以实现其倡导者所宣称的独立性目标,反而更有可能沦为科技巨头现有生态系统的某种延伸,从而在客观上进一步巩固而非削弱其市场主导地位。同时,这种固有的不对称性也极易导致开源 AI 的创新成果更多地被大型公司所吸纳和商业化,而非真正促进整个行业向更加分散化和多元化的方向发展。
6.3.2 人工智能监管的现实挑战
最后,所谓为开源项目开辟「绿色通道」、减轻监管负担的提议,其不仅难以有效降低 AI 行业的集中趋势,反而可能进一步加剧现有权力结构的不平衡。LAION 认为,严格的监管措施会给开源开发者带来过于繁琐的合规要求,进而阻碍创新并加剧行业集中。例如,欧盟《人工智能法案》针对高风险 AI 系统设定了一系列严格要求,包括建立健全的风险管理体系、确保训练数据的质量与相关性、提供详尽透明的技术文档、实现适当有效的人工监督机制、以及保证系统在稳健性、准确性和安全性等方面的表现均达到规定标准[26]。这些要求往往需要投入大量时间与专业知识才能满足。大型科技公司凭借其庞大的法务与技术团队或许尚能应对,然而,对于主要依靠志愿者贡献、项目资金匮乏的开源社区、个人开发者或小型初创企业而言,这些合规成本可能高昂到足以抑制甚至扼杀其创新活力。
监管的碎片化则构成了另一项严峻挑战。在全球范围内,各国政府乃至同一国家内部的不同行政区域(例如美国各州),在 AI 监管策略与具体标准上可能采取迥异的路径。以美国为例,在缺乏统一联邦层面 AI 法律框架的背景下,各州可能会陆续制定出互不兼容甚至相互冲突的地方法规,这无疑给需要跨州乃至跨国部署 AI 系统的开发者带来了巨大的合规负担与实施困境[27]。这种碎片化的监管格局不仅显著推高了合规成本(开发者需努力满足多套并行的标准体系),更关键在于,它制造了显著的法律风险与高度的不确定性,使得开发者难以准确预估其行为可能产生的法律后果,这对于缺乏雄厚法律资源支持的小型创新主体而言尤为不利。
与监管碎片化问题密切相关的是法律责任归属的不确定性,特别是关于开源模型开发者是否应对其模型被下游用户不当使用或恶意滥用承担法律责任的问题,目前仍缺乏清晰界定[28]。开源模型的固有特性在于,其代码和权重参数可以被公众自由获取、使用和修改,这使得原始开发者通常难以有效控制最终用户将如何应用或改造其模型。倘若开发者仅仅因为第三方的不当使用便可能面临法律诉讼或行政处罚的风险,这无疑会抑制其发布模型或参与开源贡献的意愿。这种担忧并非杞人忧天,因为在现行法律框架下,如何清晰界定并合理分配此类间接责任,往往是一个模糊且棘手的难题。AI 技术的内在复杂性,尤其是基础模型作为一种通用目的技术可以被广泛应用于多种未知场景的特性,加之 AI 价值链本身具有的多层级与模块化特征(开源组件往往被整合进更为复杂的系统中),进一步加剧了责任精确分配的难度。
6.3.3 阻碍创新的症结并非监管本身
尽管上述顾虑指出了监管在实践中可能带来的诸多挑战,但若因此将监管简单视为开源创新的天然对立面,则是一种过于化约的视角。这些担忧更多是指向监管在设计与具体实施环节可能存在的瑕疵,而非监管机制本身固有的、不可克服的缺陷。例如,针对合规负担过重的问题,可以通过设计更具适应性、基于风险等级评估、并为小型创新主体提供合理豁免或必要支持的差异化规则来有效缓解。对于监管碎片化问题,则可以通过加强国际间的政策协调、推动制定更为清晰统一的联邦或区域性指导原则来逐步消解[27]。至于法律不确定性,特别是棘手的责任分配问题,则恰恰需要通过构建明确的法律规则体系来加以厘清,而非简单地回避监管。
更深一层来看,这种「监管阻碍创新论」往往忽视了监管在特定条件下可能发挥的积极促进作用。此类观点往往未能充分考量监管缺失可能引致的深层风险——例如,公众信任的流失、市场机制的失灵、安全事故的频发——这些风险本身亦可能对开源生态系统的长远发展与创新潜力构成严重威胁。
此外,对「开源开发者」这一群体的理解也需更细致。开源社区并非同质化的「铁板一块」,其参与主体构成复杂,从个人爱好者、非营利性组织,到诸如 Meta、Google 这类积极发布开源模型的大型科技公司,其所拥有的资源、内在动机以及面临的风险状况均存在显著差异。因此,监管所产生的影响也并非一刀切。设计精良的监管体系能够有效地区分对待不同类型的参与者和不同风险等级的模型,例如,通过实施分级监管策略,或为特定类型的低风险开源活动提供更为宽松的合规环境。
核心问题或许在于,阻碍创新的往往并非监管本身,而是监管所带来的不确定性与不可预测性。当监管规则模糊不清、责任边界难以界定、合规路径混沌不明之时,开发者(尤其是资源相对匮乏的中小型主体)出于风险规避的本能,其创新活动自然会受到抑制。反之,若监管能够提供清晰明确的规则体系、可合理预期的法律后果以及具体可行的合规指引,它反而能够有效降低不确定性,从而为创新活动营造一个更为稳定、更值得信赖的制度环境。接下来,我将进一步阐述精心设计的监管框架,如何能够切实扮演这种赋能创新的积极角色,以此来反驳「监管扼杀创新」论。
其一,精心设计的监管框架可以通过确立清晰的责任分配规则,为开源开发者营造更为安全的法律发展空间。其中一个关键机制便是设立「安全港」(Safe Harbors)条款[29]。此类条款可以明确规定,对于那些在开发过程中严格遵循了行业公认措施的开源模型开发者(例如进行了充分的风险评估、提供了透明完整的技术文档、并采取了必要的安全防护措施),则可依法免除或在一定程度上限制其对因下游第三方不当使用或恶意滥用所引发的法律责任。
此外,监管机构所倡导或要求的「问责制输入」(Accountability Inputs)——例如透明度报告、风险评估文档、模型卡(Model Cards)等——虽然在短期内看似增加了开发者的合规负担,但从另一角度看,它们亦可转化为开发者进行自我保护的有力工具。通过主动提供这些信息,开发者能够有效地证明其在模型开发与发布过程中已经尽到了合理的注意义务和审慎的风险管理责任,这无疑有助于其在面临潜在法律纠纷时进行有效的抗辩。与此同时,这些公开信息也为那些不幸受到 AI 系统不利影响的个人或组织,提供了追溯问题根源、寻求有效救济的重要线索。
因此,与其断言监管必然增加开源开发者的风险,毋宁说一个清晰、合理且内置「安全港」等保护性机制的监管框架,能够有效地为他们实现「去风险」(De-Risking)的目标。通过将法律适用上的模糊地带逐步转化为规则明确、预期稳定的领域,监管可以显著降低开源贡献者所感知到的法律风险,从而激励他们以更积极、更安心的姿态投身于开源生态的建设之中。
其二,人工智能技术的广泛应用与深度融合,无论是商业层面的成功部署还是社会层面的普遍接纳,均高度依赖于公众和用户的持久信任。对于开源 AI 而言,尽管其固有的开放性在一定程度上有助于提升技术的透明度,然而,公众对其安全性、可靠性、潜在偏见、数据隐私保护以及被恶意利用等方面的疑虑,依然是阻碍其获得更广泛信任与普遍采纳的关键瓶颈。信任的缺失不仅会迟滞其市场化应用的步伐,更有可能引发公众的普遍抵制,最终对整个技术领域的健康发展构成限制。
在此背景下,监管在构建、维护和增进公众信任方面可以发挥至关重要的作用。通过设定明确的行业基准与合规标准,监管能够确保所有投放市场并提供服务的 AI 系统(包括开源系统在内)均达到一定的安全、稳健、可靠与伦理要求。例如,经济合作与发展组织(OECD)所提出的 AI 原则,便强调了包容性增长、以人为本的价值观、公平性、透明度与可解释性、稳健性、安全性以及可问责制等核心价值理念。监管机构可将这些国际公认的原则与框架中的核心要求,进一步细化并转化为具有法律约束力的行业规范与标准。
值得强调的是,诸多负责任 AI(Responsible AI)的监管目标,例如提升系统的透明度、可解释性与可问责性,实际上与开源运动长期倡导的核心价值观不谋而合[30]。开源本身即意味着代码、模型乃至数据的可审查性,这为深入识别并有效纠正潜在偏见、清晰理解模型决策过程提供了宝贵的技术可能性。监管可以通过要求或鼓励业界采纳开放标准和负责任的开发实践,来进一步强化这些内生优势,从而确保所谓的「开放」不仅指涉技术层面的可访问,更能体现出负责任与可信赖的价值内核。
其三,监管对于规范数据使用与厘清知识产权边界具有关键意义。数据是训练 AI 模型的「燃料」,然而,数据的获取、处理与使用过程伴随着一系列错综复杂的法律与伦理挑战,这包括数据来源的合规性审查、数据集中潜在偏见的识别与消减、用户个人隐私的有效保护,以及复杂棘手的版权归属等问题。尤为突出的是,由 AI 系统生成的内容是否享有以及如何享有版权保护,以及当此类内容构成对现有版权的侵犯时,相关法律责任应如何界定与承担,这些均是当前法律界面临的悬而未决的重大难题。这些问题在开源 AI 领域表现得尤为突出,因为开源模型可能混合使用了来自网络爬取、用户贡献等多种渠道的数据,其具体来源与原始授权状况往往难以进行追溯与核实。
面对这些盘根错节的复杂情况,监管可以发挥重要的澄清、引导与规范作用。首先,监管能够为数据的合法、合规使用提供更为清晰的规则指引。例如,明确在 AI 训练场景下使用个人数据的合法性基础,在促进数据合理利用与保障个人数据权益之间寻求平衡。监管还可以积极推动关于训练数据来源和具体构成的透明度要求,例如欧盟《人工智能法案》便要求通用 AI 模型提供者公开发布用于训练其模型的内容摘要。
总之,围绕数据使用和知识产权问题建立明确的监管规则体系,虽然在短期内可能被部分开发者视为增加了合规负担,但其所带来的标准化效应以及由此增强的法律确定性,对开源生态系统的健康发展可能大有裨益。清晰的规则不仅能够显著降低开发者与用户在采纳、集成开源 AI 技术时所面临的法律风险与不确定性顾虑,还能有效促进不同项目间的互操作性与协同创新,并为妥善解决日益复杂的跨境数据流动与知识产权争议提供法律基础。
最后,反观之,若监管持续缺位或效力不彰,则更可能使那些资金雄厚、资源充裕的大型科技公司,能够更为轻易地凭借其已然构筑的基础设施壁垒,进一步压缩中小型企业及新创者的生存与发展空间。例如,微软公司通过向初创企业提供其 Azure 云服务的计算积分和专项技术支持等方式,吸引它们深度融入自身构建的生态系统,从而不断强化其在产业链中的主导地位和潜在的垄断势力。
与之形成对比的是,广大的开源开发者由于普遍缺乏与之匹敌的资源支持,在缺乏有效监管所提供的公平竞争环境与必要保护机制的市场中,将更难以与这些科技巨头进行正面对抗与持续竞争。LAION 创始人舒曼所忧虑的垄断风险固然真实存在,但其根本原因更应归咎于大型科技公司对从基础设施到应用层全链条技术栈的严密控制,而非监管机制本身。事实可能恰恰相反:适度、审慎且设计精良的监管,反而可能是保护开源社区免受不当挤压、激发持续创新活力、并有效平衡行业竞争格局的必要制度保障。我们不禁要问,倘若 Meta 等科技巨头纷纷高举其开源 AI 模型的旗帜,并巧妙地将其作为规避监管审查、巩固市场优势的「挡箭牌」时,舒曼先生及其代表的开源 AI 解决主义者们,是否还会依然坚信单凭开源便能自然降低行业集中度呢?
6.4 本章小结
在本章中,我深入剖析了驱动 LAION-5B 的深层意识形态——开源 AI 解决主义,并系统梳理了其概念内涵、核心主张及其内在逻辑。我首先将开源 AI 解决主义界定为一种融合了技术乐观主义与开源信仰的特定意识形态;随后,我对该主义所秉持的核心论点进行了批判。
通过细致分析,我指出,透明度本身并不能自动保障 AI 系统的安全,反而可能因为资源投入的限制和责任归属的模糊而使其失效;与此同时,在当前科技巨头已形成基础设施霸权的背景下,开源 AI 非但难以有效削弱行业集中趋势,反而存在被这些巨头利用以进一步巩固其市场主导地位的风险。前三章关于数据集建构过程的细致考察,与本章对相关意识形态的深入批判,共同构成了对 LAION-5B 项目的一次全面审视。在下一章中,我将综合上述分析与洞见,提出本研究的最终结论与未来展望。
OpenSSL 如同互联网上的一把「安全锁」。它是一个开源的软件工具,用于为网站和应用程序提供加密保护,确保用户在进行网上购物、账户登录或信息发送时,个人敏感信息(如密码、信用卡号)不被窃取。简而言之,它负责将用户数据「加密上锁」,只有合法的接收方才能「解密」查看。许多网站,特别是那些以
https://开头的安全站点,都依赖 OpenSSL 来保障数据传输安全。心脏出血漏洞是 OpenSSL 中一个极为严重的程序错误,于 2014 年被发现。该漏洞允许黑客从网站服务器的内存中秘密窃取信息,如用户密码、账户详情,乃至用于解密数据的密钥。其名称「Heartbleed」源于技术细节:OpenSSL 设有一个「心跳」(heartbeat)扩展功能,本用于确认网络连接的有效性,但由于编程失误,导致黑客可以请求服务器返回远超正常量的数据,从而泄露出本不应公开的敏感信息。↩︎