3 缘起动机:挑战闭源数据集
想要对 LAION-5B 进行深入的分析,首先必须对其创建背景和历程有所了解。接下来我将从一个你可能相对陌生但又经常听说的概念「多模态」讲起。
3.1 创建背景
3.1.1 AI 渴望多模态
你目前手中可能正拿着一份论文的打印稿,或者正目不转睛地盯着荧幕。当你的眼睛扫过页面上的文字时,或许也注意到了下文即将出现一张图片。此刻,你的大脑在进行怎样的活动呢?它不仅在解读白纸黑字上的句段(语言信息),同时也在尝试理解那些图片可能蕴含的意义(视觉信息)。也许,你还在心中默念某个段落的字句,甚至能够察觉到自己翻动纸页的声音(听觉信息)。在这一瞬间,你的大脑正巧妙地将文字、图像乃至些微的环境声响融为一体,帮助你构建起对当下情境的整体认知。这便是人类处理信息的方式:从多个来源——或称模态(modalities)——中获取数据,进而整合形成一个完整的印象。
多模态模型(multimodal model)正是试图复制人类这种整合多感官信息以理解环境的能力。近年来,这类模型的兴起主要是为了应对日益复杂的现实世界任务。传统的 AI 模型通常仅处理单一类型的数据,例如,图像分类模型专注于图像,而语言模型则专注于文本。然而,随着技术的进步和应用需求的提升,单一模态模型已逐渐无法满足那些需要跨领域理解和生成能力的任务。
例如,在图像描述生成场景中,模型需要观察图像并生成相应的文字描述,这便要求将视觉信息转化为自然语言。在视觉问答场景下,模型则需要依据图像内容来回答文字形式提出的问题,这就涉及图像和语言的联合推理。此外,还有更为复杂的跨模态检索场景,需要根据文字描述来搜索匹配的图像,或者依据图像来查找相关的文本资料。这些任务都无法单纯依靠单一模态的数据来完成,因此,多模态模型便应运而生。
简单来说,多模态模型是一种能够同时处理和理解不同类型信息的 AI 模型。以你当下的阅读行为为例,如果我们把这篇论文的文字与图片一并交予一个多模态模型,它不仅能「读懂」你正在浏览的段落,还能分析那些图片,推测它们可能的含义。甚至,如果你在此时提问:「这图片是什么意思?」它也能结合文字与图像信息,给出一个合理的回答。
3.1.2 大规模图像数据集的兴起
在理解了多模态模型的概念之后,你或许会好奇:这样的模型是如何训练出来的?答案在于,它们的训练高度依赖大规模图像数据集(large-scale image datasets)。所谓大规模图像数据集,是指从网络或其它来源收集的、包含数以亿计的图像及其对应文字描述的数据集合,LAION-5B 便是目前世界上最大的大规模图像数据集。这些数据集的特点在于其数量庞大、来源广泛,并且通常是通过自动化工具抓取数据,而非依赖人工逐条标注。
3.1.3 传统机器学习数据集为何退休
那么多模态能力的实现,为何需要如此庞大的数据集作为支撑?传统的机器学习数据集又为何显得有些力不从心,乃至「退休」了呢?其原因可以从以下几个方面来理解。
首先,多模态模型的表现优劣,很大程度上取决于它能否准确学习并掌握图像与文字之间复杂的关联性。人类可以轻易地看出「一杯咖啡」这句话与一张咖啡杯照片之间的对应关系,但对于机器而言,这需要通过海量的样本进行学习和训练。
这些样本如同教科书中的练习题,其多样性和丰富性越高,模型就越能掌握不同场景和表达方式。如果数据量过少,模型可能仅能学到一些表层或简化的模式,那么在遇到新的、未见过的情况时,其出错的概率无疑会显著增加。因此,大规模图像数据集提供了数以亿计的图像 - 文本配对,为模型提供了充足的教材以供学习。
其次,训练多模态模型需要数据能够充分涵盖真实世界的多样性。从网络上抓取的图像和文字包含了形形色色的主题,例如食物、风景、人像,乃至抽象概念等,这些无不反映了现实生活的复杂。相比之下,小规模的人工构建数据集往往仅聚焦于特定领域,这使得模型难以适应广泛多变的应用场景。例如,一个仅用数千张照片训练出来的模型,可能无法准确理解社交媒体上发布的日常随拍照片及其评论的含义,而大规模数据集则能帮助模型更好地应对这种真实世界的多变性。
再者,数据量直接影响模型的性能,这已成为深度学习领域的一条铁律。为模型提供更多的数据,就如同为学生提供更多的练习机会,能够有效提升其预测的准确性和运行的稳定性。对于多模态模型而言,这一点尤为重要,因为它不仅要理解独立的图像或文字信息,更要理解两者之间是如何相互关联、协同表意的。这好比学习一门外语,既要记忆单词,又要理解句子结构和语用规则,唯有足量的练习才能熟练。大规模图像数据集恰恰提供了这种多练的机会,使模型能够在训练过程中逐步优化和完善。
最后,从实际操作的角度来看,人工制作并标注大规模数据集的成本极为高昂,且过程相当耗时。试想,若要请人为数亿张图片逐一撰写准确的描述,即便在当前已存在成熟的「数据标注剥削产业链」的情况下,对于大多数 AI 公司而言,其经济成本和时间成本也是难以承受的。在 2010 年至 2020 年间,多模态数据集的构建通常依赖人工深度参与,例如,Microsoft COCO 数据集通过众包方式为约 33 万张图像生成了描述[1],而 Visual Genome 项目则为超过 10 万张图像提供了细致入微的标注信息[2]。这种方式虽然能在一定程度上确保数据质量,但其高昂的成本和漫长的周期,使其难以扩展至数亿乃至数十亿的规模。
进入 2021 年后,随着 CLIP 和 ALIGN 等创新模型的出现,研究者们开始将目光转向利用网络爬虫技术,通过自动化工具大规模收集图像及其伴随文本[3,4]。这种方法不仅显著提升了数据获取的速度,大幅降低了成本,同时也能够满足现代模型对海量数据的迫切需求。尽管以这种方式收集的数据可能包含一定的杂讯,但其巨大的数量优势往往能够弥补这一缺陷——即模型可以凭借自身的学习能力,在训练过程中逐步过滤和适应这些杂讯。
总之,随着 AI 领域迈入万亿参数模型的惊人世代,数据集的构建方式也随之完成了从传统人工标注向自动化网络爬取的范式转变。LAION-5B 数据集正是在这一时代背景下应运而生的,而它创建的直接契机,则是为了挑战并打破闭源数据集在该领域的垄断局面。
3.2 创建历程
在当前的 AI 领域中,OpenAI 的 WIT(WebImageText)数据集是一个典型的闭源案例。WIT 包含了约 4 亿个从网络公开来源收集的图像 - 文本对,被用于训练诸如 CLIP 和 DALL-E 这样的知名多模态模型[3]。然而,该数据集具体的构建过程和详尽的数据来源却鲜为公众所知。从更广阔的视角审视,WIT 所代表的这种闭源 AI 商业模式——即大模型主要通过 API 接口提供服务,而非以开源形式发布——带来了多方面的不足。
首先,它阻碍了科学研究的开放性与可重复性。由于研究者无法直接访问原始数据或详细的模型结构,他们难以独立验证已发表的研究结果,也难以在原有基础上进行有效的技术改进和创新。其次,这种封闭性掩盖了潜在的伦理风险。例如,数据集中可能存在的偏见、歧视性内容或不当信息,由于缺乏透明度而无法得到充分的公开审查。最后,闭源模式还易于造成技术资源的过度集中化,使得资金雄厚的大型科技公司在竞争中占据绝对优势,从而削弱了中小型研究团队和独立开发者的参与机会与发展空间。
这种现象引发了学术界和开源社区的广泛不满与担忧。许多人认为,闭源模式背离了人工智能研究最初促进知识共享与共同进步的初衷,更有甚者直言 OpenAI 虽名为 OpenAI,实则走向了 CloseAI。当然,关于 AI 领域的开闭源之争,其复杂性远非表面看上去那样简单。开源 AI 是否就真的能够完美解决上述所有问题?对于这一系列议题,我将在本文的第四章展开更为深入的剖析。
此刻,不妨让我们尝试与 LAION 的创始人克里斯托夫·舒曼(Christoph Schuhmann)共情,带着对闭源 AI 模式相似的疑虑,去倾听一个普通高中的物理老师,是如何凭借着个人的理想信念与开源社区的集体力量,向闭源堡垒发起冲击。
3.2.1 从个人想法到社群集结
舒曼生活在德国汉堡,这座城市终年温和湿润的气候似乎并未消磨他探索新领域的热情,反而让他更专注于突破自身的舒适区。白天,他在高中为学生们讲授物理和计算机科学的知识;而到了夜晚,他就沉浸在机器学习的自学世界之中,广泛阅读相关书籍,并积极参与各类在线课程。
2021 年 2 月,OpenAI 发布了其图像生成模型 DALL-E 的初代版本。DALL-E 凭借其令人惊艳的图像生成效果震撼了全球,这其中自然也包括了刚刚读完 DALL-E 相关论文的舒曼[5]。在深感震撼之余,舒曼也敏锐地察觉到了一丝潜在的隐忧。他在后来的采访中回忆道:「我当时就在想,如果这种强大的技术最终被一两家大公司所垄断,那将会对整个社会造成多么糟糕的影响啊。」
舒曼一直坚信,人工智能不应该成为少数大公司或特定政府机构的专利,而是一种理应普惠全人类的「超能力」。他希望通过创建一个超大规模的开源数据集,让普通的开发者、研究人员乃至学生群体,都能够平等地参与到 AI 技术的探索与创新之中,而不是仅仅作为科技巨头们「恩赐」的被动接受者。在他看来,数据的开放性不仅是技术进步的关键催化剂,更是实现人工智能民主化不可或缺的基石。
于是,舒曼在 EleutherAI 的 Discord 社群中,与一群志同道合的 AI 爱好者交流时,首次抛出了自己的初步设想:我们能否利用公开的网络资源,复制出一个类似 DALL-E 所依赖的那种大规模数据集,并将其完全开源?起初,这个想法并未在社群中激起太大的波澜。一些开发者表示了兴趣:「是的,这确实是个好主意,应该有人来做这件事。也许我以后会考虑尝试一下。」然而,这个「以后」似乎迟迟未能到来,因为大家往往都因各自手头的项目而分身乏术。
直到舒曼下定决心:既然暂时没人来做,那不如就由我自己动手吧。他打开了一个免费的在线计算平台 Google Colab,开始独自一人编写最初的脚本。他后来风趣地回忆道:「那时候的代码简直就像一团意大利面(spaghetti code),杂乱无章,但好在它至少能够运行起来。」尽管技术条件和个人资源都相当有限,他还是毅然迈出了第一步。在接下来的几周时间里,他成功提取了数千对图像 - 文本数据。这虽然只是一个微不足道的起点,但正是这团最初的「意大利面」,奠定了 LAION 项目的第一块基石。
然而,单打独斗式的努力很快便遇到了瓶颈。处理和组织海量数据需要强大的计算资源和高效的算法支持,而舒曼当时既缺乏专业的团队协作,也面临资金短缺的困境。正当他为此感到力不从心之际,一个意想不到的转机悄然而至。
一位年仅 15 岁的英国高中生通过 Discord 主动联系了他。这位充满热情的年轻志愿者编写了一个小巧的任务跟踪器,能够有效地利用多个 Google Colab 实例并行处理数据,从而大幅提升了数据收集的效率。两人一拍即合,在短短几周内便协力收集到了 300 万对图像 - 文本数据。这一初步的成功不仅鼓舞了他们自己,也吸引了社群内更多开发者的关注,许多人开始表示愿意志愿加入到这个富有挑战的项目中来。
随后,社区的力量开始显现:有人慷慨捐出了自己闲置的虚拟机资源,有人主动贡献出宝贵的 GPU 算力,还有人则协助优化了数据处理的代码逻辑。在大家群策群力的推动下,仅仅三个月之后,LAION-400M 数据集便横空出世。这个包含了 4.13 亿对精确图像 - 文本配对的数据集,一举成为当时世界上最大的公开图像 - 文本数据集。这一里程碑式的成果不仅在业界引发了广泛关注,也为 LAION 项目赢得了宝贵的声誉和进一步发展的动力。
3.2.2 外部助力与规模升级
LAION-400M 的成功,吸引了更多宝贵的资源和志同道合的合作伙伴加入到这场方兴未艾的开源行动中来。知名的机器学习平台 Hugging Face 便是其中之一,它慷慨地为 LAION 项目提供了关键的资金和算力支持。舒曼曾在 LAION 的 Discord 频道上半开玩笑地说道:「如果我们能有 5000 美元的经费,我们或许就能将数据集的规模扩展到 10 亿对。」出乎他意料的是,一位社群内的创业者立刻回应道:「经费需求这么少吗?这笔钱我来出。」而这位慷慨的资助者,后来成为了图像生成领域另一家明星公司 Midjourney 的首席工程师。
到了 2021 年底,LAION 团队决定将他们的目标推向一个新的高度:构建一个包含 50 亿对图像 - 文本数据的数据集。正当他们为所需的庞大计算资源而略感发愁之际,Stability AI 公司的创始人埃马德·莫斯塔克(Emad Mostaque)加入了 LAION 的 Discord 群组。他自称曾是一位对冲基金经理,并承诺愿意为 LAION 项目提供免费的 GPU 算力支持。起初,LAION 团队对此多少抱持着将信将疑的态度,但在几周之后,他们确实收到了来自 Stability AI 方面价值数万美元的云端计算资源。有了这批强大算力的加持,LAION-5B 数据集的创建进程可谓如虎添翼。
2022 年,这个包含了高达 58.5 亿对图像 - 文本数据的庞大数据集正式宣告完成,成为了大规模图像数据集领域一座新的丰碑。而 Stability AI 公司,则在 LAION-5B 发布之后,充分利用了这一高质量的开源数据集成功训练出了 Stable Diffusion 模型。该模型一经发布,便凭借其出色的性能迅速成为行业内的标杆性产品,并一跃成为少数能够与 OpenAI 旗下的 DALL-E 模型相抗衡的硅谷新宠。
LAION-5B 的诞生,并非单纯的技术成果堆砌,它更是全球开源社区协作精神的一次巅峰体现。从项目最初仅有数人的核心小组,发展到后来遍布全球的庞大志愿者网络,LAION 的每一步进展都凝聚了无数参与者的智慧、热情与无私奉献。正如舒曼在回顾这段历程时所感慨的那样:「这绝不是我一个人的功劳,而是整个社区共同努力的成果。」正是这种开放、共享、协作的精神,使得 LAION 从一个最初模糊的梦想,一步步成长为足以改变 AI 领域发展格局的现实。
3.2.3 坚定普惠开源信念
随着 LAION 项目声名鹊起,各大科技公司纷纷向舒曼抛来了橄榄枝,许诺以高薪职位和优渥的工作条件。然而,他都一一婉言谢绝了。他在一次访谈中坚定地表示:「我拒绝了所有这些工作机会,因为我希望 LAION 能够保持其独立性。」作为一名公立学校的教师,他拥有一份稳定的收入,这也使他能够将参与 LAION 项目更多地视为一种纯粹的「爱好」和理想追求,从而避免了潜在商业利益可能带来的干扰和束缚。他形象地将人工智能比作一种「超能力」,并坚信这种力量理应服务于最广泛的公众,而非沦为少数人或少数机构牟利的工具:
「请思考一下这个观点:人工智能应该开源,让公众都能平等地使用它。现在,我们试着把人工智能这个词换成超能力:超能力应该开源并向公众开放。通过这样的替换,我内心真正的意图就变得更加清晰了。想象一下,如果超能力是真实存在的,但最终只有像 OpenAI、Microsoft、Google 这样的少数几家公司,或许再加上中美两国的政府,才能够掌控这种力量,并有权决定如何使用它。有些人可能会认为,政府总是会为了民众的福祉而行事——这一点当然存在争议,但我们姑且先这样假设。可是,像 Microsoft 这样的商业公司呢?他们行动的出发点,真的是优先考虑我们的集体利益,还是仅仅为了更有效地销售他们的产品?
如果你是一个悲观主义者,你可能会说,这个世界上存在很多坏人,如果让每个人都拥有超能力,那么肯定会有大约 10% 到 30% 的人利用这种能力去做坏事。这或许就是为什么需要通过政府或其它机构来对这种力量进行管控和约束。但是,如果你像我一样,对人性抱持着相对乐观的态度,那么你可能会认为,大多数人的本性是善良的。他们并非完人,但绝大多数人并无意主动作恶或蓄意破坏什么,他们主要的目标只是想过好自己的生活。虽然社会中确实存在一部分乐于行善之人,也必然存在少数心怀不轨的作恶之徒,但后者显然只占极少数。现在,假设每个人都拥有了超能力,那么与此同时,每个人也都获得了采取行动来对抗潜在破坏性行为、并限制其负面影响的能力。在这样一个普遍拥有超能力的世界里,我们可以预见将会涌现出许多积极和创新的事物:基于超能力的艺术创作、超能力驱动的音乐表达、超能力赋能的互动游戏,以及那些为公众生产和提供商品的企业因超能力而实现的生产力飞跃。如果你扪心自问,你希望生活在一个怎样的世界中,并且假设你对世界抱持着一种相对积极的看法,那么你很可能也会认同,将超能力作为一种开源资源提供给最广泛的公众,是一件非常有益的好事。理解了这一点之后,你或许就不难明白,为什么我认为人工智能也应该以开源的方式普惠大众了。」
从以上舒曼在采访中所阐述的这段话中,我们可以稍稍窥见驱动他行动的核心理念与坚定信念。也正是这种源于内心深处的召唤,使他能够义无反顾地投身到开源 AI 和 LAION 数据集这项充满挑战的事业之中,即使深知前路并非一片坦途。
3.3 本章小结
在本章中,我聚焦于 LAION-5B 这一里程碑式数据集的创建背景与核心动机,并深入分析了其诞生的复杂社会技术动因。随着图像生成技术对高质量多模态模型需求的日益增长,传统闭源数据集在开放性、研究的可重复性以及必要的伦理审查等方面所固有的局限性日益凸显。这些缺陷不仅在一定程度上阻碍了相关科学研究的健康发展和快速进步,还在客观上加剧了技术资源的过度集中化。
为了应对这一现状,LAION-5B 项目以开源作为核心突破口,勇敢地尝试挑战现有闭源数据集的垄断格局。通过详细介绍 LAION 项目创始人克里斯托夫·舒曼的开源理念及其创建历程,我阐明了该项目致力于追求技术民主化、并积极倡导社区协作与共享的初衷。
本章的论述为后续章节的深入讨论奠定了必要的基础。而 LAION-5B 的具体技术实现,则高度依赖于其数据来源的选择与构建策略,这一过程所涉及的诸多细节、挑战与权衡,我将在下一章中展开进一步分析。那么,就让我们一起试着走走 LAION-5B 创建过程中那段崎岖路吧。