生成式人工智能模型在开发之初,就像一个婴儿,不具备任何关于世界的先验知识。训练是生成式人工智能模型获得智能和创造力的唯一途径。训练实际上就是生成式人工智能模型的学习过程,从海量的数据中学习语言规律、视觉模式、概念联系等,并通过分析数据、调整内部参数,最终构建对世界的认知和理解。训练完成后,生成式人工智能模型能够根据用户的提示词,利用学到的模式和知识,创造出新颖、合理、多样化的内容。由此可见,生成式人工智能模型在训练过程中必然使用大量受版权保护的作品,而且这些作品往往是高质量、不可或缺的训练数据。
按照版权法的基本原理,未经著作权人许可,使用他人受版权保护作品原则上都构成侵权。同时,各国版权法对权利都会作出一些限制,规定某些未经许可使用他人作品的行为可以获得侵权的责任豁免。
未经权利人许可,将他人受版权保护作品用于生成式人工智能模型训练,这种行为是否构成版权侵权,是否能够获得版权法上的侵权责任豁免,是当前开发生成式人工智能模型过程中无法回避的一个现实问题。本文通过考察欧盟和美国的版权法及相应制度,分析生成式人工智能模型训练在欧美版权法上的法律定性以及是否可以获得版权侵权责任豁免,以期借鉴。

武凡熙 作
生成式人工智能模型训练构成初步版权侵权
模型训练准备工作至少侵害权利人的复制权
为了训练人工智能模型,人工智能模型开发者首先需要做好训练前的一些准备工作,其中重要的任务就是收集数据和整理数据。开发者在收集数据过程中,在大多数情况下,就是从公开可用的数据源(网站、数据库等)下载数据,但是无论来源如何,都必然复制数据,形成数据备份。随后,开发者将根据实际需求对数据进行整理。就受版权保护的作品来说,开发者通过以下方式将对作品反复进行复制:(1)下载作品;(2)在存储介质间传输作品;(3)将作品转换为特定格式;(4)创建或修改数据集;(5)经筛选后将作品纳入数据子集。由此可见,开发者在训练人工智能模型之前的数据收集和整理都需要大量复制作品。因此,人工智能模型训练准备工作至少直接侵害权利人的复制权。
模型训练过程至少侵害权利人的复制权
模型训练过程也需要反复复制之前整理好的各种数据备份。首先,模型的训练速度和训练规模要求开发者在训练前下载数据集并复制到高性能存储设备中,以便提高训练效率。其次,在训练期间,数据集将被分批“投喂”给人工智能模型,这就需要临时复制数据集。第三,训练过程中向模型提供示例所用的数据、衡量模型相对于预期输出的性能所用的数据以及迭代更新权重所用的数据都包含此前复制的数据。就受版权保护作品来说,这些过程都将复制作品或作品的实质部分。因此,人工智能模型训练过程也至少直接侵害权利人的复制权。
综上可见,生成式人工智能模型训练,无论是训练前的准备工作,还是模型训练过程本身,都必然大量复制受版权保护作品,都至少直接侵害权利人的复制权。但是,利用受版权保护作品训练人工智能模型,其使用作品的范围和规模是前所未有的,远远超出传统版权法的制度涵盖范围和立法者的预见能力范围。因此,问题的关键就在于,构成版权侵权的生成式人工智能模型训练能否满足版权法宽宥而获得侵权责任豁免。
欧盟版权法下模型训练版权侵权的责任豁免
生成式人工智能模型训练过程中使用受版权保护的作品,构成欧盟版权法上的复制行为并无争议,问题在于是否有任何特定的欧盟版权限制可以适用于生成式人工智能模型训练。目前在欧盟有关诉讼中,作为被告的模型开发者提出了可能适用于人工智能模型训练版权侵权责任豁免的三种版权限制,具体包括:(1)临时复制;(2)科研性文本与数据挖掘;(3)商业性文本与数据挖掘。
临时复制例外的适用探讨
欧盟《信息社会指令》第5条是整个指令中最重要且最复杂的条款,也是欧盟版权法的核心条款,该条定义了数字环境下版权保护的边界,通过规定一系列强制性和选择性的例外与限制,在保护创作者权利与保障信息自由流通之间寻求平衡。
第5条第1款规定了临时复制例外,这是《信息社会指令》中唯一的强制性例外,欧盟所有成员国都必须实施。临时复制例外允许短暂或附带的复制行为,此等复制行为是技术实施过程中不可或缺的,其唯一目的是使作品在网络中通过中间媒介在第三方之间进行传输,但是该复制行为须本身没有独立的经济意义。
生成式人工智能训练前和训练过程中复制受版权保护作品,这些复制行为显然不是附带的或伴随发生的,先于训练过程的复制行为是独立的,训练过程中的各种复制行为是在从事人工智能训练的个人或组织自主控制下反复复制作品的一个过程。因此,生成式人工智能训练使用受版权保护作品,不能满足临时复制例外的法律要求。
文本与数据挖掘例外的适用探讨
随着数字技术的发展应用,需要对各种数据进行计算或分析,这就是数据挖掘。数据挖掘是一种利用自动化计算技术,从大规模、结构化或非结构化的数据集中发现新模式、新趋势、新关联、新知识的计算过程。数据挖掘的关键流程通常包括数据采集、数据清洗与预处理、数据转换与表示、数据挖掘与分析和结果解释与可视化。由此可见,数据挖掘多个步骤都涉及对原有数据的复制。具体到受版权保护作品来说,也同样需要进行复制,例如数据采集、数据清洗、数据预处理、数据转换等过程都需要复制作品。为解决数据挖掘技术与版权保护的冲突,欧盟《数字单一市场版权指令》将文本与数据挖掘作为一项版权保护例外,并针对科研性文本与数据挖掘和一般性文本与数据挖掘分别确立了不同的规则。
科研性文本与数据挖掘例外。《数字单一市场版权指令》第3条规定了科研性文本与数据挖掘,这是欧盟成员国必须通过国内法实施的一项强制性例外。科研性文本与数据挖掘例外适用主体包括大学、公立研究实验室等科研机构以及为科研机构提供协作的图书馆、博物馆等文化遗产管理机构。
科研性文本与数据挖掘例外可以适用的行为,顾名思义就是以科学研究为目的,对合法获取的作品或数据进行复制和提取的行为。同时,科研性文本与数据挖掘例外还需要满足一些法定条件,例如目的仅限“科学研究”、副本须保存在安全环境中、科研机构需要确保其仅用于科研验证、须通过合法途径获得、禁止规避技术措施等。因此,在欧盟境内,从事生成式人工智能训练的非商业性科研机构,如果因使用受版权保护作品而被指控侵犯版权的,可以援引科研性文本与数据挖掘例外作为侵权责任的豁免依据。当然,这些科研机构需要严格遵守科研性文本与数据挖掘例外的各项法定条件。
一般性文本与数据挖掘例外。《数字单一市场版权指令》第4条规定了一般性文本与数据挖掘例外,这也是欧盟成员国必须通过国内法实施的一项强制性例外。一般性文本与数据挖掘例外适用于任何主体,包括任何个人或组织。一般性文本与数据挖掘例外对行为目的不作限制,允许对合法获取的作品或数据的任何复制和提取。同样,一般性文本与数据挖掘例外也需要满足一些法定条件,具体有:(1)必须通过合法途径获得数据源;(2)权利人的权利保留条款优先,如果权利人通过机器可读方式明确保留文本与数据挖掘权利,则一般性文本与数据挖掘例外自动失效,需要另行获得额外授权;(3)副本仅能用于文本与数据挖掘分析,不可用于其他目的;(4)可以保存文本与数据挖掘副本直至分析所需期限届满,但需要证明其必要性。
在欧盟,对于那些不能适用科研性文本与数据挖掘例外的生成式人工智能模型训练,只能援引一般性文本与数据挖掘例外作为侵权责任的豁免依据。由于一般性文本与数据挖掘例外规定了比较严苛的种种限制,在实践中被告很难获得成功的抗辩。
为应对数字技术应用、保障数字经济发展,欧盟充分平衡技术创新与著作权保护,专门创制出版权保护的文本与数据挖掘例外,确实能够为相关研究和技术创新提供一定的法律保障。但是,文本与数据挖掘例外中权利保留声明与合法获取这两大核心限制将显著制约文本与数据挖掘例外的实际效果。在权利保留声明机制下,权利人通过在网站或数据中嵌入文本与数据挖掘保留声明,可以比较容易地排除文本与数据挖掘例外的适用。这势必严重削弱文本与数据挖掘例外的价值,尤其影响商业和创新型中小企业。合法获取作为适用条件之一,禁止规避技术保护措施,势必大大压缩文本与数据挖掘例外可以适用的空间。这些争议与挑战对于生成式人工智能数据训练也同样如此。未来的法律演进可能围绕文本与数据挖掘例外的权利保留声明的合理性、合法获取的必要性开展讨论。
美国版权法下模型训练版权侵权的责任豁免
美国版权法在其演进中,不断适应新技术发展应用,既推动技术进步,又保持对创作的激励,使得美国的创意产业一直处于全球领先地位。目前在美国有关诉讼中,权利人起诉被告的人工智能训练行为侵犯其版权时,被告往往以合理使用为由提出抗辩,请求获得版权侵权责任豁免。
合理使用制度是美国司法实践中为了平衡权利人利益与社会公众利益而发展出来的一套裁判规则体系,后被美国1976年《著作权法》吸收而规定于第107条。合理使用制度采取了要素叠加方式,具体包括:(1)使用行为的目的和特点;(2)作品的性质;(3)作品被使用的数量和实质性;(4)对作品的潜在市场或价值的影响。这就是通常所说的合理使用制度“四要素”。
使用行为的目的和特点
使用作品的目的和特点,是判定使用行为是否构成合理使用的一个重要因素。在司法实践中,法院通常强调转换性使用和商业性这两个核心要件。
在判断转换性使用时,核心问题在于被告使用作品是单纯取代原告作品,还是通过赋予原告作品新的目的或不同特性,并以全新表达、意义或信息改变原告作品,增添新价值。因此,转换性使用通常在市场上不会替代原告作品,反而更可能实现版权法的立法宗旨。同时,转换性程度越高,商业性等不利因素在合理使用认定中的权重就越低。
商业性使用审查的核心在于,如果被告使用原告作品获取经济利益却规避付费,则可能构成不公。被告使用原告作品进行人工智能模型训练是商业性的还是非商业性的,关键是要审查在没有支付通常应当支付许可费的情况下被告是否从使用作品行为中有所获益。有的判例在考虑被告使用行为的目的和特点时,还会考虑被告是否合法获取原告作品。利用盗版或非法获取材料进行模型训练的行为性质比较严重,即使被告出于合理使用目的也不例外,因此非法获取行为本身即影响使用性质认定。
受版权保护作品的性质
这里所谓作品的性质,主要是指作品的原创性。作品的原创性高则保护范围大,作品的原创性低则保护范围小。作品保护范围的大小与认定合理使用尺度的宽严应当保持对应关系。使用保护范围越大的作品构成著作权侵权的可能性越大,如果从严适用合理使用制度,那么绝大多数情形都将不构成合理使用。这将造成保护范围大的作品几乎不适用合理使用制度的事实。使用保护范围越小的作品构成著作权侵权的可能性越小,如果从宽适用合理使用制度,那么绝大多数情形都将构成合理使用。这将造成保护范围小的作品几乎不受著作权保护的事实。人工智能模型训练通常混合使用表达性作品与功能性作品、已公开与未公开作品,当所涉作品表达性越强或属于未公开作品时,受版权保护作品的性质这个要素将显著不利于合理使用认定。
作品被使用的数量和实质性
从数量角度来说,被使用部分在受保护整部作品中占比越大,不构成合理使用的可能性越大。从实质性角度来说,被使用部分对于整部作品的实质性越重要,不构成合理使用的可能性越大。对于人工智能模型训练整个过程来说,有的步骤需要复制作品的全部内容,有的步骤可能仅需要复制作品的部分内容。既然存在复制作品全部内容的情形,因此就版权侵权判定来说,就无须再具体细分哪些步骤复制了作品的全部内容,哪些步骤复制了作品的部分内容。
使用行为对受保护作品的潜在市场或价值的影响
美国联邦最高法院认为,第四个因素无可争议地构成合理使用制度中的首要因素,是判断使用行为是否构成合理使用的最重要的因素。认定使用行为是否构成合理使用,需要考虑使用行为对受保护作品的潜在市场或价值的影响。在任何情况下,最重要的就是判断使用行为与权利人就其作品所拥有的专有权市场是否构成竞争关系,重点评估使用受版权保护作品训练人工智能模型对原告作品的市场影响,包括直接销售损失、市场稀释效应及许可机会流失等。虽然版权人需要承担初步举证责任以指明相关市场范围,但在应对合理使用抗辩时无须自行提供经验数据。
判定合理使用需要综合考量相关情况,平衡多项法定因素。人工智能模型训练过程中对受版权保护作品的各种使用方式可能是转换性的,这主要取决于使用了哪些作品、来源如何、目的为何以及对输出施加了何种控制,所有这些都会影响版权人的市场。当人工智能模型被部署用于分析或研究等目的时,其输出内容一般不会替代训练中所使用的作品。
2025年6月,美国加州北区联邦地区法院就Anthropic案作出一审判决,这是美国法院首次就使用受版权保护作品训练人工智能模型是否构成合理使用作出判决。该判决将Anthropic的人工智能模型训练划分为数据获取、数据存储、数据训练,逐一分析、各自定性,最终得出Anthropic利用合法取得的受版权保护作品训练其人工智能模型构成合理使用,主要原因就在于使用受版权保护作品训练人工智能模型具备高度转换性,并且没有直接替代原作品的市场。当然,这只是美国一家联邦初级法院在一起案件中的裁判观点,后续有待审级更高的法院就这个问题形成具有法律约束力的判例。