生成式人工智能对著作权制度的冲击,主要体现在输出端的可版权性认定和输入端的大模型训练使用作品的合法性认定两个层面。随着近年来司法实践的不断探索,从输出端看,人工智能生成内容的可版权性问题已有基本共识。我国法院在认定时,已根据个案在可版权性上作出了不同的判定,并未绝对判定使用者通过提供和调整提示语的方式利用人工智能生成内容就一定构成作品。但从输入端看,生成式人工智能算法所需要的大模型训练给著作权制度带来的挑战却尚未取得共识。

作者简介:熊琦,中国人民大学法学博士,华中科技大学法学院教授,博士生导师,副院长,知识产权学科带头人,第六届湖北省十佳优秀中青年法学工作者,华中卓越学者。
AI训练使用作品引发争议
生成式人工智能算法的成型,需要以海量数据“喂养”为前提。所以,要训练人工智能来完成类似人类的表达,不可避免需要在事前复制和分析大量人类创作的已有作品,由此产生了这种大规模使用作品是否合法的争议。
2023年12月,《纽约时报》起诉OpenAI和微软公司未经许可使用《纽约时报》的文章来训练 GPT大语言模型,开启了全球媒体机构起诉生成式人工智能侵犯著作权的先例,也标志着著作权合理使用制度需要再次起到版权产业与新兴产业调节器的作用。全球范围内大模型训练合理使用争议案件已大量出现,但从域外已有的判例来看,认定合理使用和认定侵权兼有之。针对这些案件的讨论不但关乎模型训练在现有法律体系内的解释和认定,更关乎人工智能产业能否在可控成本内完成模型训练。
合理使用认定涉及的三个问题
在上述问题上,版权产业主体与人工智能产业主体各执一词,反映出传统产业和新兴产业在版权利益分配上走到了一个新的十字路口。著作权人一方认为,上述新生成的内容对其作品的市场产生了替代效应,并对著作权人的收益带来了消极影响。而人工智能产业一方则认为人工智能所生成的内容与原作品并不构成实质性相似,因此并不存在任何著作权侵权行为。从现有的判例来看,合理使用认定需要依次回应以下三个问题。
第一,机器学习过程中是否复制了原作品的表达。这一问题的核心,在于分辨机器学习究竟仅使用了作品的功能性元素还是创造性表达。针对这一问题,无论是美国和欧盟的相关报告还是最新案例,都认为机器学习之所以将海量作品纳入,是因为作品所能提供的丰富表达可以帮助人工智能获得语言概念之间的关联性,以此模拟人类的表达方式。以往将机器学习对作品的使用认定为“非表达性使用”的观点在近期的判例中已极少获得认同。
第二,机器学习使用作品是否构成使用目的的转换。这一问题的核心,在于确定机器学习与人类学习是否存在差别。鉴于美国版权法判例中创设的转换性使用和日本著作权法修改中增设的“非享受性使用”,这似乎使得拥有上述抽象判定要素的规范能够在司法实践中更容易通过法律解释涵盖新的使用方式:一旦使用目的发生了转换,合理使用认定的可能性就可能增加。但实际情况却是由于版权产业与人工智能产业的分歧难以调和,司法裁判的结果也有差异。全球实践中,不同法系对上述问题的认定存在显著差异。美国法院在新近生效判决中就认为,人工智能大模型训练和自然人的阅读和学习本质相同,训练过程中对作品的使用乃是为生成新内容做准备,如果自然人使用作品进行学习和培训不构成侵权,那么大模型训练也应当被如此看待。模型训练在使用作品目的上具有高度转换性,因此在合理使用的认定时可以降低对人工智能产业主体商业性使用的考量。但我国与欧盟等诸多作者权法体系下的著作权例外立法体例,采取的是具体列举的方式,因此都存在现行立法中缺乏能够纳入模型训练的合适条款。针对欧盟近期的相关判决,欧盟有报告专门指出,当前欧盟著作权指令中的文本和数据挖掘例外条款并非为适应生成式人工智能训练的表达性和合成性而设计,将其适用于此类系统可能扭曲欧盟著作权例外的目的和限制。立法者需要考虑在具体列举的著作权例外情形中专门增加针对模型训练的条款。
第三,基于模型训练所构建的生成式人工智能算法,所生成的内容是否构成对原作品著作权市场的替代。无论在作者权法体系还是版权法体系下,是否对原作品著作权市场造成消极影响一直是认定合理使用是否成立的核心要素。在针对模型训练使用作品是否会对原作品著作权市场带来影响这一问题,著作权人一方的忧虑在于当人工智能能够以极低成本随意生成海量作品时,将会对原作品的著作权市场产生替代,从而显著削弱对人类创作的激励。美国版权局在今年发布的人工智能与版权系列报告中明确提出,使用作品进行大模型训练可能影响这些作品市场价值的实现,包括销售损失、市场稀释和许可机会的丧失。所以是否构成合理使用需要在个案中根据具体情形来认定。但在近期的相关判决中,美国和欧盟多起案件的司法裁判结论都已倾向于认定利用人工智能生成海量新内容并不意味着对原作品著作权市场形成替代,只有在新内容与原作品构成实质性相似的前提下,才会从输出端的角度认定侵权行为的存在。
我国应对路径的建议
总体而言,生成式人工智能依赖海量作品进行模型训练引发的著作权争议,仍然延续了新技术带来的版权产业与新兴产业利益博弈。
从广播技术时代因录像设备普及带来的争议到网络时代社交媒体引发的二创风波,合理使用制度都在其中充当了调节器的角色。但这种调节在坚守法律规范的同时,也当然包含各国根据自身产业发展阶段做出的政策考量。从此次人工智能技术带来的冲击看,人工智能技术领先型和技术追赶型国家均在不同程度上放宽了对作品使用目的和使用程度的限制,将模型训练与搜索引擎等历史上新技术的适用进行类比,作品复制被视为技术开发的中间步骤。在该步骤中,复制作品的目的并非是享受作品的表达,也未使新的受众接触原作品内容,而是利用训练数据中所得出的抽象信息来创建新内容。同时,生成式人工智能对原作品的风格模仿乃是为创作工具技术迭代的结果,只要没有故意对模型训练进行调整来生成实质性相似的新内容,就不应视为会侵害著作权人可预期的市场利益。
对于我国而言,现今在版权制度上面临的重大挑战一方面在于如何确立针对模型训练阶段大规模使用作品的政策立场,另一方面在于我国著作权法合理使用条款中缺乏能够直接适用于模型训练的例外条款。现行法律中已有的“个人学习”与“科学研究”条款难以适配人工智能的商业开发需求。简单采取扩大解释或类推解释的方法,容易导致认定标准的混乱和司法裁量权的不当扩大与模糊化。所以我国首先应秉持技术赶超型国家的政策立场,在不损害版权人合法权益的前提下,允许人工智能在学习和创造过程中对现有作品进行有限度的使用,从而推动新技术的发展并最终实现社会整体利益最大化。然后结合生成式人工智能的技术特性和实际应用,对模型训练进行类型化分析,在充分考虑本土产业特点和已有域外经验的基础上,在我国著作权法实施条例中或增设专门针对机器学习和模型训练的合理使用条款,或增设更为宽泛的“非享受性使用”条款,允许不损害作品表达价值的商业性使用,既避免法律过度干预技术发展,又通过合理使用动态平衡机制维护对创作的持续激励,实现技术创新与著作权保护在制度层面的协调融通。