提示:本文超过1.3万字,认真读完大约需要半小时以上。请合理安排阅读时间。
人工智能技术的广泛运用颠覆了作品的创作过程,未经许可而使用作品进行数据训练的行为在一定程度上损害了著作权人的合法权益。为了维护社会公平,保护著作权人的合法权益,促进人工智能产业的发展,应当及时修改著作权法,加强对著作权人利益的保护。在制度设计上,应注意平衡著作权人和人工智能服务提供者之间的利益,根据数据训练中使用作品的方式来确定是否支付报酬以及如何支付报酬。若人工智能服务提供者使用他人作品进行数据训练的行为符合合理使用的构成要件则不需要获得著作权人许可或付酬。反之,则应支付报酬。在付酬方式上,优先适用自愿许可方式,法定许可方式作为补充。若著作权人不允许使用其作品进行数据训练或不同意法定许可,则应尊重其选择。为落实上述制度,还应完善著作权集体管理制度,建立信息披露机制、退出机制等配套制度——

作者简介:胡开忠(1971-),男,湖北老河口人,法学博士,上海交通大学凯原法学院教授、博士生导师,研究方向为知识产权法学。
近年来,随着人工智能技术的快速发展,大量的人类作品未经许可被用于数据训练,越来越多的用户利用该技术生成文本、图像、音频、视频等内容,最终使著作权人的利益受到重大损失。而且,人工智能内容产出的规模、数量、成本和速度都是人类作者无法比拟的,该技术可能成为取代人类创作的工具,从而引发了人类作者的强烈不满。之所以产生上述危机,除了人类作品容易被人工智能生成内容替代,使著作权人面临前所未有的不公平竞争环境这个原因外,还有一个重要原因是人工智能服务提供者在使用作品进行数据训练时很少披露被使用的作品,也没有向著作权人支付使用作品的报酬,甚至对于被使用的作品进行歪曲、篡改,这在一定程度上损害了著作权人的精神利益和财产利益。
为了应对人工智能技术对于创意产业工作岗位的冲击,近年来有不少著作权人起诉人工智能企业未经许可而使用其作品进行数据训练。2023年12月27日,美国《纽约时报》起诉微软和OpenAI,指控其未经许可而使用《纽约时报》发表的数百万篇文章进行数据训练并生成新的与《纽约时报》有竞争的新闻内容。2024年6月24日,索尼音乐娱乐公司、环球音乐集团和华纳唱片公司等在美国马萨诸塞州地区法院和纽约南区地区法院分别对苏诺(Suno)和优迪奥(Udio)两家人工智能企业提起诉讼,指控它们未经许可大规模使用其受版权保护的音频资料来训练AI模型。我国也发生了类似的案件,2023年12月,四位绘画作者将社交平台小红书的主体公司及小红书旗下AI绘画产品Trik软件主体公司诉至法院,理由是Trik软件未经授权使用了画师的原创作品作为训练数据并生成了与原作高度相似的图片,画师们认为上述行为侵犯了作者的合法权益。在上述几起案件中,原告都要求被告方就其未经许可使用作品的行为给予赔偿。但是,人工智能训练企业往往以合理使用为由拒绝给予作者经济赔偿。不过,涉及人工智能的版权诉讼成本高昂、过程复杂,长此以往难以为继,必须寻找合适的解决路径。
为了解决上述问题,2025年5月,美国版权局发布了《版权与人工智能第三部分:生成式人工智能训练(预发布版本)》,就使用受版权保护的作品训练人工智能模型是否属于合理使用问题作了全面和深入的解读。2025年7月,欧洲议会法律事务委员会也发布了《生成式人工智能与著作权——训练、创作及监管》最新报告,探讨了使用作品训练人工智能模型的合法性及补偿作者的问题。在理论界,不少学者都关注到了人工智能生成内容引发的版权问题,但多数研究内容主要集中在如何保护人工智能生成内容上。相反,学术界对于人工智能服务提供者使用作品进行数据训练是否属于合理使用的问题却争论不休,对著作权人的财产利益和精神利益的保护关注不够。在上述案件发生后,一些学者也开始关注著作权人利益的保护问题,并就人工智能数据训练中使用作品的补偿问题作了探讨。但是,人工智能技术对于著作权保护产生了哪些冲击,人工智能数据训练中使用作品的行为如何定性、使用作品进行数据训练是否应向著作权人支付报酬、以什么方式保护著作权等问题仍然存在较大的争议。为此,本文将对上述问题进行探讨,以寻求在人工智能数据训练中著作权保护的合理路径。
一、人工智能数据训练中著作权保护的必要性
根据经济激励理论,只有授予作者一定期限的版权,才能使其获得与付出劳动相当的报酬,才能激励其创作出造福人类的传世之作。上述学说构成了保护著作权的理论基础,作者有权从他人使用其作品的行为中获取合理的经济报酬。但是,人工智能数据训练中未经许可使用作品的行为使著作权受到了前所未有的冲击,该权利面临被架空的风险,加强著作权保护颇为必要,具体体现在如下几方面。
(一)尊重创作劳动
人工智能服务提供者需要获取和使用已有作品进行数据训练才能生成新的内容,在这一过程中,人工智能服务提供者需要对作品予以复制、翻译、汇编和分析,这可能涉及著作权人的复制权、翻译权、汇编权、信息网络传播权等权利。更有甚者,一些人工智能生成内容与人类作品实质性相似,可能构成抄袭、剽窃行为,损害了著作权人的权益。但是,人工智能服务提供者在从事上述活动时,一般未征求著作权人的同意,也未向其支付报酬。经过数据训练,人工智能模型能够模仿人类作者的写作风格,复制其作品的要素,甚至生成新的内容取代人类作品,使得相对低效的人类作者因作品的不稀缺而获得更少的收入,从而损害了著作权的激励机制。尽管人工智能服务提供者使用了他人作品用于数据训练,但它们很少向著作权人提供经济补偿。这样一来,一方面人类作品被人工智能生成内容所替代,另一方面著作权人又无法从人工智能服务提供者那里获取应有的补偿,著作权人的保护面临严重的危机,创作劳动得不到尊重。上述局面之所以形成主要有如下原因:一是著作权人在人工智能产业发展中处于弱势地位,人们过份关注人工智能生成内容的知识产权保护而忽视了著作权人的利益保护。许多科技企业打着促进科技创新的旗号要求对人工智能生成内容予以保护。受此影响,我国不少学者都主张对人工智能生成内容予以版权保护,一些法院在案件审理中也承认符合一定条件的人工智能生成内容可以获得版权保护。显然,理论界和实务界主张保护人工智能生成内容知识产权的观点占据主流。相反,当作品被人工智能服务提供者用以数据训练时,很少有人对该使用行为的合法性提出质疑,仅有极少的学者提出要保护作者的获酬权。这也说明著作权人在人工智能产业发展中处于弱势地位,很难从人工智能服务提供者那里获得作品被使用的补偿。二是在人工智能服务提供者向著作权人支付报酬这一问题上存在认识上的分歧。著作权人通常认为,人工智能服务提供者未经许可使用其作品进行数据训练,损害了著作权人的财产利益,应当视为侵权行为。但是,人工智能服务提供者就其数据训练中使用作品的行为提出了合理使用的抗辩。对于上述问题,理论界没有形成共识,世界上也无任何国家在立法中予以明确规定,著作权人难以从人工智能服务提供者那里获得作品被使用的补偿。所以,只有使著作权人从使用作品进行数据训练的行为中获取应有报酬,才能体现对其创作劳动的尊重。
(二)促进文化产业发展
保护著作权人利益是著作权制度的核心内容。在大陆法系国家,根据洛克的劳动价值理论,作者花费时间和精力创作了作品,理所当然应当收获劳动果实,给予作者公平的报酬才能使其依赖作品谋生。在英美法系国家,版权制度是功利主义的产物,授予作者一定期限的版权,才能使其获得与付出劳动相当的报酬,才能激励其创作出造福人类的传世之作。在人工智能时代,大量的作品被无偿用于数据训练,数据训练的不透明性和规模性正在破坏知识产权生态系统,严重削弱了著作权人对作品的专有控制。如此一来,著作权人无法获得合理的报酬,导致新的市场失灵,创作动力受到削弱,从而阻碍了文化产业的发展。所以,要发展文化产业,必须使著作权人从使用作品进行数据训练的行为中获取应有报酬,这一报酬不仅是对其劳动的回报,更是对未来创作的支持。
(三)维护社会公平
无论是根据劳动价值理论还是经济激励理论,著作权人都有权从作品使用中获取与创作投入相匹配的回报以激励文化创作,这也是社会公平原则的体现。在人工智能时代,海量的作品被无偿用于数据训练,产生了大量的不公平现象,主要体现在如下几方面:一是作品使用情况不透明。大量人工智能服务提供者未经著作权人允许就使用其作品进行数据训练,甚至采用非法手段获取作品,著作权人对此一无所知也无法行使获酬权。二是使用作品的数量和范围远超著作权人的合理预期。在人工智能时代,作品被大量复制并存储在服务器中形成数据集以供模型学习分析。在数据训练过程中,原作品被分解为段落、句子、图片等无数个小单元,然后通过一定的算法被拼凑或组合在一起,现有作品的元素以碎片化的形式呈现在最终输出的结果之中。因此,人们往往能从人工智能生成内容中感知原作的风格或表现形式,甚至发现与原作几乎完全相似的生成内容。而且,人工智能生成内容可以无限产出,这也意味着原作品将被人工智能模型无限使用,著作权人难以预料作品中的哪一部分会被人工智能模型使用并出现在哪个生成内容之中。若将生成内容对原作的复制数量相加,将达到天文数字。所以,人工智能数据训练对于作品的使用数量和范围是著作权人无法预测的,著作权人也很难就作品的使用提出合理的报价,从而在与人工智能服务提供者的谈判过程中处于弱势地位。三是收益分配严重失衡。著作权人很难从人工智能服务提供者那里获得补偿,甚至可能因为生成内容在作品市场具有代替效应而影响其原本应获得的收益。与此同时,人工智能服务提供者使用作品进行数据训练而开发出高质量的人工智能模型并从用户付费中获取了巨额利润。若人工智能服务提供者使用作品却不向著作权人支付对价,就相当于将著作权人的劳动成果无偿转化为企业利润,这违反了“谁贡献、谁受益”的市场原则。所以,从公平的角度讲,人工智能服务提供者在数据训练中大量使用著作权人作品应当予以补偿。
(四)保护文化多样性
人工智能模型通过学习分析已有作品的风格而模仿人类的创作,快速生成高质量的内容,在一定程度上代替了人类的创作,抢占了人类作者的市场份额,导致市场稀释。这样一来,企业或个人往往利用廉价的人工智能生成内容来替代人类作品。那么,人类作品的销售和收入受到重大影响,著作权人的利益难以得到保护。据统计,由于人工智能生成内容对人类作品的替代,人类作者可能会失去他们当前收入的很大一部分,到2028年音乐和视听作者将分别面临24%和21%的收入损失风险。同时,由于收入锐减,人类创作的作品数量大大减少,市场将充斥大量的人工智能生成内容。但是,无论人工智能技术如何先进,都无法取代人的创造能力。人工智能生成内容只能模仿人类的生产过程而不能提出创新的思想,且存在单一化、普遍化和同质化的问题,不仅无法实现文化创新,也难以形成具有人文精神的作品,对其进行保护更不能促发有效的创作激励,最终损害社会的文化多样性。因此,只有使著作权人从人工智能服务提供者使用其作品进行数据训练的行为中获取应有的报酬,才能降低市场稀释的风险,激励其创作积极性,保护社会的文化多样性。
(五)促进人工智能产业健康发展
人工智能模型之所以能够生成新内容,关键在于对人类作品的学习和分析。通过大量的数据喂养和学习,人工智能模型能够模仿人类的行为而生成新作品。如果没有使用作品进行训练,那么人工智能模型只能根据内置的算法和模型来随机生成内容,其质量很低,可能会产生人工智能模型的崩溃效应,阻碍人工智能生成技术的创新发展。由此可见,人类作品是数据训练的资源,要发展人工智能产业首先要保护著作权人的权益。如果不能保护著作权,那么将削弱人类的原创动力,妨碍新作品的产生,人工智能产业的发展将陷入无源之水、无本之木的困境,失去持续发展的生机和活力。因此,在人工智能产业的发展过程中,必须给予著作权人适当的经济补偿,才能更好地激发其创作热情,促进优秀作品源源不断地产生,从而为人工智能模型提供新鲜训练素材,并推动人工智能产业的快速发展。
二、人工智能数据训练中著作权保护的合理性
近年来,越来越多的著作权人对于将作品作为人工智能训练材料这一寄生性使用表示严重关切,他们认为,人工智能服务提供者使用作品进行训练时既未获得许可也未支付报酬,这损害了著作权人的合法权益。但是,人工智能服务提供者及部分学者认为该行为属于合理使用行为而无需获得著作权人的授权。若该行为被界定为合法行为,则人工智能服务提供者无需获得著作权人的许可,反之则需要获得许可和付酬。如果不加分析地将所有的数据训练中使用他人作品行为都认定为合理使用,则会使合理使用制度沦为服务特定利益集团商业目标的工具,巩固技术垄断者的市场地位,牺牲单个作者的利益。所以,正确判断数据训练中使用他人作品的行为是否属于合理使用是解决问题的关键。
要判断使用作品的行为是否属于合理使用,需要考虑多种因素。《保护文学和艺术作品伯尔尼公约》第9条第2款、第10条、第10条之二及《与贸易有关的知识产权协定》第13条规定的合理使用判断方法是“三步检验法”,《美国版权法》第107条规定的合理使用的判断方法是“四要素判断法”,尽管二者存在一定的差异,但实质内容相同,“三步检验法”更原则化,“四要素判断法”是该原则的具体体现,也更具备可操作性。数据训练中对作品的使用包括作品获取、数据训练和结果输出三个阶段,在判断使用作品的行为是否属于合理使用时是将三个阶段结合起来进行全面分析还是分开进行分析,会得出不同的结论。如果将三个阶段分开分析,就会认为数据训练是将作品作为数据使用而不受著作权法的控制,但这一观点实际上割裂了使用作品行为与使用后果之间的关系,与合理使用判断方法相悖。所以,在对数据训练行为进行判断时不仅应关注作品的获取和数据训练行为,而且应关注生成内容的传播及其他商业利用行为,因为后者是真正影响版权作品市场的行为。因此,在判断数据训练中对作品的使用行为是否属于合理使用时,应当将作品获取、数据训练和结果输出三个阶段结合起来一起判断。下面本文将采用“四要素判断法”对使用作品进行数据训练的行为进行分析。
(一)使用作品的目的和性质
使用作品的目的和性质这一因素是合理使用判断的主要因素之一。具体而言,对该因素的判断主要从使用行为是否构成转换性使用、是否具有营利目的和是否善意三个方面来判断。
所谓转换性使用,是指在原作品的基础上增加了新理念、新风格、新表达等,从而使得原作品在使用过程中产生新价值、新特点或新功能。换言之,如果在原作基础上创作的新作品的使用目的和性质发生了变化,法院就可能认为新作品具有转换性,因为新作品如果目的和用途与原作相同则会在市场上替代原作品。就数据训练而言,人工智能服务提供者在数据训练中需要复制作品,这种复制属于“暂时复制”。人工智能服务提供者使用这些作品进行数据训练,并对机器学习模型进行参数调整或结构优化,使模型能够“学习”数据中的规律,以获得相应的成果。如果被复制的作品的表现形式没有在生成内容中出现,生成的结果属于内容转换后的新表达,那么这种复制就属于“非表达性使用”,即不向公众传播作品表现形式的使用,一般不会对作者利益造成损害。所以,这种非表达性使用属于转换性使用。例如,如果复制作品的目的是为了使模型学会区分小说、散文、诗歌等各种体裁的作品而不是生成与原作品实质性相似的内容,那么这种非表达性使用就属于转换性使用。这种使用不会产生明显的市场替代效应,可以构成合理使用。2025年6月,美国北加州地区法院在Bartz诉Anthropic PBC一案中指出,将本案所涉书籍用于数据训练是转换性使用,因为Anthropic开发的LLM模型是为了产出新的内容,而非简单复制、替代原作。反之,如果被复制的作品在生成内容中大量出现,甚至生成内容与原作品实质性相似,那么这种复制就属于“表达性使用”,存在侵权可能。在实践中,由于训练数据和算法模型的局限性,人工智能模型有时根据用户指令输出的内容可能与原作品构成实质性相似,那这种表达性使用就不构成转换性使用。例如,在“奥特曼”案中,涉案人工智能模型生成了与奥特曼形象高度一致的内容,该行为被法院认定为著作权侵权。
使用作品行为是否具有营利性是第二个考虑因素。若使用作品行为具有非营利性,一般被认定为合理使用。在实践中,一些人工智能服务提供者为了科研或教学目的使用作品进行数据训练,具有非营利性,其作品使用行为一般被认为是合理使用。但是,多数人工智能服务提供者使用作品进行数据训练是出于营利目的,即向用户收取使用生成人工智能服务的费用,那么这种使用作品的行为一般不能被认定为合理使用。然而,如果对作品的使用具有转换性且对原作品的市场不产生替代效应,那么这种营利性使用也可以被认定为合理使用。换言之,使用作品的转换性程度越强,其他因素在合理使用认定中被予以衡量的比重就越低,即使是商业性的使用也可能构成合理使用。在实践中,若将海量论文用于训练人工智能模型以便分析其他论文是否存在抄袭,那么对这些论文的使用具有较强的转换性。尽管论文查重行为具有营利性,但如果不损害原作品的市场,一般也构成合理使用。例如,美国第四巡回上诉法院在审理论文查重案件时指出,查重机构对学生论文的使用具有转换性,其目的是检测剽窃而非利用原作的表达内容。鉴于公共利益和教育目的,查重服务的商业性质并不影响合理使用的成立,查重机构在数据训练的过程中使用作品的行为没有对市场产生负面影响,因为这些作品通常不会出售,而且在使用中也没有产生原作品的市场替代品。
使用作品行为是否善意是第三个考虑因素。所谓善意使用,是指使用人应遵循作品使用的惯例而使著作权人不受损害。人工智能服务提供者在使用作品进行数据训练时,作品的获取应具有合法性。例如,《生成式人工智能服务管理暂行办法》第7条规定,开展数据训练应使用具有合法来源的数据和基础模型。如果采用一些非法手段获取作品,那么这种使用行为不宜被认定为善意使用。例如,一些人工智能服务提供者从网上获取他人作品时违反爬虫协议,规避、破坏技术保护措施或删除权利管理信息,这些行为不属于对他人作品的善意使用,也不能构成合理使用。例如,在“纽约时报”诉微软公司和OpenAI一案中,《纽约时报》采取的技术保护措施“付费墙”使用户无法阅读付费文章《雪崩:隧道溪的雪崩》,于是用户向ChatGPT发出指令以获取被“付费墙”遮挡的部分内容,ChatGPT最终以逐字复制原作品的方式向用户提供了被“付费墙”遮挡的内容。显然,ChatGPT的技术服务提供者破坏了《纽约时报》所采取的技术保护措施,并且非法获取了受技术措施保护的作品来训练其数据,那么这种使用作品的行为当然不属于对作品的善意使用。
(二)被使用作品的性质
被使用作品的性质这一因素对于合理使用的判断结果影响较小。根据版权法中的思想表达二分法,版权法只保护作品的表现形式而非内容,因此独创性较高的小说往往比事实作品受到更大的保护,使用此类作品构成合理使用的可能性更小。人工智能服务提供者在数据训练中使用的作品种类繁多,在判断使用行为是否属于合理使用时应当根据不同作品的特点进行分析。例如,在“唱片公司诉苏诺案”中,由人工智能模型苏诺(AI Suno)生成的歌曲与1961年刘易斯的《大火球》(Great Balls of Fire)有着相同的歌词和节奏。在作家协会诉OpenAI一案中,被告使用的大多数书籍都是虚构作品,这些作品独创性高而明显受到版权法的保护。所以,当人工智能生成内容大量复制独创性较高的歌曲、虚构作品时,不属于合理使用。此外,在进行数据训练时使用未发表的作品容易侵犯著作权人的隐私权和发表权,不能被认定为合理使用。如果人工智能服务提供者规避、破坏技术保护措施而获取他人未发表的作品进行数据训练,更不能构成合理使用。
(三)所使用部分的数量和重要性
合理使用判断的第三个因素是“所使用的部分在整个有版权作品中的数量和重要性”。首先,如果所使用的部分在整个作品中只占一小部分,使用的内容并非作品的实质部分,那么这种使用就属于合理使用,否则即属侵权。有时,法院还会将该因素与使用目的结合起来考虑,如果使用属于转换性使用,即使复制的内容偏多,也容易被认定为合理使用。相反,如果使用作品进行数据训练的目的是为了生成一个原作品的替代产品,新生成内容中复制原作品的内容过多,那么这种复制就不是合理使用。其次,如果经过数据训练后,他人作品的核心部分被复制为人工智能生成内容的主要部分,那么该使用就会影响原作品的市场销售而不属于合理使用。例如,2025年11月,德国慕尼黑第一地区法院就德国音乐演出和作品复制权协会(GEMA)诉美国OpenAI公司著作权侵权案作出一审判决,认定OpenAI未经许可使用受著作权保护的音乐歌词训练ChatGPT模型,模型“记忆”歌词的行为构成复制,当用户使用模型时在生成内容中大量、近乎原样地输出这些歌词,因此OpenAI的行为构成著作权侵权,判令其承担赔偿责任。
(四)使用对原作品潜在市场或价值的影响
合理使用判断的最后一个因素是“使用对原作品潜在市场或价值的影响”,该因素是合理使用分析中的主导因素,类似于“三步检验法”中的“与作品的正常利用不相冲突,也不得无理损害权利持有人的合法权益”要件。如果使用作品的行为不影响作品的潜在市场,那么该行为一般被视为合理使用,反之则不属于合理使用。该因素和第一个因素有很强的关联性,如果使用作品的目的具有转换性或非营利性,那么这种使用通常也被认定为合理使用,因为这一使用对原告作品的潜在市场没有明显影响。但是,如果以逐字复制的方式营利性使用原作品时,其使用行为必然会在原作品市场产生替代效应,从而损害原作品的市场利益。根据上述分析,如果人工智能服务提供者在数据训练中对作品进行转换性使用,那么训练中暂时复制作品的行为对于原作品的潜在市场或价值没有明显影响,通常被认定为合理使用。但是,如果在数据训练中不进行转换性使用,而是生成了与原作品实质性相似的内容,那么生成内容可能成为原作品的替代品而影响原作品的潜在市场,此种使用就不属于合理使用。例如,用户利用人工智能模型生成与原作品实质性相似的“奥特曼”图案,可能会对原作品产生实质替代效应,从而构成著作权侵权。在“纽约时报”诉微软公司和OpenAI一案中,用户可以使用ChatGPT模型轻松且免费地生成《纽约时报》作品的摘要,其内容近乎原文的逐字复制,这将使用户不再需要向《纽约时报》购买访问权限,从而削弱了出版商继续为其新闻工作提供资金的动力。根据上述分析,若数据训练中使用作品的行为影响了原作品潜在市场,那么该行为就不属于合理使用。
综上所述,数据训练中使用他人作品行为的合法性问题非常复杂。一部分使用作品的行为符合合理使用的构成要件并应被视为合法行为,另一部分行为不符合合理使用的构成要件。在前一种情形中,作品使用人既不需要获得著作权人的许可,也不需要向其支付报酬。但在后一种情形中,作品使用人应当获得著作权人的许可且向其支付报酬。例如,下列使用作品的行为不符合合理使用的构成要件,使用人应当获得许可并支付报酬:一是通过规避、破坏技术保护措施等非法手段获取作品进行数据训练,甚至使用未发表作品进行数据训练的行为;二是在不构成转换性使用的情形下,以营利为目的使用作品;三是使用原作品的数量和质量超过合理的限度,生成内容与原作品实质性相似而产生了替代效应,对著作权人造成了实质损害的行为。
三、人工智能数据训练中著作权保护的可行性
使用作品进行数据训练既涉及著作权人的利益也涉及人工智能服务提供者的利益,因此在处理该问题时既要保护著作权人的合法权益,也要兼顾人工智能服务提供者的利益。这是因为,如果过于强调人工智能产业的创新而忽视著作权人的利益,将会削弱人类的创造力;如果过于强调保护著作权人的利益而忽视人工智能产业的创新,将会阻碍人工智能应用的发展。所以,本文建议根据数据训练过程中使用作品的方式来确定是否付酬以及如何付酬。如果数据训练中使用他人作品的行为符合合理使用的构成要件,那么人工智能服务提供者不需要获得著作权人的许可,也不需要向其支付报酬,反之,则需要获得许可和支付报酬。支付报酬的方式包括两种路径:一是自愿许可方式。即人工智能服务提供者与著作权人就数据训练中使用作品的行为达成自愿许可协议,并且依照约定支付报酬。该方式充分体现了双方的意思自治,应当优先适用;二是法定许可方式。如果人工智能服务提供者与著作权人不能达成协议,则采用法定许可方式,也即根据法律规定的条件在使用作品后及时支付报酬。法定许可方式是自愿许可方式的补充。下文将分别讨论合理使用规则、自愿许可规则及法定许可规则的可行性。
(一)合理使用规则的可行性
如前所述,在使用他人作品进行数据训练的行为中,一些行为符合合理使用的构成要件应被视为合法行为。目前,尚无国家明确将此类行为规定为合理使用行为,美国等少数国家在司法实践中是根据合理使用的标准来判断某一行为是否属于合理使用,法官的自由裁量权较大。我国著作权法有关合理使用的规定采取的是封闭式列举的立法技术,即合理使用的情形限定在《著作权法》第24条列举的12种具体情形以及法律、行政法规规定的其他情形。在认定某种行为是否构成合理使用时,还需要结合“三步检验法”来综合考量。由于《著作权法》第24条没有将人工智能数据训练中使用他人作品行为纳入合理使用的情形,因此人工智能服务提供者使用他人作品进行数据训练就存在侵权风险。换言之,人工智能服务提供者可能会利用该制度大量获取和使用作品进行数据训练而不给予补偿,这不仅会对著作权人的原作品市场造成损害,长此以往还会进一步损害公共利益。因此,有必要在《著作权法》或《著作权法实施条例》中对此进行规定,严格界定人工智能数据训练中使用他人作品行为的合理使用情形,以防止人工智能服务提供者以合理使用为借口而拒绝向著作权人支付报酬。首先,结合合理使用的判断规则看,学校、科研院所等非营利单位为了教学、科研需要使用他人作品进行数据训练,或者个人为了学习或研究目的使用他人作品进行数据训练,对于著作权人的利益不会造成实质损害,一般都可视作合理使用。其次,在数据训练中对他人作品进行转换性使用,即使具有营利目的,对原作的潜在市场或价值影响不大,一般也应视为合理使用。为此,本文建议在修改《著作权法》或《著作权法实施条例》时参考“三步检验法”标准增加新的条款,将上述使用他人作品进行数据训练的行为纳入合理使用情形。具体来说,此类行为应符合如下条件:(1)使用他人作品进行数据训练的目的限于非营利性使用或转换性使用。这样就可以使学校、科研机构等非营利性单位能基于公益目的免费使用他人作品进行数据训练,可以使个人为了学习或研究目的而免费使用他人作品进行数据训练,还可以使一些对作品进行转换性使用的企业免于承担侵权责任;(2)被使用的作品应限于已发表的作品且通过合法途径获得;(3)使用他人作品进行数据训练应当公开被使用的作品名称、作者姓名或者名称;(4)使用他人作品进行数据训练不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益。通过上述规定,一方面将合理使用的情形严格限于一定的范围来保护著作权人的合法权益,另一方面也可以使少数个人和单位在满足一定条件的情况下免费使用作品进行数据训练,减少了人工智能技术运用中的作品使用成本,从而推动人工智能技术的创新。
(二)自愿许可规则的可行性
自愿许可是指人工智能服务提供者在使用有版权作品进行数据训练时必须事先获得许可,向著作权人支付报酬。其优点在于,由于在数据训练中著作权人保留了对作品的控制权,人工智能服务提供者不获得著作权人许可就无法使用作品进行训练,而且需要披露训练中使用作品的情况,从而迫使人工智能服务提供者与著作权人谈判并在公平合理的基础上达成合作。显然,这种方案构建了最严格的著作权保护机制,对于保护著作权人的利益最为有利。而且,双方的合作充分体现了意思自治原则,所达成的合作协议也容易得到执行。例如,OpenAI在认识到新闻的价值后已从英国《金融时报》、美国美联社、德国阿克塞尔施普林格报业、法国《世界报》等媒体获得了使用作品进行数据训练的授权,并支付了相应的使用费。还有一些代表著作权人的著作权集体管理组织和人工智能企业建立了密切的合作关系,许可后者在数据训练中使用著作权人的作品并要求支付一定的报酬,从而最大限度地保护了著作权人的利益。当然,也有不少人对自愿许可提出了质疑,认为自愿许可的成本太高、效率低下。首先,人工智能服务提供者在数据训练中使用了海量作品,若要求使用每件作品都需要通过谈判获得许可,那么寻找著作权人及协商的成本太高,效率低下,事实上难以做到。其次,作品使用费难以支付给每个著作权人。由于数据训练中使用的作品数量太大,人工智能服务提供者难以向每位著作权人付酬。如果通过著作权集体管理组织来授权和收费,虽然便于分配作品使用费,但难以向非会员著作权人支付报酬。而且,著作权集体管理组织管理的作品数量和种类有限,难以满足数据训练的要求。本文认为,尽管为数据训练获得著作权人许可的成本和难度较大,但这是人工智能服务提供者从事经营的成本。而且,一些人工智能服务提供者还从使用人工智能模型的用户那里获取了巨额的利润,足以支付给著作权人合理的报酬。要应对上述问题,关键是要制定有效的解决措施。
(三)法定许可规则的可行性
法定许可是指在法律规定的条件下,人工智能服务提供者在使用有版权作品进行数据训练时无需事先获得许可,但应向著作权人支付报酬。法定许可的立法宗旨在于促进最大化地利用作品,同时确保著作权人因作品的商业利用而获得合理的报酬。从性质上讲,法定许可是一种介于独占权和版权例外之间的一种机制,将独占许可权转化为获得报酬的权利,因此它是一种责任规则而非财产规则。通过这一机制,可以赋予著作权人合理的报酬,鼓励人们继续创作新的作品。该机制的可行性体现在:
1.充分保护著作权人的获酬权。一部分人工智能服务提供者不愿意与著作权人或著作权集体管理组织就数据训练中使用作品行为达成许可协议,这样就无法保护著作权人的获酬权。但是,若将使用作品进行数据训练的行为纳入法定许可使用情形,则根据法律的规定,人工智能服务提供者使用作品后必须付酬,从而使著作权人能够从数据训练中获取一定的报酬,有利于激励其创作积极性。
2.有利于促进作品的利用。人工智能服务提供者在数据训练中使用海量作品。若采用自愿许可机制,协商成本高,效率低下,付酬难。若采用法定许可机制,则人工智能服务提供者无需经过版权人的许可,只需支付法律规定的使用费即可使用作品进行数据训练,从而省去了使用作品的搜寻、来源识别、协商谈判等成本,大大简化了作品交易程序,提高了交易的效率,促进了作品的利用和传播,也满足了数据训练中规模化使用作品的需求,有利于促进人工智能产业的发展。
3.明显降低侵权风险。若采用自愿许可机制,人工智能服务提供者如果不能获得著作权人的许可,未经许可的数据训练行为将被认定为侵权行为,难以继续进行下去,从而妨碍人工智能产业的发展。若采用法定许可机制,人工智能服务提供者可以根据法律规定的条件使用作品进行数据训练(除非著作权人以声明方式退出法定许可使用机制),这样就大大减少了侵权的风险,也促进了人工智能产业的发展。当然,也有学者对法定许可提出了质疑。一是付酬标准难以确定。政府部门难以确立合适的作品利用付酬标准,特别是在数据训练中使用的作品数量极大,独创性高低参差不齐,如何衡量价值并设定许可价格存在困难。二是难以实施。人工智能公司在数据训练中常常擅自使用作品而不付酬,著作权人难以发现,从而使法定许可机制形同虚设。三是著作权集体管理制度尚不完善。我国著作权集体管理制度尚存在运行成本较高、使用者对著作权集体管理组织缺乏信任等问题,难以配合法定许可制度的实施,也难以将补偿费用基于个人权利“精准”地划分给个人。本文认为,尽管法定许可实施中存在一些问题,但毕竟为保护著作权人的利益提供了一条新的路径,关键是要完善相关的措施来保障这一制度的实现。
四、人工智能数据训练中著作权保护的可实施性
如前所述,对于人工智能数据训练中使用他人作品的行为,应根据行为的类型分别适用合理使用规则、自愿许可规则和法定许可规则。上述规则均有一定的合理性和可行性,但需要提升其可实施性,即在现实生活中能够落实推广。就合理使用规则而言,可以通过修改著作权法来提高其可实施性。但是,自愿许可规则和法定许可规则比较复杂,需要完善相关配套措施。下面分述之。
(一)自愿许可规则的可实施性
1.设立分层付酬机制。首先,人工智能数据训练中使用他人作品的行为,若符合合理使用规则,则适合该规则,但立法上应当严格限制适用的条件,以免人工智能服务提供者规避法律的规定。其次,若数据训练中使用他人作品的行为不符合合理使用规则,则使用人应获得著作权人的许可并付费。人工智能服务提供者与著作权人可以达成自愿许可协议,依照约定支付报酬。如果不能达成协议,则人工智能服务提供者应根据法定许可规则付酬。这样一来,人工智能服务提供者必须承担付酬责任,从而迫使其尽早与著作权人达成协议。
2.完善著作权集体管理制度。人工智能数据训练中使用了海量的作品,人工智能服务提供者与著作权人一一谈判的成本和难度很大,只适用于个别情形。如果由著作权集体管理组织代表著作权人与人工智能服务提供者谈判,可以大大降低使用作品的搜寻成本、交易成本和法律风险,同时增强著作权人的维权能力,促进交易的顺利进行。著作权集体管理组织应做好如下几方面工作:(1)及时与人工智能服务提供者就付酬问题进行谈判。在付酬标准上,著作权集体管理组织应根据作品被使用的情形及市场因素和人工智能服务提供者协商合理的付酬标准。若协商不成,可以通过申请仲裁或诉讼的方式解决。在付酬方式上,一般采取“事前授权、使用付费”的交易模式。但是,对于一些弱小的人工智能公司,也可以通过协商采取先使用后付酬的办法,将公司未来收入的一部分用来支付作品使用费。著作权集体管理组织可以以一揽子许可的方式将管理的作品集中许可给人工智能服务提供者使用并代表著作权人收取合理的报酬,从而在保护著作权人合法权益的同时也使人工智能服务提供者有充足的作品可以进行数据训练。(2)及时收取作品使用费。当付酬协议达成后,著作权集体管理组织应及时从人工智能服务提供者处收取作品使用费,同时应主动收集作品使用情况的报告。(3)及时分配作品使用费。对于收取的作品使用费,著作权集体管理组织应及时进行分配,使著作权人获取合理报酬。应建立一个功能完善的使用费清算系统,采用区块链技术帮助收费和分配,以提高效率并降低交易成本。(4)引入延伸集体管理制度。由于我国著作权法没有规定延伸集体管理制度,著作权集体管理组织无法对非会员著作权人的作品进行管理。为此,本文建议我国在条件成熟的情况下引入延伸集体管理制度,使非会员也能从数据训练中获得作品被使用的报酬。当然,根据意思自治原则,如果这部分会员不愿意其作品被延伸管理,可以用书面声明的方式拒绝。
3.建立信息披露机制。人工智能服务提供者在数据训练中获取和使用了海量的作品,但著作权人并不清楚自己的作品被使用的情况,无法提出付酬要求。所以,要合理收取和分配使用作品的费用,应当建立信息披露制度。具体而言,人工智能服务提供者应当保存用于数据训练的作品的详细记录并及时向著作权人或著作权集体管理组织披露,著作权人或著作权集体管理组织也有权获取作品被用于训练的完整记录,以便清楚地了解作品被使用的情况并提出付酬要求。例如,《欧盟人工智能法案》第53条第1款d项就规定了人工智能服务提供者的披露义务,即使用人应当根据人工智能办公室提供的模板,起草并公开提供一份用于通用人工智能模型训练内容的足够详细的摘要。可见,信息披露义务的设定打破了数据训练中的黑箱状态,便于著作权人和著作权集体管理组织及时查阅作品被使用的数据并向人工智能服务提供者收取作品使用费,也使版权主管部门能有效监督,从而保护了著作权人的获酬权。为了获取真实的信息,未来应利用区块链等新技术对于作品使用情况进行记录。
4.建立退出机制。为了避免人工智能服务提供者未经著作权人允许使用其作品进行训练,应构建退出机制,即当著作权人发现人工智能模型输出与其作品相同或实质性相似的生成内容时,有权向人工智能服务提供者发出通知,要求将其作品退出数据训练。在通知中,著作权人应提供其作品的版权信息、生成内容的信息以及两者的实质性相似情况。在收到通知后,人工智能服务提供者若认为通知的内容属实,必须立即从数据集中删除著作权人的作品,采用过滤技术或“遗忘”技术以防止人工智能模型再次输出类似内容,并将实施上述措施的情况通知著作权人。若人工智能服务提供者收到通知后不采取上述措施,将承担一定的法律责任。其优点在于:一是有利于保护著作权人对作品的控制权。若采取选择退出机制,能够迫使人工智能服务提供者披露作品被用于数据训练的详情以及生成物的信息,使著作权人能够收回对作品的控制权以保护其获酬权。二是促进合作。在收到著作权人通知后,人工智能服务提供者需要确定在数据训练中是否使用了著作权人的作品。若情况属实,人工智能服务提供者可以与著作权人进行协商,研究如何对于著作权人进行补偿。如果双方对沟通结果不满意,还可以通过仲裁或诉讼来解决分歧。所以,退出机制旨在以多种方式减少侵权活动对著作权人利益的损害。三是为著作权人提供了一种比较简便、高效的程序,降低了维权成本。
(二)法定许可规则的可实施性
1.协调好与自愿许可规则的关系。若数据训练中使用他人作品的行为不符合合理使用规则,则人工智能服务提供者应承担付费义务。在双方不能达成自愿许可协议的情况下,才采用法定许可规则。但是,如果给予较长的达成协议的时间,则人工智能服务提供者或著作权人往往会拖延时间,不利于矛盾的解决。为此,本文建议立法中应明确规定达成协议的期限,人工智能服务提供者使用他人作品进行数据训练后半年内应与著作权人就付酬达成协议。如不能达成协议,则应根据法定许可规则付酬,从而避免著作权人的利益落空。
2.合理确定法定许可的付酬标准。人工智能服务提供者使用他人作品进行数据训练应根据什么标准支付报酬是立法中的难点。若付酬标准高于市场定价则使用者倾向于与著作权人进行协商谈判来确定交易价格,削弱了该制度的低交易成本优势。反之,若付酬标准低于市场定价,则版权人难以获得公平报酬。因此,付酬标准的确定必须合理。所谓合理报酬是指,它既能为版权人提供合理的补偿,又能使被许可人正常运营其业务,促进作品的持续创作和传播。目前,学者们就法定许可付酬标准的制定提出了两种观点:一种观点认为应当由国务院相关部门确立,且费率标准一般应当低于协商许可的定价,这不仅可以降低协商成本,保留法定许可制度的效用,而且不会对技术研发者造成过强的负担,损害中小企业的技术创新;另一种观点认为应确定付酬协商机制,由双方当事人平等协商,协商不成的,则通过仲裁或诉讼确定使用费率。本文认为,使用作品进行数据训练在实践中引发了诸多争议,多数著作权人难以和人工智能服务提供者就作品使用问题达成付酬协议。在此情况下,国家著作权主管部门有必要及时介入交易市场,适用法定许可机制,制定合理的付酬标准,以缓解市场失灵问题。由于法定许可制度所确定的付酬标准就是著作权人能获得的版税上限,因此在制定付酬标准时既要考虑付酬标准的制定程序,也要考虑使用作品的相关因素。在制定程序方面,我国法定许可的收费标准通常由行政机关事先确定,与作品在市场交易中灵活定价的需求不相适应,收费标准也远低于著作权交易的实际水平。首先,为了克服这一缺陷,国家著作权主管部门可以组织有代表性的著作权人及著作权集体管理组织与人工智能服务提供者就作品使用问题进行谈判,以估算市场中的付酬标准,尽可能反应客观的市场价格,在此基础上制定合理的付酬标准。著作权集体管理组织与单个著作权人相比拥有更强的议价能力,能够争取到更优的条件。其次,国家著作权主管部门也可以参考市场中通过谈判达成的自愿协议来制定付酬标准。例如,最近OpenAI通过向十余家新闻机构支付约2.5亿美元(约合人民币18.1亿元)的许可费用,与新闻机构达成了五年的作品使用协议。这种约定许可费用为法定许可付酬标准的制定提供了一定的参考。再次,付酬标准的制定需要考虑有版权作品的使用情况。例如,数据训练中使用作品的类型、数量和价值、人工智能模型的应用对于原作市场可能产生的影响、相关行业的市场惯例、人工智能服务提供者从广告、订阅费或其他用户付款中获得的收入等因素。
3.详细规定作品使用费的收取和支付办法。人工智能数据训练中使用了海量的作品,著作权人很难维护其利益,必须借助著作权集体管理组织来维权。因此,立法上应规定,除当事人另有约定或法律另有规定外,使用他人作品进行数据训练,人工智能服务提供者应当依法向著作权人支付报酬,报酬自使用作品进行数据训练之日起一年内支付。如未按照上述规定向著作权人支付报酬,人工智能服务提供者应当将报酬及使用作品的有关情况交给相关的著作权集体管理组织。支付的报酬到账后,著作权集体管理组织应当及时按相关规定向著作权人转付,并及时在其网站上公告人工智能服务提供者使用作品的有关情况。著作权集体管理组织收转报酬,应当编制报酬收转记录。使用作品的有关情况包括使用作品的名称、作者(包括原作者和改编者)姓名、作品字数、出版时间等。人工智能服务提供者按照上述规定将相应报酬转交给著作权集体管理组织后,对著作权人不再承担支付报酬的义务。如未按照上述规定支付报酬的,应当承担停止侵权、消除影响、赔礼道歉、赔偿损失等相关民事责任。
4.设立法定许可的退出机制。如果著作权人不愿意采用法定许可方式,可以向人工智能服务提供者发出通知,要求将其作品退出数据训练,并表明不接受法定许可规则,人工智能服务提供者应尊重其意愿,不得再使用其作品进行数据训练。如果的确需要使用著作权人的作品进行数据训练,人工智能服务提供者还可以通过自愿许可机制获得著作权人的授权,此时应签订自愿许可协议并向著作权人支付约定的报酬。反之,若著作权人未选择退出,则默认适用法定许可机制。当然,如果著作权人不同意采取自愿许可方式或法定许可方式,那么人工智能服务提供者不得使用其作品进行数据训练。此外,完善著作权集体管理制度及信息披露机制的建立也很重要,因为法定许可模式的成功与否,很大程度上取决于信息披露规则的构建及其在实践中的贯彻效果。关于上述两类制度的具体内容,可以参考前文的论述。
结 语
在人工智能时代,生成式人工智能技术以前所未有的速度颠覆了作品的创作过程,未经许可而使用作品进行数据训练的行为在一定程度上损害了著作权人的合法权益。为了维护社会公平,保护著作权人的合法权益,应当对上述行为进行法律规制。在立法上,应当根据数据训练中使用作品的方式来确定是否付酬以及如何付酬。首先,应当严格界定不需要付费的合理使用情形。其次,如不符合合理使用构成要件,人工智能服务提供者应支付报酬。在支付报酬的方式上优先适用自愿许可方式,法定许可方式作为补充。为了落实上述制度,还应完善著作权集体管理制度,建立信息披露机制、退出机制等配套制度。在观念上,不应平等保护人类作品与纯人工智能生成内容,以体现以人类作者为中心的版权理念。尽管实施上述制度困难重重,但这一探索对于保护著作权人合法权益意义重大,因为它确立了营利性使用作品进行数据训练一般应付酬的理念。
(因篇幅所限,省略原文注释及参考文献)
