核心提示:人工智能发展到现阶段,与之相关的训练数据来源合法性争议在全球凸显。美国加州一法院对两件涉及人工智能大模型训练的裁判要点引发广泛关注。有学者建议,对生成式人工智能使用版权问题,应在输入端认可训练数据的合理使用,在输出端禁止生成与原作品实质性相似的内容,还可探索版权人补偿机制,以平衡产业利益。
人工智能(以下简称AI)训练数据领域版权“合理使用”问题有了新进展。近期,美国加州一法院对两件涉及AI大模型训练,使用未经授权的版权内容案件作出简易判决,认定“扫描合法购买的纸质书籍将其数字化后用于人工智能大模型训练”属于合理使用、“利用bt种子下载盗版图书用于人工智能大模型训练”属于合理使用、“从盗版网站下载数百万书籍构建自身永久性的数字图书馆”不构成合理使用等。这些裁判要点引发国内学界、业界广泛关注。
从国内来看,目前,尚没有书籍、图片、新闻等版权方与AI训练数据相关的侵权纠纷判决,但同样面临如何合理使用海量版权数据问题。
AI发展到现阶段,与之相关的训练数据来源合法性争议在全球凸显。华中科技大学法学院副院长熊琦教授在谈到这一问题时,用“教会徒弟,饿死师父”来比喻此间的纷争,究其本质,仍是因技术产业发展所导致的版权产业与新兴产业在利益分配上的博弈。

“合理使用”规则在AI训练数据中面临大考
AI训练数据中涉及的版权问题首当其冲的是“复制权”。熊琦介绍,早期有种观点认为,AI训练数据使用版权内容用于机器学习,属于“非表达性使用”,不构成著作权法意义上的复制,故,不需要讨论侵权问题。但根据当前已生效的判决,以及美国和欧盟陆续公布的相关权威报告,现阶段的共识是,AI通过学习海量作品掌握了人类语言逻辑、美术风格等内容,能够生成人类的表达,这种在机器学习阶段对作品的实质性利用应被认定构成“复制”。在构成“复制”的前提下,“合理使用”的判定就成为是否构成侵权的争议焦点——若不构成合理使用,AI企业需向版权人支付费用;反之,则可免费使用。
作为著作权法中的重要规则,“合理使用”制度允许在特定情况下,可以不经著作权人许可,使用其已经发表的作品,且无需向著作权人支付费用。
北京市环球律师事务所合伙人孟洁律师介绍,在十三位作家控告Meta公司未经授权使用其受版权保护的作品训练Llama大语言模型案中,美国法院依据四要素——使用目的与性质、作品性质、使用量与实质性、对原作潜在市场的影响来判定是否构成合理使用。其中,核心且具有张力的是,“是否具有转化性目的”这一要素,它赋予了法官在应对新类型问题时的较大解释空间。
熊琦介绍,在美国近期涉及机器学习的判例中,判定构成“合理使用”的重要标准之一是使用目的的转换性。在AI训练数据的使用场景中,企业使用版权作品的目标,是通过训练算法以生成新内容,而并非直接享受作品创作原初的使用目的。这种目的上的转换性在美国法院的判决中已被认定为合理使用。欧盟在《数字单一市场版权指令》中设计了文本与数据挖掘(TDM)机制,规定以科学研究为目的进行文本与数据挖掘构成合理使用。同时,在另一款允许商业性的文本与数据挖掘例外条款中,指令赋予著作权人“选择—退出”的程序,即著作权人可以提出声明不能对其作品进行文本与数据挖掘。
我国著作权法2020年修改后,第二十四条有了新的变化,以列举形式规定了在“指明作者+作品名称+不影响作品正常使用+不得不合理地损害著作权人的合法权益”的前提下,构成合理使用的情况,对AI训练数据相关的新的类型行为未列入其内。
“在当前AI训练使用版权内容问题上,各法域的‘合理使用’规则都面临大考。”孟洁认为,目前,国内著作权法合理使用条款的规定,对AI训练使用版权作品的适用空间很小。但根据2011年12月20日最高人民法院发布的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》(以下简称《意见》)第8条,存在与美国四要素模式相似的适用解决空间。
《意见》第8条规定,在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。
对原作品的替代性影响成为关键
“人工智能是20世纪60年代即已诞生的概念,近年来,人工智能应用的突破和普及,并非主要得益于算法技术的颠覆性发展,而是算力的显著提升和大数据的助力,推动生成式人工智能时代的真正到来。”熊琦表示,当下AI生成的内容足以与人类创作一较高下,甚至取而代之,加之AI在应用端的大规模普及,版权人与AI企业间矛盾也开始凸显,博弈便不可避免。
在美国法院的两例判决中,AI开发公司在未获得授权许可而使用版权作品的情况下,如何获取原作品也是关注热点。其中一案认定下载盗版图书进行AI训练被认定为合理使用。对此,孟洁认为,这一判决情况成为未来普遍的司法裁判尺度的可能性不高。在欧盟TDM机制下,即使规定相关场景及条件下,允许不经授权进行文本和数据挖掘用于AI训练,但获取原作品的途径方式等,仍是判断是否构成合理使用的前提。
熊琦认为,单从输入端即AI训练数据这一过程来看,从鼓励人工智能产业发展的立场角度考量,目前,日本、新加坡在法律政策上给予了AI企业极大力度支持,直接放开了训练数据阶段对版权作品的使用限制。但从输出端来看,如果AI生成内容与原作品构成实质性相似,则AI生成内容即可能对原作品的著作权市场产生替代,当然就不构成合理使用。
孟洁表示,国内目前已生效的AI版权相关诉讼案件判决中,比如广州互联网法院审理的“奥特曼案”、长沙市中级人民法院审理的全国首例AI文生视频案等,被告最终被判定构成侵权的核心还是聚焦在输出环节存在对作品的复制改编情形。美国Meta案中,法院在说理部分亦强调:如果原告能够充分论证被告的使用行为会对原告作品产生实质性的替代效果(即对原告作品潜在市场的影响),则其能够在“合理使用”问题上胜诉。
AI训练数据的版权问题待解
孟洁表示,在AI和版权人博弈问题上,“利益鸿沟”问题是版权人斗争的根本出发点。虽然,近期美国法院判决显现AI在“合理使用”的博弈中略呈上风态势,但利益相对均衡的商业形态才能更长久,“合合”才能共赢。
“是否构成合理使用,是否构成侵权,目前仍需要根据个案来具体认定。”熊琦表示,尽管美国已有AI训练数据领域版权纠纷相关的判决,但仍有大案悬而未决,比如《纽约时报》诉微软和OpenAI案,《纽约时报》就OpenAI公司的ChatGPT和微软公司的Copilot在未经许可且未付费的情况下,非法复制和使用其数百万篇原创文章,以侵犯版权为由起诉。美国作为AI产业与版权产业均高度发达的国家,在这个代表性案例中如何平衡两大产业间利益,备受关注。
孟洁提到,欧盟TDM机制在适配和解决AI训练使用版权作品问题上已逐渐体现出一些不足。比如已有大量版权人利用“选择—退出”程序来避免被AI开发者无偿使用其作品。从而有观点认为,TDM机制导致了“双输”的经济效果,不是该问题理想的解决方案。
对生成式人工智能使用版权问题,熊琦认为,应坚持“宽进严出”原则,在输入端认可训练数据的合理使用,以推动AI产业发展;输出端严格禁止生成与原作品实质性相似的内容,避免侵权。同时,还可探索版权人补偿机制,比如由AI企业向著作权集体管理组织支付使用费用,平衡产业利益。
孟洁表示,AI训练使用版权作品的获取方式,最理想的状态一定是授权使用,在授权的过程中双方可以就包括输出端在内的合作方式作更多模式探讨,事实上目前也已有越来越多的授权合作实践了。比如OpenAI正在开发ChatGPT中的支付结账系统,这意味着人工智能产品作为新的流量入口的时代日渐到来。
“我国也要在法律层面为AI产业发展留足空间。”熊琦建议,针对我国现行著作权法中合理使用条款缺乏对AI训练的相关规定,可通过立法调整扩大法律解释空间,例如在《中华人民共和国著作权法实施条例》中增设与文本和数据挖掘相关的内容条款,以备未来发展之需。
(北京市环球律师事务所律师柳玉清对本文亦有贡献)