大模型训练问题存在于生成式人工智能生命周期的伊始,如不能妥善解决,大模型的研发便始终处于备受争议的状态。在近日举行的“涉大模型著作权法问题研讨会暨人工智能相关案件的司法应对研究课题开题会”上,与会嘉宾围绕大模型训练中的作品使用问题,从多个角度进行了探讨。
厘清问题还需溯清源头
众所周知,人工智能之所以能够高效且准确地生成逻辑性内容,得益于其背后持续深度学习的大模型。然而,大模型的训练语料源自海量数据的搜集与整合,这一过程潜在地触及侵犯个人、企业合法著作权权益,乃至公共利益的法律风险。
北京大学法学院教授、北京大学武汉人工智能研究院副院长张平认为,看待此问题需要调整视角。“以往我们在探讨知识产权问题时,往往以结果为导向,关注侵权行为及其法律后果。然而,随着人工智能技术的兴起,我们必须将焦点前移至数据的获取和使用阶段,从源头上追究其合法性。”张平说。
除此之外,张平还观察到了当前AI训练数据面临高质量数据授权难的困境。她提到,音乐、视频、图书等高质量数据均受《著作权法》保护,授权过程复杂且受限,数据购买虽可行,但难以获取全部所需数据;爬虫技术获取的数据质量参差不齐,且易涉及版权问题;公有领域数据虽可用,但受国际贸易壁垒和贸易保护主义影响,中国企业和个人常受限。
摸清情况,方可对症下药。新浪集团法务部诉讼总监张喆指出,在探讨大模型训练中的法律问题时,人们往往将作品与数据混为一谈,这导致了许多复杂问题的产生。在讨论这一问题时,必须将作品与数据区分开来。张喆进一步解释了作品与数据的区别。以微博为例,如果想要获取微博上的文字信息,可以直接复制粘贴,但如果想要从数据层面获取,则需要通过爬虫技术获取代码。这种区分对于判断行为是否侵权以及确定保护路径至关重要。张喆还强调了大模型训练中的获取、输入、输出和使用4个环节中,获取环节尤为重要,因为它决定了后续行为的合法性。
中国社会科学院大学法学院副教授、中国社会科学院大学互联网法治研究中心主任刘晓春认为,人工智能训练数据的使用并非针对特定作品的使用,而是一种非特定性、过程性的使用。刘晓春建议将这种非特定性使用行为从传统的复制行为中排除出去,并强调人工智能工具可能成为一个非常基础性的增强型工具,其后续衍生式创新情况可能非常多。
华东政法大学法律学院教授王迁指出,中国目前缺乏成熟的集体管理机制和工会集体谈判机制,如果要求人工智能企业使用作品训练AI必须经过许可,这可能会导致许可难题。
多国经验提供参考
人工智能发展脚步飞速,目前各国版权立法尚未能作出针对性的调整,但一些国家为促进本国新兴产业发展,已经进行了探索。
中国人民大学法学院副教授、中国人民大学未来法治研究院执行院长张吉豫指出,随着数字科技的飞速发展,各国版权制度都在不断适应这一变化。例如,日本在《著作权法》中引入了非享受性使用例外,欧盟在数字单一市场版权指令中特别规定了两种类型的文本数据挖掘利用,而美国则主要通过合理使用四要素来进行判断。相比之下,我国在合理使用制度上还需进行进一步的价值判断和具体回应。
北京市律师协会数字经济与人工智能领域法律专业委员会副主任、北京市海淀区律师协会网络与高新技术研究会副主任吴凡表示,国内外在大模型训练阶段由版权所引发的纠纷层出不穷,这一问题不仅关系到模型训练的合法性,也决定了后续人工智能输出的正当性。
王迁表示,人工智能大模型在训练过程中,往往需要使用大量作品作为数据支撑,这一行为多数情况会涉及对作品的永久性复制。在著作权领域,永久性复制通常被视为受复制权控制的行为,因此,关于使用作品训练人工智能是否构成侵权,或是否属于合理使用,在国内外学术界均存在争议。尽管我国《著作权法》中关于合理使用的相关规定,现有权利限制中并没有直接适用于人工智能训练数据的情形,特别是“研究性使用”这一合理使用情形,其主体通常为“个人”或“科研人员”,而人工智能训练数据的使用往往出于商业目的,不符合这一条件。
厦门大学知识产权研究院教授龙小宁则从经济学角度对人工智能训练中的作品使用问题进行了分析。他比较了美国和欧盟在应对人工智能法律挑战时的不同路径,并指出美国虽然未推出AI相关法律,但其AI产业高速发展;欧盟虽然出台了系列AI相关法律文件,但其产业发展相对缓慢。龙小宁认为,这对我国提供了启示,即在对待人工智能法律问题时,可以选择对现有法律进行修订,添加例外条款,以减少限制;或者针对人工智能制定新法,以规范产业发展。
寻找适合中国的解决方案
无论是出于激励作品创作的目的,还是着眼于促进国内生成式人工智能产业的发展,解决大模型训练中的作品使用的问题都具有现实必要性。
在探讨模型训练阶段版权问题的解决方案时,吴凡建议,人们需要区分阶段和行为来逐一讨论模型训练中的版权问题。同时,他也强调了建立训练库或语料库的重要性,并指出了在作品输入或存储环节中需要关注复制权的问题。此外,他还提到了为权利人保留退出机制和补偿机制的重要性。
王迁提出了在《著作权法实施条例》中新设一项权利限制的建议。他认为,至少在一定时间内允许人工智能企业使用作品来训练人工智能是可行的,但需要在盈利后探讨利益分享机制。
北京大学法学院教授、北京大学国际知识产权研究中心主任易继明指出,合理使用制度在人工智能训练数据使用中具二元价值:保障公共利益和言论自由。他强调,分析合理使用需考虑双重构造:基于目的、使用性质的场景转换,以及基于技术变革的转换性使用(可能构成“二次创作”)。他建议结合产业发展实践,形成符合中国国情的著作权保护制度,以促进人工智能技术健康发展。
“随着人工智能技术的不断发展,著作权领域的问题将越来越凸显。我们需要法学界、实务界和技术界共同努力,加强合作与交流,共同探索更加完善的版权保护制度,为人工智能技术的健康发展提供坚实的法律支撑。”北京知识产权法研究会副会长兼执行秘书长、北京市海淀区律师协会副会长吴子芳表示。