随着数字时代和人工智能的蓬勃发展,以大量数据集为核心的语料库成为人工智能大模型产业发展的基石与动能。语料库具有极高的产业经济价值。据统计,2023年全球人工智能训练数据语料库市场规模价值达23.9亿美元。
基于数据与作品的价值重叠,以及人工智能服务提供者与语料提供者的主体分离,语料库获取作品数据的行为在国内外引发了诸多版权争议。

作者简介:付丽霞,女,法学博士, 中南财经政法大学知识产权研究中心讲师,德国马克斯·普朗克创新与竞争研究所访问学者。
规则不明引数据使用纠纷
在人工智能语料库的建设过程中,语料数据的合法获取是目前争议较大的版权难题。究其缘由,语料数据获取过程中不可避免地会使用受版权保护的作品数据,对于此类作品数据获取是否需要授权仍然存疑。总体而言,现阶段人工智能语料库的数据获取主要分为以下三大路径:公开数据收集、商务合作采买、非电子数据自行收集。公开数据收集路径即从互联网公开的内容进行抓取、爬取,但公开并不意味着进入公有领域,许多作品的使用仍属于版权保护的范围,抓取、爬取的合理界限并不明晰;商务合作采买路径中,语料库的数据大多从平台、公司等数据控制者手中对价获得,但版权授权链条的合法性仍有进一步探究的空间,实践中,权利人自己可能都不清楚其数据被数据控制者用于人工智能语料库建设;非电子数据自行收集路径中,此类并未在互联网公开的作品数据是否应当先授权再付费使用仍需考量。
实践中已有诸多此类纠纷,2024年9月,德国汉堡法院就曾审理未经授权使用他人摄影作品用于制作LAION数据集的版权纠纷案件;同年7月,番茄小说签约作者的全部或部分内容及相关信息被强制要求作为数据用于人工智能语料库的版权纠纷。理论界对于这一问题亦有所争议,究竟语料库的数据获取该如何进行版权规制:实质文本数据挖掘说、扩张性合理使用说、一般授权许可说、法定许可引入说等观点不断涌现,但仍存争议。
技术创新是制度变革重要参照
技术创新能力、产业发展现状与国际战略布局是一国版权制度变革的重要参照。当前,世界各国都在加紧进行人工智能备赛,语料库数据获取的版权问题是全球的共性问题,但各国应对方案却各不相同。
美国对合理使用规则采取了观望适用。在谷歌图书案到OpenAI系列案件、Stability AI系列案件中,有关于语料库数据收集行为是否满足《美国版权法》第107条中合理使用“四要素判定”要求争论不休。然而,面对如此多的实践纠纷,美国并未出台相关明确语料库作品数据收集的版权规则,而是等待司法实践判决与市场自由调节,从而给予人工智能产业发展的空间,亦为版权制度变革指明方向。
德国则对文本数据挖掘版权例外的谨慎适用。从LAION数据集案件的判决可以看出,法院根据《德国著作权法》第44a、44b、60d对语料库在线作品数据获取的行为进行了版权层面的定性。一方面,该行为是非短暂性的、非伴随性的,并非第44a条的临时复制,应属于版权人控制的权利范畴;另一方面,该行为符合第44b条中文本数据挖掘的行为特点,但必须满足第60d条的“科研目的”与“非营利”主体性质才可适用文本数据挖掘版权例外。
日本采取了柔性宽松的版权例外应对方案。为应对人工智能产业发展对版权制度的挑战,《日本著作权法》第30条之4、47条之4、47条之5分别规定了多场景下版权例外规则:非享受型作品使用例外、计算机附随性使用例外、信息处理轻微利用例外。前述条款被认为是信息分析活动中使用作品免责的“尚方宝剑”,因此也有学者认为日本是“机器学习的天堂”,人工智能产业发展的福地。
虽然,目前日本并未明确人工智能语料库作品数据获取的行为是否能够适用前述条款,但也为其弹性解释留有空间。
建立更加合规高效供应模式
虽然DeepSeek的问世加速了我国人工智能产业的发展,但不可否认的是我国和日本、德国一样,仍处于技术追赶国家队列,因此如何正确应对语料库作品数据获取的版权争议需要慎重考虑。
一方面,过度放大版权人权益会制约人工智能语料库的建设速率,亦会使得语料数据的及时性无法得到满足。例如,DeepSeek APP版本的数据是截至2023年10月,很多网友在使用在线问答功能时会无法获得最新资讯。另一方面,过度强调产业发展亦会剥夺版权人权利,削弱制度创新激励的效用,加速智能时代“机器作者”的替代效应。基于此,笔者认为可以从以下三个层面展开:
一是明确语料库的版权规制原则。人工智能技术的进步与版权制度的优化是在互动中前进的,语料库作品数据获取的版权问题解决不能仅着眼于回应问题本身,还需考量版权人—语料库建设者—人工智能公司—用户的多元价值诉求,以及革新版权规则的外部性效应,保障高质量、多样化、可持续的语料供给。
二是实施分类治理的版权规制方案。首要回答的是,对不同渠道获得作品数据的行为是进行差异性版权评价,还是进行单一性版权评价?笔者认为,人工智能语料库的数据获取是新时期产业发展的新问题,如若仍需从不同渠道进行分类评价,那对于渠道的判定则成为了重点,可能会进入技术性立法的陷阱中。然而,不同的人工智能语料库有不同的建设目的,亦有不同的作品数据选择,同一作品数据在不同语料库中的价值亦不相同,故应从语料库的性质出发进行行为性质考量与版权规则设计。具言之,可针对商业与非商业、通用语料库与专业语料库等分类设置合理使用、法定许可、文本数据挖掘版权例外等规则,利用差异化的版权规则应对实践诉求,平衡各方利益。
三是构建语料库登记公示备案制度。为了保障版权人对于作品数据纳入语料库的知情权,便于版权人进行检索与监督,可以建立公示备案制度,并搭建全国性的语料库数据信息检索平台,保障版权制度的有效实施。除此之外,可尝试对接已有数据登记平台,在既有资源的基础上,实现数据最大程度地流通,以公共数据的开放、集成、共享,搭建起语料库作品数据的基础要素设施,以商业数据的高质、高效实现语料库的高质量数据供给。