AI对作品的“学习”使用,已经落入需要获取著作权人许可的范畴,至少需要支付购买合法复制品的对价。如果任由AI全网爬取免费学习资源而无需支付合理对价,相对于常规学习中需要购买教材、支付学费的自然人,难言公平——
从西汉匡衡的凿壁偷光、旁听私塾的佳话,到孔乙己“窃书不算偷”的趣谈;再从课堂朗读、背诵诗文,到美术生临摹画作、雕塑,很少有著作权人对他人单纯学习其作品的行为提出异议。但是,随着AI大模型学习的出现,著作权人越来越反对AI大模型未经许可学习其作品。那么,AI学习和人类学习有什么差别?AI学习作品需要获取著作权人许可吗?
AI学习与人类学习同为“利用”,是否应同等看待?
人类的学习活动通常被认为是人类个体内在的认知过程,且所获取信息的认知程度存在明显的个体差异。信息通过视觉、听觉甚至触觉进入大脑,经过人类特有的理解、消化、遗忘、重构,形成了对信息内容的不同程度地吸收,并在特定条件下可能产生对既往吸收信息内容不同程度的调取、输出和各种形式的利用。最简单的学习场景,莫过于自然人个体阅读一首诗歌,了解诗歌文字表达出的字面含义;进而对诗歌进行背诵、默写,显然涉及到对作品的“复制”和“再现”,但仍属于普遍被接受的学习行为;在学习诗歌基础上,写成风格类似的原创诗歌,虽然也涉及一定程度上对在先作品的利用,但通常也会被认为是可以接受的学习成果;如果对诗歌进行修改、扩写,则突破了常规的学习范畴。
AI学习通常涉及数据收集与预处理、分词处理、神经网络训练和微调四个阶段,每个阶段都涉及到对作品内容的直接使用。在数据收集与预处理阶段,AI 需要使用者录入作品或通过互联网自动爬取作品并储存在本地服务器中,形成新的作品复制件;在分词处理阶段,AI通常将文本转换为数值形式,即将单词、子词或字符映射为唯一的数值token。在此阶段,文本转换为数值,是由人类语言转换为机器语言。而在神经网络训练和微调两个阶段,也不可避免地调用已经转化为机器语言的作品内容,并按AI预设或使用者要求,复制、修改、改编已有作品,抑或调用已有作品的“风格”参数生成“新成果”。
由此可见,相对于人类学习某一作品,AI学习该作品后也能输出看似与人类一样的背诵、改写,抑或类似风格的“学习成果”。其模仿人类学习的过程,本质上是信息数据的录入、分析和按要求输出,虽然与人类的认知行为目前在存储、调用机理上存在差异,但从行为表现上并无本质差别,都涉及对作品不同程度的利用。
版权许可必然成为合作新趋势
基于著作权制度逐渐完善的历史和不断积累的《著作权法》保护实践,《著作权法》规定了著作权人就其作品所享有的权利种类,以及无需著作权人许可即可使用作品的合理使用制度。人类学习某一作品之所以无需获取著作权人的许可,是因为《著作权法》在赋予著作权人专有权利基础上,对其著作权进行了合理限制和权利让渡,这是对著作权人和公众利益的平衡设置。《著作权法》允许自然人个体在通过合法渠道获取作品或作品复制件后,通过阅读、欣赏作品,吸收作品表达所承载的信息,并在合理使用范围内对作品加以利用。
著作权制度和现行《著作权法》体系显然没有考虑AI学习中使用作品的场景。不论是合理使用制度,还是法定许可制度,目前都不能适用于在AI大模型训练中使用作品的场景。另外,大多数AI产品由科技企业、科研机构开发运营,具有明显的商业目的,抑或具备收费提供服务的可能,不具有参照人类学习要求著作权人作出权益让渡的正当性和必要性。
笔者倾向认为,AI对作品的学习使用,已经落入需要获取著作权人许可的范畴,至少需要支付购买合法复制品的对价。如果任由AI全网爬取免费学习资源而无需支付合理对价,相对于常规学习中需要购买教材、支付学费的自然人,难言公平。
随着AI训练使用作品需求的增加,以及著作权人越来越抵制AI免费使用其作品,AI学习场景下的版权许可必然成为AI科技企业与著作权人之间合作的新趋势。据悉,《纽约时报》与亚马逊达成多年版权许可合作,允许亚马逊使用《纽约时报》内容训练其AI平台。
笔者相信,未来会有越来越多的版权持有和管理机构与AI科技企业达成合作,不断丰富AI领域的版权使用场景,建立并不断完善能够满足AI学习需求的版权许可规则,通过公平互惠、明晰有序的合同约定,保障著作权人与AI科技企业之间的利益平衡。
