原标题:人工智能创作利用数据应纳入合理使用的价值考量
近期,与人工智能创作中获取与使用数据的合法性问题有关的研究文献中,有的以“合理使用制度的整体重塑”为关注对象,有的则以“文本与数据挖掘”为讨论视角,直接从人工智能创作视角关注数据作品获取与使用的著作权风险的研究仍为数不多。
立足于此,本文将在此前深入评估人工智能创作中获取与使用数据的风险类型的基础之上,借鉴国际立法并结合中国实际探寻科学、合理、务实的化解之道,希冀有助于深化人工智能创作的知识产权问题研究,并借此推动人工智能技术应用和文化产业发展。
现实考量——传统许可模式难以满足数据规模化利用
人工智能创作所使用的数据在价值上具有低密度性,即单个作品对最终形成的创作成果贡献极小,由此意味着只有大批量、规模化地使用数据对人工智能创作才有意义。这种低密度性特征给著作权的传统授权模式带来极大挑战:一方面,要避免人工智能创作物一经生成便背负上侵权的“原罪”风险,唯一途径就是逐一获得数据作品著作权人的许可并支付报酬;另一方面,要求人工智能系统使用者为了实施创作从“海量作者”中点对点地获得“海量作品”的“海量许可”在现实中几乎不太可能。由此便产生美国学者戈登所提出的著作权许可市场失灵的问题,即当事人之间无法通过市场交易实现对版权作品的有效利用,此时采用合理使用规则配置数据资源可能是实现社会福利和公共利益最大化的最佳选择。
有观点提出,可以采用法定许可制度解决人工智能创作中使用数据作品的困境。笔者以为,采用法定许可制度仍需支付报酬,由于人工智能创作所使用的数据具有数量大、种类多、范围广的特点,决定了实施人工智能创作所支付的数据许可费用是非常巨大的。当人工智能创作使用数据作品所付出的许可费远大于创作结果带来的收益时,作为理性“经济人”的人工智能投资者便不太可能接受此种作品的使用方式。此时如果不给予人工智能创作使用数据以侵权豁免,则有可能会导致两种结果:一是人工智能投资者在面对海量作品的巨额使用费时会减少甚至放弃人工智能创作技术的研发与应用;二是一些人工智能企业可能会选择铤而走险,宁愿侵权,也要置著作权于不顾而任意使用他人作品,反而加剧侵权行为的发生,特别是在人工智能创作使用数据一般都比较隐蔽、权利人不容易发现的情形下,此种情形发生的概率更大。此外,法定许可制度所面临的使用费难以落实的困境至今未能有效解决,使得我国的法定许可制度在一定程度上形同虚设。因此,即使是建议采用法定许可制度解决人工智能创作使用数据问题的学者也承认,“法定许可制度配套措施的落实仍存在相当的难度”。
公共政策考量——促进文化艺术繁荣
人工智能创作以数据为“源头活水”,数据的质量往往在一定程度上决定人工智能创作成果的艺术价值。为了获得高质量的创作成果,人工智能企业需要大量优质的数据来进行人工智能系统的培训。一般情形下,需要授权并付费的数据往往使用价值更高一些,因此受著作权保护的数据作品对人工智能训练更具吸引力。
如果不为人工智能创作使用数据设置合理使用规则,要想使人工智能创作使用数据避免背负侵权“原罪”的风险,使用者就必须获得数据作品著作权人的许可并支付费用。但正如前文所述,人工智能创作在使用数据上具有低密度性特征,为了降低使用成本并消除侵权风险,人工智能企业往往倾向于将受著作权保护的作品剔除出数据库,而更多使用那些不受著作权保护的处于公共领域的数据来训练人工智能,如此会造成创作结果的同质化和低劣化,不利于著作权法“促进文化艺术繁荣”价值目标的实现。
如果全部都使用那些不受版权保护的处于公共领域的数据作品,可能会导致人工智能开发者“获取限制较低但带有偏见的数据集”来训练算法,从而影响创作结果的客观性和准确性,这一点对科学作品创作的影响尤为明显。具体而言,在人工智能创作过程中,如果机器学习所使用的数据本身不够完整或存在一定的价值倾向,则机器学习的结果也会存在一定的价值倾向,从而导致人工智能创作的作品存在一定的偏见。
当人工智能研发者无法获得著作权人的许可时,机器学习的资源必然会局限在已经进入公共领域的作品中,但由于这些已处于公共领域的作品无法全面反映人类最新的智慧成果,势必会导致人工智能创作的作品存在隐形偏见。若将人工智能创作使用数据纳入合理使用范畴,能够扩大人工智能创作获取学习资源的范围,在一定程度上能够避免隐形偏见,为社会提供更加优质的作品。
市场秩序考量——维护公平竞争
为了避免著作权侵权风险并降低使用成本,在采用传统的谈判授权方式几乎不可能的情形下通过格式合同免费获取数据成为一些大型互联网公司的选择,当今“用户创造内容”(UGC)模式的兴起则使这种选择成为现实。
随着“人人都是创作者”时代的到来,普通的终端用户身份正在发生变化,庞大的用户群体每时每刻以创作者身份生成大量数据信息,这些数据信息可能包括电子邮件、博客、论坛帖子,其中不乏一些符合独创性要求而享有著作权的作品。一些大型互联网企业(例如谷歌、微软、腾讯、苹果、百度等)通过设置所谓“服务条款”或者“用户须知”格式条款,要求用户在注册时选择允许互联网企业免费使用用户发布的信息,这样就给大型互联网企业采取“以服务换取数据”模式免费使用用户数据提供了机会,从而为互联网企业规避著作权侵权风险提供了可能。
但是,这种“以服务换取数据”模式通常只适用于大型互联网企业。大公司收集的数据信息越多越能完善其人工智能服务,从而也就能够吸引更多用户选择其服务并进而获取更多信息。相反,中小企业则因为用户数量少,其可以免费使用的数据无论在数量还是质量上都无法与大公司相比,久而久之会进一步加剧这种相差悬殊的状况,最终形成强者更强、弱者更弱的不公正的市场竞争环境。因此,如果不将人工智能创作中使用数据的行为纳入合理使用,有可能造成高科技领域的不公平竞争。
国家战略考量——促进人工智能技术发展
在当前新一轮科技革命和产业变革中,对社会影响最为广泛的非人工智能技术莫属,与此相适应,世界各国都在积极营造更有利于人工智能技术应用和产业发展的政策法治环境。我国也非常重视人工智能技术的应用与发展,积极营造有利于人工智能技术应用和产业发展的法治环境具有回应国家战略关切、提升我国人工智能领域国际竞争力的现实意义。
当前,我国的人工智能技术应用和产业发展尚处于起步阶段,在政策和法律上应给予一定支持,如果要求人工智能创作中使用每一件数据作品都需经过授权并支付报酬,无疑会增加人工智能技术研发的负担,阻滞人工智能技术开发和产业发展,最终使我国在新一轮科技革命和产业变革中处于更加被动的境地。
另外,对于当前正在人工智能领域进行激烈竞争的每个国家而言,如果因人工智能创作使用作品在一国被认定为侵权,而在另一国属于合理使用,则必然会使人工智能企业为了降低成本而向法律环境更为宽松的国家流动。
比较法考量——国际数据作品合理使用规则
为化解人工智能创作使用数据的著作权侵权风险,欧盟早在2016年就推出了《DSM指令(草案)》,并于第3条规定了“文本和数据挖掘”的著作权例外条款,因该条款对适用主体(仅为研究机构)和适用目的(非商业性)都作了较为严格的限制,被认为会阻碍人工智能产业的发展。为此,2019年正式通过的欧盟《DSM指令》扩大了适用范围,通过两个条文进一步细化了“文本与数据挖掘著作权例外”的内容,其中第3条保留了原草案内容,将其适用范围限定为不具有营利性的大学、研究机构及文化遗产机构;第4条则将适用主体扩大到基于商业目的的文本与数据挖掘,同时允许权利人通过协议、单方声明等方式对此予以保留。
为便利人工智能创作使用数据,日本亦曾两次修改其著作权法。修订后的规定将可以享受侵权豁免的行为从原来的复制、改编进一步扩大到向公众提供,同时不限定适用的主体和目的,为商业机构的营利性使用留下了适用空间。
美国以其较为灵活和极具解释空间的开放式合理使用规则为人工智能技术应用提供了更好的发展环境。首先,《美国版权法》所创立的合理使用认定“四要素标准”具有较大的灵活性和较强的解释空间。根据《美国版权法》第107条的规定,认定某一作品使用行为是否属于合理使用应从4个方面予以衡量,这4项因素并非法定构成要件,并不需要完全具备,在重要性上也难分伯仲,而是由法官进行综合考量,这就为立法时未预见到的新类型使用行为留下了适用空间。其次,美国司法实践在“四要素标准”中又发展出了转换性使用规则,进一步拓展了合理使用的适用范围。
近年来,美国法院在论文查重、人脸识别、数字图书馆建设等案件中对转换性使用规则采取了较为宽泛的解释,以适应“机器阅读和创作”之需。一些美国学者也呼吁,为了促进美国人工智能技术的顺利发展,应将基于数据使用的“机器学习”明确纳入合理使用之中。