前段时间,国内7家主流财经媒体集中发布版权声明,明确反对未经许可将其原创内容用于机器学习、大模型训练等行为。这一行业行动,折射出生成式人工智能发展背景下,内容生产与数据利用之间的利益博弈,也显示出我国媒体著作权保护进入更注重规则建构与权益平衡的新阶段。
厘清边界,应对训练语料新挑战
从法律实务看,7家媒体发布的“版权声明”并不能直接约束AI企业,但其更重要的意义在于完成权利宣示、降低后续诉讼中“主观故意”的证明难度,以及凝聚行业共识。
人工智能技术的快速迭代,使高质量文本内容成为大模型训练的重要资源。财经媒体凭借专业性、权威性与时效性,其原创报道、数据与分析内容成为语料库的重要来源。在此过程中,部分市场主体批量获取媒体内容用于模型训练,却未取得授权、未支付对价,也未进行合理标注,对媒体的著作权及相关市场利益造成持续影响。
2023年12月27日,《纽约时报》向曼哈顿联邦法院提起诉讼,指控OpenAI和微软两家公司未经许可使用该报大量文章,训练自己的聊天机器人;2024年4月30日,奥尔登全球资本旗下8家报纸也以类似理由将这两家公司诉至法院。在《数据资源持有权:机构媒体应对AI侵权的升维因应》一文中,上海大学新闻传播学院徐偲骕、李凤认为,这类诉讼是媒体发起的一次“战略性的法律挑战”,标志着媒体正在向“新闻数据集提供商”转型。
当前矛盾主要体现在三方面。其一,侵权行为具有较强的隐蔽性,内容在模型训练中被拆解、向量化并进行特征提取,取证与认定均存在障碍;其二,合理使用的边界尚不清晰,训练使用与版权保护在制度层面尚未形成稳定共识;其三,市场力量与议价能力不对等,单一媒体面对大型技术平台时往往处于弱势,维权成本较高。
与此同时,我国相关立法与司法已逐步回应新技术挑战。《生成式人工智能服务管理暂行办法》强调训练数据须具有合法来源,不得侵害他人知识产权。但整体而言,制度供给与产业实践之间仍存在一定差距。
前置规则,推动版权治理实现新转向
7家媒体联合发布版权声明,并非对人工智能技术的否定,而是在数字内容与数据要素双重价值凸显的背景下,推动版权秩序回归先授权、后使用的基本轨道。
从“内容即流量”到“内容即数据资产”的转变,意味着媒体开始更加重视原创内容在数据要素市场中的价值,将版权维护与数据资源持有、数据收益分配相结合。
需要明确的是,媒体的著作权与数据资源持有权并非互相替代的关系,而是一种“升级”与“互补”。著作权保护的是具有独创性的“表达”,而源自《关于构建数据基础制度更好发挥数据要素作用的意见》即“数据二十条”的数据资源持有权保护的则是对合法控制的“数据集合”的持有、使用和经营利益,即使该集合中的单个数据(如一条简单的时事新闻)不构成作品。成都理工大学硕士研究生导师田勇在《新质生产力视域下版权产业治理的范式转型与协同路径》一文中提出,当前,数据要素成为重要的生产要素之一,可以被不同主体共享且不影响其价值,为版权资源的最优化配置奠定了基础。
国家对于数据作为生产要素的大力推动,使得媒体越来越意识到自己握有的不仅仅是“版权作品”,更是“高价值数据”,这种政策导向也是媒体敢于“主动建构”的底气。一方面,媒体从分散、被动的事后维权,转向联合发声、事前声明、规则前置的协同治理,通过明确权利边界降低侵权风险;另一方面,相关行动更强调“界限确认”,在禁止未经许可使用的同时,保留了授权合作空间。
协同发力,构建权益保护新机制
在《7家财经媒体打响反AI“0元购”第一枪,释放了什么信号?》一文中,西北政法大学新闻传播学院副院长詹海宝认为,面对人工智能带来的版权治理新课题,构建长效机制需要法律、技术、行业与市场多方协同。
在制度层面,应进一步明确人工智能训练使用版权内容的法律规则,清晰界定合理使用范围,规范授权模式与付酬机制,稳定市场预期。在技术层面,推广应用爬虫协议、访问控制、数字水印、内容溯源与版权智能审核等工具,提升侵权识别、证据固定与风险防控能力,以技术手段支撑版权保护。在行业层面,鼓励建立媒体版权联盟或集体管理组织,开展集中授权、联合谈判与标准制定,增强行业整体议价能力,形成可复制、可推广的合作模式。在市场层面,推动媒体与人工智能企业开展多元化合作。《每日经济新闻》记者文巧、郑雨航在《13家媒体怒告OpenAI等AI巨头:内容创作为何成了大模型的“免费午餐”?》一文中写道,媒体机构与AI公司合作并实现收益,海外已有相关实践,如新闻集团与OpenAI、汤森路透与伦敦证券交易所集团的合作等。
对人工智能企业而言,建立合规数据采购与版权授权体系,既是降低法律风险的内在要求,也是保障模型质量与可持续发展的重要基础。在监管与司法层面,应在数据产权制度框架下统筹版权保护与数据流通,平衡激励创新与保障权益,推动形成稳定、透明、可预期的治理规则。
