中美首案判决解读:AI数据训练使用他人作品,是否构成侵权?

2025-04-15 08:56

人工智能

详细内容

近日,中美两国法院在AI数据训练使用他人作品的行为是否构成合理使用问题上分别作出首份判决,但得出了相反结论,引起社会各界关注。本文将结合此两案具体案情,就著作权法(本文不作著作权法”“版权法的表述区分)的合理使用制度在AI数据训练中的适用问题作初步探讨。

“奥特曼”案

2024年底,杭州中院对上海某文化发展有限公司(以下简称某文化公司)与杭州某智能科技有限公司(以下简称某智能公司)著作权侵权及不正当竞争案作出二审维持判决(以下简称奥特曼[1]),对一审判决认定某智能公司未尽到合理注意义务防范AI生成内容侵权,构成帮助侵权予以维持,同时也维持了一审判决中数据训练使用他人作品构成合理使用的认定。


该案中,某文化公司经授权取得了奥特曼系列形象的著作权独占权利。某智能公司运营某AI平台(生成式AI,支持文生图、图生图等功能)。使用奥特曼关键词在该平台进行搜索,可搜索到奥特曼作品以及AI训练模型;用户在该平台上可通过上传在其他网站下载的奥特曼图片并使用基础模型训练出奥特曼LoRA模型,训练完成后的奥特曼LoRA模型可被用户反复使用并在此基础上生成其他奥特曼图片并发布在平台上。


某文化公司主张,某智能公司作为生成式人工智能服务提供者,通过输入图片等数据进行训练后生成的方式将侵权图片和侵权模型置于信息网络中,侵害了某文化公司的信息网络传播权并构成不正当竞争,故提出停止侵权、赔偿损失等请求。


“Westlaw”案

20252月,美国特拉华州地区法院就汤森路透与罗斯公司案[2](以下简称“Westlaw”案)作出简易判决(summary judgment),该判决中认定罗斯公司在AI模型训练中使用Westlaw2243条法律批注不构成合理使用。


Westlaw是汤森路透的法律信息检索数据库平台,该数据库中包含了对司法判决进行总结分类的法律批注(Headnotes)。罗斯公司是一家法律科技公司,正开发法律检索搜索引擎。为训练AI模型(非生成式AInon-generative AI),罗斯公司向中间服务商LegalEase购买了25000批量备忘录Bulk Memos)作为训练数据。汤森路透认为这些备忘录数据来自其Westlaw的法律批注,遂向法院主张罗斯公司侵权。

需要说明的是,上述两案中,“奥特曼”案的观点已经获得二审生效判决确认,“Westlaw”案中的观点则是由简易判决作出,该案仍在审理过程中。尽管如此,两案判决中的鲜明观点恰好反映了对AI数据训练中使用他人作品的两种不同观点和利益倾向:“奥特曼”案的认定基本满足了产业界对获取包括作品在内的大量训练数据的需求;“Westlaw”案的认定则是提振了权利人维权的信心


1

合理使用的法律规定

比较中美两案,不能仅从判决结果简单得出两国司法裁判对AI数据训练使用他人作品的态度。因两案都涉及著作权法的合理使用制度,本文首先对两国的合理使用制度进行对比考察。


合理使用作为一项重要的权利限制制度,《中华人民共和国著作权法》第二十四条通过概括+列举的方式进行了规定。在概括规定部分吸收了《伯尔尼公约》三步检验法[3]精神,强调了不影响原作品的正常使用以及不会不合理损害著作权人的合法权益。现行《中华人民共和国著作权法》虽然增加了针对合理使用所列举的情形,但显然AI数据训练中使用作品的行为并未纳入列举范围,也无法作为列举项中最后一项兜底情形对待。因此,探讨AI数据训练中使用作品的行为能否纳入合理使用,需要结合争议情形依照合理使用概括性规定进行解释。


“Westlaw”案中引用的合理使用制度来自美国版权法[4],有四项要件:一是使用作品行为的目的和性质,是否为商业性使用;二是权利人作品的特性;三是使用权利人作品的数量以及实质性部分占全部作品的比例;四是使用作品行为对权利人作品潜在市场或价值的影响。以上四项要件也是对《伯尔尼公约》三步检验法的演绎。


2

“奥特曼”案关于数据训练构成合理使用的认定

对于AI数据训练中使用他人作品的行为,法院在奥特曼案中指出:生成式人工智能的创设与发展,需要在输入端引入巨量的训练数据,其中不可避免会使用他人作品。鉴于此阶段使用他人作品的目的,原则上应是用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容,从中提取出相应的规则、结构、模式、趋势,便于后续转换性创作新作品。该种行为聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众,因此,在无证据证明是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。


以上分析重点强调了AI使用作品的目的是将他人作品作为分析样本数据进行提高作品创作能力训练,不是以再现作品的独创性表达为目的,同时表示在案证据无法证明此种使用行为会影响权利作品的正常使用或者损害著作权人的合法权益,从而得出可被认定为合理使用的结论。


2

“Westlaw”案关于数据训练不构成合理使用的认定

“Westlaw”案中,BIBAS法官曾于2023925日作出过一份简易判决[5],认为本案对合理使用的讨论是一个法律和事实交织的问题,需要此后由陪审团决定。但之后的审理中,针对汤森路透提出的2830条法律批注,罗斯公司对此具有可版权性未持异议,法庭对该2830条法律批注对应的备忘录以及司法裁判信息进行了逐一比对,发现罗斯公司所用的备忘录信息与汤森路透的法律批注更相似。


BIBAS法官在判决中表示合理使用四要件中,第一、四项要件更重要,后将罗斯公司的行为与合理使用四要件进行对应分析:


第一,关于罗斯公司使用Westlaw法律批注的目的和性质。该公司的使用属于商业性使用,且不属于转换性(transformative)使用。汤森路透的Westlaw法律批注是为了完善Westlaw内部检索工具,而罗斯公司使用汤森路透的Westlaw法律批注则是作为AI训练数据以创造出与汤森路透相竞争的法律检索工具。


第二,汤森路透的Westlaw法律批注独创性较低。这一点对罗斯公司有利,但这项判断对合理使用的认定作用较小。


第三,虽然罗斯公司提供给终端用户的输出结果并不体现Westlaw的法律批注,且强调他们使用的Westlaw法律批注仅占所有批注总数的很少比例,但正如使用300字罗斯福总统回忆录内容可以被认为获取了回忆录的核心内容,使用几千条Westlaw法律批注亦是如此。


第四,要件四是判断合理使用与否最重要的因素。BIBAS法官表示,其曾认为罗斯公司的使用行为具有转换性,可以创造一个与Westlaw不同的全新研究平台,但进一步查明事实后发现,罗斯公司使用这些批注信息开发了市场替代品与Westlaw竞争。


综合权衡以上四要件的适用,BIBAS法官否定了罗斯公司的行为构成合理使用的抗辩,并认定2243条备忘录构成侵权。


4

两案差异认定之比较

比较中美两案,奥特曼案中的AI属于生成式AI, “Westlaw”案中的AI不属于生成式AI,但不论是生成式AI,还是非生成式AI[6],都需要通过大量的数据训练提炼数据特征从而优化参数、提升AI智能化程度。数据训练中所使用的数据,AI公司也会各显神通,除了专门向持有相关数据的企业或组织申请授权使用外,技术能力强的AI公司(如OpenAI等)会进行数据爬取,部分AI公司会使用第三方提供的如Fineweb数据集[7]。不论何种来源的数据,均可能涉及他人大量的在先作品。


另外,虽然中美两国法律对著作权合理使用制度的规定存在差异,但均是对《伯尔尼公约》三步检验法的国内转化,在规则内核的理解方面并无实质性差异。那么,产生两案差异结果的认定理由是什么?本文作以下梳理。


1.数据训练中使用他人作品的目的

奥特曼案中,法院从技术层面将AI数据训练阶段使用作品的目的归为为后续生成新的作品,从而对在先作品在规则、特征、结构层面进行的学习分析。而“Westlaw”案中,法院是从是否为商业性使用考察罗斯公司数据训练中使用汤森路透的Westlaw法律批注的目的。可见,虽然都是对使用目的进行探讨,但两国法院的判断标准并不相同。我国法院主要基于AI数据训练需要海量数据这一背景事实以及数据训练中如何使用作品的技术事实,对使用他人作品的目的进行解读,未侧重讨论AI数据训练的商业性质。


《中华人民共和国著作权法》第二十四条所列举的典型合理使用情形大都不属于商业使用情形,但实践中一般不会推定商业性使用情形下就不适用合理使用,且也不是所有的非商业性使用都能被认定为合理使用。


2.数据训练中作品复制行为的认定

奥特曼案中,法院认定,一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,并未强调数据训练中对权利人作品的复制行为。而“Westlaw”案中,法院对罗斯公司数据训练中使用的备忘录信息是否构成对汤森路透的Westlaw法律批注的复制,进行了充分阐释。其中讨论了是否构成实际复制(actual copying[8],实际复制是指被告确实在创作自己的作品时用了他人作品[9]。该案双方承认LegalEase有权访问Westlaw并使用相关批注来制作批量备忘录,法庭经过逐一比对后确认2243条备忘录与Westlaw的法律批注构成实质性相似,符合接触+实质性相似的标准,构成实际复制[10]


比较而言,奥特曼案判决对AI数据训练中出现的原告作品模糊表述为暂时保留,而“Westlaw”案中虽然使用了复制的概念,但从分析逻辑看与我们通常理解的复制并不相同,而是与我们讨论的是否构成侵权类似。


我国学界对于人工智能训练数据过程中对作品的复制行为的定性有诸多讨论。有学者指出,数据训练中对作品的复制与著作权法中复制权涉及的复制不同,人工智能大模型训练通常会涉及对作品的复制行为,但该行为处于人工智能技术的研发阶段,且主要作用是训练大模型使其具有类似人的创作能力,而不在于通过传播著作权人的作品牟利[11]。有学者使用临时复制理论分析,数据被临时性地存储在计算机的缓存之中,仅供模型在训练阶段即时调用与分析。一旦学习过程结束,这些数据便会被系统自动清除;既无长期留存之必要,亦非旨在通过复制达到广泛传播之目的。[12]也有学者表示基础模型训练时对于数据集中作品的存储就是一种过程性复制。而且,这一过程是纯粹的内部复制。[13]总之,AI数据训练中实际复制了权利人的作品,这一事实基本没有分歧,但是司法、理论界更聚焦于,基于人工智能模型训练的技术特性和数据处理流程,这种对作品的复制是否落入著作权法规定的复制权范围。


3.数据训练过程对作品的使用是否为表达性使用

奥特曼案中,法院指出AI数据训练使用他人作品是非表达性使用。此观点也为部分学者所认可:“数据训练中的使用行为因其具有明显的非特定性,应当界定为非作品性使用’”[14]本质上,模型学习的对象是承载作品的数据,而不是作品本身,故数据训练行为本身不落入到著作财产权的控制范围[15]当对一部作品的使用方式并没有触及作品表达,并未产生使用者对作品中的表达的理解和欣赏,那就属于'非表达性使用'或称'非享受性使用'”[16]。当然,如果能认定AI数据训练中使用作品的行为不属于表达性使用,则可以从根本上避免论证使用行为合法性的问题,对于人工智能服务提供者、模型开发者等相关群体而言是有利的。


“Westlaw”案重点比较了罗斯公司从LegalEase购买并进行数据训练的备忘录与Westlaw法律批注,以及司法裁判观点的相似程度,并未对罗斯公司使用备忘录来训练人工智能搜索工具是否为表达性使用展开论证。


4.数据训练使用作品是否影响权利人作品的潜在市场

奥特曼案中,原告是知名动漫形象的代理商,所诉侵权对象也是知名动漫形象。法院明确生成式AI服务提供者应当对生成内容是否侵权尽合理的注意义务,在输出端防范侵权,并最终以被告AI输出端向用户提供与权利作品相似的动漫形象而认定被告应承担帮助侵权责任。除了区分AI输入端和输出端,上述论证逻辑体现了我国侵害信息网络传播权案件的常规认定思路,即除非符合相关法律规定,未经许可使用他人作品构成侵权,为直接侵权行为提供帮助且存在过错的构成帮助侵权。


该认定思路未将对权利人作品的市场替代性影响作为考察因素,且曾有判决专门提出著作权利益和经营利益、合同利益并不相同,并认为在著作权侵权案件中不宜采用实质性替代理论[17]。因此,我国著作权合理使用要件中判断著作权人的合法权益是否受损以及是否影响原作品的正常使用,一般不从市场替代理论出发予以考察。


“Westlaw”案中,罗斯公司与汤森路透是竞争性企业,在讨论罗斯公司的行为是否符合合理使用第四项要件时,判决强调了罗斯公司通过开发市场替代品与Westlaw竞争,至于汤森路透是否利用其法律批注训练自己的法律搜索工具并不重要,罗斯公司的行为对AI训练数据潜在市场造成影响就足够了。此判断逻辑与上文所述我国在著作权合理使用认定中所考虑的角度不同。


5

两案引发的其他思考

AI数据训练所使用数据的合法合规问题从AI进入公众视野开始一直被持续讨论,国内外权利人诉至法院寻求司法解决的案件数量可观,但真正明晰裁判规则的案件至今寥寥无几,概因此问题涉及政策导向、各方利益、法律关系,以及技术和行业发展趋势等多种复杂因素交织,要给予明确的裁判规则难度较大。上述两案裁判一定程度上抛出规则、投石问路,但仍有下列问题值得思考。


——现有政策规定之矛盾

2017年国务院印发《新一代人工智能发展规划》,到多部委密集出台《关于加快场景创新 以人工智能高水平应用促进经济高质量发展的指导意见》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等一系列规章制度,以及2024年、2025年政府工作报告中均提及的人工智能+”行动,可见国家高度重视人工智能发展,不断优化政策环境为人工智能发展提供保障。


另一方面,我国出台的一系列规章意欲规范产业健康发展。以《生成式人工智能服务管理暂行办法》为例,其规定了生成式人工智能服务提供者的系列义务,如应当依法开展预训练、优化训练等训练数据处理活动,应使用具有合法来源的数据和基础模型,涉及知识产权的,不得侵害他人依法享有的知识产权等。


同其他新兴技术类似,人工智能产业也面临着政策激励法律规制的双重需求,如何平衡安全与发展,既在短时间内快速、大量集中数据资源满足数据训练要求以提升我国人工智能水平,又满足数据来源合法合规的要求、平衡多方利益,当前存在矛盾与困难。有学者即指出,大量的法律法规、政策性文件都强调,在进行数据训练时必须确保合规性,其中包括知识产权合规和个人数据合规。这种做法可能并不合我国的时宜[18]


——非表达性使用与合理使用并论之矛盾

非表达性使用通常认为不属于著作权法意义上对作品的使用,即没有使用作品,故对著作权人的权益无影响。如销售某画展门票时,在门票上印制某幅画作的名称,因使用画作名称不体现画作本身的独创性表达,可以认为是非表达性使用。而合理使用是对著作权权利的限制,其行为本质是对作品进行使用,但由于法律有明确规定,著作权人不能对该行为主张权利。如学校课堂中老师使用了某幅名人画作讲解艺术流派,这显然属于对画作的使用,只是此种情形法律明确规定为合理使用,无需事先征得画作权利人的许可并支付报酬。


笔者注意到,奥特曼案中,法院一方面确认AI数据训练中使用奥特曼漫画作品属于非表达性使用,另一方面又认定此种行为属于对作品的合理使用,将两种不同的行为性质合并论述亦会存在一定的逻辑偏差。

——权利人对于数据训练客观事实掌握之难度

奥特曼案中,因生成物出现了与原告权利作品相似的奥特曼形象,被告认可其数据训练中使用了原告的权利作品形象,只是辩称这部分用于训练的作品由用户投喂给大模型。“Westlaw”案是被告承认其从第三方服务商处购买了相关备忘录数据,而第三方服务商认可使用了原告的法律批注。因此,两案在数据训练中使用了原告作品的事实并无实质区别。但随着参与数据训练的大模型日益增多,存在两种值得关注的情形:一是是否存在真实的AI数据训练,要排除以学习训练为名,把他人的作品作为自己的生成内容提供给用户[19]。二是是否将权利人作品用于数据训练。当AI不断升级迭代,智能化程度不断跃升后,AI生成物等输出端出现结果可能与AI大模型训练中用到的权利作品大相径庭,难以判断实质性相似的表达元素,此时若AI服务提供者否认使用权利人作品进行数据训练,则权利人要证明其作品被用于数据训练将极为困难。


6

写在最后

当前,还有涉及AI数据训练引发的大量著作权案件仍在审理过程中,是否还会产生其他司法观点和规则,仍需拭目以待。有学者提出人工智能训练中使用数据管住生成端,豁免训练端[20]的理论无疑可以在积极鼓励AI发展的同时简化对法律责任的判定规则,但能否在认定生成端侵权的同时推及训练端侵权,还是对训练端一概豁免,在权利人对是否以数据训练为名侵权使用他人作品的真假数据训练还要进一步提高辨别能力的情况下,仍需继续探讨。此外,以当前AI发展之速度,难以预测目前的在审案件是否会最终走到需要法院作出裁判的阶段,如果确实需要法院作出判决,则这些案件作出生效裁判之时或者一段时间后,人类是否已进入人工智能时代。人工智能时代开启后,著作权法规则将如何改写,甚至是否有必要保留,仍是一道难解的思考题。 


来源丨
北京市律师协会

者丨吴子芳 北京市融泰律师事务所


评论列表(0)
暂无提问

发表提问 取消回复