关于AIGC的一百个想知道(数据篇)

2024-07-09 13:43

数据合规

详细内容

作为起点的数据相关问题

数据获取
Q7. 企业获取AI训练数据有哪些来源?
在我国现行法律框架下,AIGC企业训练数据获取的可能合法渠道主要有以下三种:一是合法爬取数据,即自主编写或使用爬虫工具,从公开网页上批量自动化采集所需数据;二是直接使用现有的开源数据集,即被其他数据主体因公益性目的主动开放的数据;三是在数据交易所直接购买现成的数据集。
Q8. 爬取数据应当符合什么规范?需要考虑Robots协议吗?
合法爬取数据需要满足三个条件:
首先,被爬取数据应当为数据或数据所在网站的直接或间接所有者自发完全开放、任何人均可自由取用的数据,若爬取不开放或仅部分开放的数据,则可能涉嫌侵犯他人数据权益。
其次,爬取行为应当尊重网站运营者的意愿。例如许多网站运营者可能会主动设置反爬措施,如设置验证码、对网页进行Web加固、采用静态页面防止爬虫自动翻页等,若无视这些措施,强行爬取数据,即属于违背数据所有者意愿,侵犯其数据权益或是构成不正当竞争行为。
最后,爬虫不能妨碍网站运营者正常运营或增加其运营成本。例如,若爬虫的请求频率过高,影响了网站对其他用户的正常响应,则可能构成不正当竞争;若采取技术手段绕过甚至破坏网站系统安保措施,可能涉嫌犯罪。
为了规范爬虫行为,互联网行业很早就提出了一个名为“Robots”的协议,其表现为一个由网站运营者编写并存储于网站根目录下的txt文件,爬虫可以根据文件中的内容判断网站上哪些数据可以爬取、哪些数据不可以爬取。需要指出,Robots是一个典型的“君子协议”,目前我国司法尚未认为其为具有法律约束力的合同,仅将其作为业内普遍遵守的“公认的商业道德”。但我们仍建议,作为爬虫最常涉及的行为规范,企业应当在爬取数据时遵循相应网站的Robots协议,以降低法律风险。
Q9. 通常有哪些类型的数据会被爬取?有哪些相关合规要点?
AIGC模型的研发依靠大量高质量数据支撑,故企业往往希望获取多类型、多模态的数据,以帮助模型更好地进行训练和迭代。所爬取的具体数据类型依照所研发AIGC模型的种类而定,例如写作类AIGC模型可能需要许多网络文章,绘图类AIGC模型可能需要许多动漫图片,而具备多种能力的大语言模型甚至可能需要文本、图片、视频、音频等多种不同类型的数据。
提请注意,AIGC企业若使用爬取的手段来获取产品研发所需数据,则务必需要预先针对数据类型,特别是针对某些特殊的数据进行风险评估,以防止侵犯他人合法权利。例如,若所爬取数据涉及敏感个人信息,则有可能违反《个人信息保护法》关于敏感个人信息保护的规定,侵犯个人信息权益;若所爬取数据涉及专著、论文等知识产权属性较强的作品,则可能违反《著作权法》等,产生侵犯他人知识产权的风险。这些侵权风险均会对产品整体的合法性产生一定的削弱,可能会导致企业卷入民事纠纷,面临行政责任,情节严重时甚至需承担刑事责任。
Q10. 爬取公开个人信息用于训练,有哪些合规要点?
使用爬虫技术爬取公开个人信息的合规路径主要依据《个人信息保护法》展开。依照该法第13条,对于公开信息的处理可以豁免个人信息主体的同意,但是必须在合理范围内处理,因此AIGC企业爬取公开个人信息时,仍需依照一般程度上的个人信息处理原则对处理场景和使用目的进行考量。
而针对使用个人信息训练AIGC模型,目前我国相关法律尚未做出较为细化的规定。我们合理推测,若企业是为了合法合规研发AIGC模型、发展AIGC技术而收集公开个人信息,由于我国目前政策导向支持AIGC发展,故可以在一定程度上作为该行为正当性的补充。但依照《个人信息保护法》第25条、第27条及《生成式人工智能服务管理暂行办法》第7条,企业仍需注意以下合规要点:
首先,需要注意爬取公开的个人信息后的保存义务和保密处理,在训练AI时贯彻保密要求,避免AI“自主决策”输出个人信息。
其次,需要注意公开个人信息的处理限制。如果公开个人信息的主体明确拒绝已公开的个人信息被再次处理或限制个人信息只能进行特定用途的处理,则AIGC企业需要及时删除已经爬取的个人信息。如果已经投入于模型学习,则由于技术上AI很难实现对特定部分数据学习痕迹的删除,因此企业需要为AI增加“防火墙”,防止其生成与个人信息相关的内容。
最后,需要注意是否对个人信息主体的个人权益造成影响。

Q11. 爬取具备知识产权的数据用于训练,有哪些合规要点?

企业在爬取数据时,可能会涉及到文章、绘画作品、音视频作品等具有较强知识产权属性的数据,且这部分数据通常在AIG C模型研发中占据重要地位。然而,爬虫爬取数据的方式是直接复制并保存在自身服务器中。若未取得原作者同意,则这种复制和保存很有可能涉及侵犯《著作权法》第10条规定的著作权中的复制权。

提请注意,鉴于所爬取数据的量级较大,事实上不太可能保证对于每一条数据都获取原作者许可。因此,企业在爬取数据时,为保证不侵犯他人合法知识产权,可以关注被爬取平台自身的特定用户条款和知识产权声明,批量地从平台方获得授权许可。例如,一些平台可能规定作品在网络平台发布即视为开放授权,此时爬取数据的风险就较小。此外,除开知识产权为原作者所有之外,也可能存在网站平台规定在本平台上发布内容的知识产权归平台所有或由平台和原作者共有的情况。对于这些情况,除考虑原作者外,还需考量平台本身对自有知识产权的保护态度。

Q12. 使用开源数据集存在哪些限制?
依照行业惯例,开发者将数据集开源后,往往会附上与代码开源类似的开源许可证(Open Source License,又称开源协议),这是一种旨在保护开源方知识产权、明确权责范围的标准协议,有关其更多详细介绍可看我们之后代码篇的相关内容。就数据集而言,其常用开源许可证主要有“知识共享(CC)”“开放数据共享(ODC)”“社区数据许可协议(CDLA)”三种,各许可证项下均针对商业使用提出了不同要求。
提请注意,开源许可证不仅被理解为行业惯例,且亦有在我国司法实践中被认定为具备法律效力的格式合同之先例。因此,AIGC企业在使用开源数据集的过程中,有必要关注该数据集所遵守的具体开源许可证,依据其中规定的权责范围对数据集进行使用。
Q13. 使用开源数据集时,是否要对其数据来源进行进一步审查?
依照《生成式人工智能服务管理暂行办法》第7条之规定,生成式人工智能服务提供者在训练模型时应当使用具有合法来源的数据。但该条并未对“数据来源合法”做出更加详细和明确的定义。因此我们推测,对于一般开源数据集而言,使用者仅需尽到合理注意义务即可。如果因开源数据集中存在来源非法的数据就要处罚该数据集的所有使用者,就等于倒逼使用者一一审查开源数据集中所有数据的来源,一方面会给使用者造成过高的注意义务负担,另一方面也削弱了开源数据集本身“帮助数据获取能力低的开发者”的宗旨。
但若开源数据集涉及敏感个人信息的数据,依照《生成式人工智能服务管理暂行办法》第7条第3项之规定,我们仍建议使用者对于个人信息的来源进行核查,例如向开源方确认其是否已经获得个人信息主体的单独同意。若无法进行核查,则建议对数据集进行脱敏后再进行使用。
Q14. 使用开源数据集时对其中数据内容的安全性是否需要进行额外的审查?
《生成式人工智能服务管理暂行办法》第7条第4项规定AIGC服务提供者需“采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性”。相较于《生成式人工智能服务管理暂行办法》的征求意见稿所规定的“保证数据的真实性、准确性、客观性、多样性”而言,现行《生成式人工智能服务管理暂行办法》的表述对数据审查由结果性要求转变为过程性要求,体现了我国针对AIGC技术发展采取宽松式监管的政策导向。因此,在开源数据集数据内容安全性的审查上,建议企业采取适当审查措施,优先保证不出现重大内容安全事故。提请注意,根据《生成式人工智能服务管理暂行办法》第7条第2款对知识产权的保护导向,审查重点可以放在是否侵犯第三方知识产权上。

Q15. AIGC企业怎样通过购买和交易的方式获取训练数据?有哪些流程要点需要注意?

当前我国数据交易类型可以分为场内交易和场外交易。前者通过各地数据交易所或交易中心进行,而后者则在买家和卖家之间自主进行。当前,我国并不强制要求必须场内交易,但从各地立法情况来看,部分特殊数据存在必须场内交易的可能,例如《上海市数据条例》第46条明确了公共数据应当进场交易。由于目前我国数据交易行业发展仍处起步阶段,存在场内交易占比低、场外交易混乱的问题,因此在未来也存在国家出台规定要求必须场内交易的可能。

提请注意,在交易过程中,AIGC企业需要注意的主要有以下几个要点。

一是交易价格。目前,大部分地区的数据交易价格由买卖双方自由议价,但少数地区可能会有特殊性规定。例如,上海数据交易所规定,价格需由市相关主管部门和行业协会等介入,制订数据交易价格评估导则,构建交易价格评估指标。贵阳大数据交易所则规定数据交易价格则是依据数据品种、数据实时性、数据样本覆盖、数据完整性、数据深度、时间跨度而定。企业需要权衡自身研发能力和资金能力,结合所在地区规定确定适当的数据交易量及相应报价。

二是购买模式。目前,国内不同数据交易所的买卖模式有所区别。例如,北京国际大数据交易所使用专有数据交易系统;上海数据交易所既支持“网购式”采购,也同样鼓励“点对点”撮合成交;贵阳大数据交易所则鼓励撮合成交,主要以签订数据招投标合约的形式进行交易。企业需要结合买卖双方的地理位置实际情况,选择适合的交易场所和购买模式,并在签订合同时注意数据用途、权责范围等要点。

三是数据交付方式。数据虽然依赖物理载体,但本身具备可复制性,在交付和使用上也与普通实物商品有很大不同。目前,数据交付方式主要包括三种。第一种是数据包交付模式,即卖方将数据拷贝至双方约定的数据交易场所;第二种是API交付模式,即卖方使用API接口向买方传输数据;第三种是数据托管模式,即买方在双方约定的服务器环境内直接使用卖方数据。企业应当依据自身产品研发时对数据的使用特点选择适合的交付方式。

Q16. 什么数据禁止或不宜交易?AIGC企业向数据供应商购买数据应当注意什么?
参考GB/T 37932—2019《信息安全技术 数据交易服务安全要求》第6章第2条,以下数据不应进行交易:(1)国家秘密、国防资料、涉及公共利益等重要数据;(2)未经个人信息主体同意授权以及未去标识化的个人信息,其中尤为注意敏感个人信息和未成年人的个人信息;(3)未经授权的商业秘密和受知识产权保护的数据;(4)以窃取等方式非法方式获取而来的数据;(5)法律规定或已有权利人约定禁止公开、销售、转让等的数据。
提请注意,现行的数据安全和个人信息保护相关法律法规框架对数据交易买方应承担的注意义务要求较高,买方使用违规数据造成不良后果时需要承担法律责任。因此,AIGC企业在购买数据时应当审查:(1)卖方数据获取渠道是否合法,是否拥有数据的完整权利;(2)数据在后续使用开发的权利范围上是否清晰无争议;(3)数据内容本身是否真实、准确、合法;(4)卖方是否对数据进行了合理分类,并进行过安全风险评估,评估报告是否真实准确。
数据内容合规
Q17. 对于训练数据内容有哪些合规要求?应当如何符合这些合规要求?
训练数据对于AIGC具有特殊意义,AIGC所生成内容的实质就是AI对被输入训练数据的创造性识别、选取、组合和输出,训练数据对AIGC生成内容的质量具有决定性意义。因此,训练数据的内容除应当符合不危害国家安全、不危害社会稳定和公共利益、保护敏感个人信息等要求外,还应符合《生成式人工智能服务管理暂行办法》第7条提出的真实、准确、客观、多样等要求。
我们建议,企业可以采取以下措施尽量向合规要求靠拢。一是防止数据污染,即使用数字水印等手段对数据源进行核实和审查,防止在数据收集阶段混入虚假和违规信息;二是进行数据脱敏,即在收集到数据后通过字符串模式匹配等手段,对可能涉及国家和个人敏感信息的数据进行匿名化处理或是直接删除;三是尝试数据预筛,即通过人工筛查或训练小型特化AI进行自动化筛查的手段,去除数据中无法通过直接字符匹配筛查出的敏感或违规内容。
Q18. 能否合成虚拟数据做产品训练和研发?是否会违背数据真实性要求?需要注意什么?
合成虚拟数据是指企业为克服训练数据不足的困境,对现有有限数据采取技术手段从而合成更多能够用于训练的等价数据的行为,通过这种行为得到的数据并非由人类真实生成,但却与真实数据在形式和内容上较为相似。有关这类虚拟数据是否符合《生成式人工智能服务管理办法》第7条提出的数据真实性要求这个问题,从技术原理出发,我们认为:虚拟数据与虚假数据存在本质不同,虚拟数据是有可能合理出现在真实世界,只是因为客观原因暂未出现的数据,而虚假数据是根本不可能出现在现实世界的数据,因此二者对AI训练的影响亦大有不同。例如,如果要训练一个可以智能识别身份证号的AI,则对该AI而言,虚拟数据是指符合数字排列规律(如共有18位数、第7至第14位数固定为出生日期等),只是因为现实中恰好没有对应的人而未被启用的虚拟身份证号;而虚假数据则是连数字排列规律都不符合的乱码。因此,若企业通过算法保证AIGC只是从虚拟数据中学习到合理的数据识别和组合模式,其符合数据真实性要求的可能性较高。
目前,合成虚拟数据主要有两种路径,可以以图片为例进行说明:第一种是AI领域早已有之的“数据增强”(Data Augmentation),即机械性地针对数据本身特点利用已有数据进行合成,例如可以对已有图片进行旋转、翻转、放缩等来创造出新的可供训练的图片;第二种则是在AIGC技术提升后出现,直接使用AIGC来生成新的训练数据,例如可以使用较为特化的小型绘画AI绘制图片,以供大型语言模型训练。提请注意,依照《生成式人工智能服务管理暂行办法》第7条,第一种合成路径应当归属于数据处理活动范畴,处理者需提高数据质量,增强数据真实性、准确性、客观性、多样性;而第二种合成路径已经使用到了AIGC本身,应当归属于使用深度合成技术提供服务,因此除前述《生成式人工智能服务管理暂行办法》的要求之外,亦需要符合《互联网信息服务深度合成管理规定》的要求,例如在要用到人脸等敏感个人信息时注意获取单独同意,以及采取措施防止生成违规内容等。
数据加工
Q19. 什么是数据加工?包含哪些步骤?
数据加工是指对收集到的非结构化原始数据进行适当处理和标注,使其成为较结构化的数据集,从而方便AI顺畅使用数据批量化地进行训练。数据加工能够使得一开始收集到的混乱无序的原始数据表变为规整有序的数据集合,是AIGC模型研发的必经之路。
一般而言,数据加工的通用流程主要包括以下几步。一是数据清洗,即去除空白的、错误的或重复的数据,保证每一条数据均包含真实有效的实质内容;二是数据标准化和结构化,即根据数据特点进行批量化处理,使数据符合训练需求,例如文本数据可能需要对字段进行合并、拆分或匹配,图像数据可能需要统一去除噪声或是直方图均衡化等,前文提到的“数据增强”亦可归属于这一步;三是数据标注,即根据训练需求为数据附上合适的标签,使得AI可以根据标签来判断自己对数据的判断是否正确、学习效果是否良好。
Q20. 企业有哪些数据加工方式?
数据加工是AIGC模型研发的必经之路,对模型效果有着决定性作用,因此一些企业会选择完全自主进行数据加工,以保证模型研发的保密性和自主性。但是,数据加工需要投入的时间和人力成本也是较高的,所以一些企业也会采取委托加工或是合作加工的方式,将加工工作部分或全部外包出去。例如,数据标注环节往往需要大量的人工参与,所以现在市面上有很多数据“众包”平台,企业可以在平台上发布数据标注任务并给出报价,用户可以在平台进行接单以赚取报酬。再如,OpenAI公司开发ChatGPT时,也通过外包的方式雇佣了大量非洲欠发达国家的廉价劳动力完成数据标注。
综上所述,对于企业而言,数据加工类似于软件开发,主要有自主加工和委托加工两种方式,而具体如何选择加工方式,需要企业结合自身情况确定。我们建议,企业在选择数据加工方式时,主要考虑的因素应包括所研发的模型特点、数据收集的现实情况以及企业自身资金、人力等各方面能力量级等。

Q21. 企业对原始数据进行自主加工形成数据集,是否能够主张知识产权或其他所有权?

对数据进行加工时客观上需要对数据的结构、特征和具体内容进行研究和思考,并根据数据实际情况采取合适的加工方法,故加工形成的数据集应当归属于智力活动成果。但在数据集是否属于创造性成果、能否据此主张知识产权乃至其他权利等方面,我国尚属探索阶段,相关立法仍属空白,因此我们试图在对当下法律框架现状进行分析的基础上给出一些浅显的意见建议,仅供参考。

《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(即“数据二十条”)中提出“建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”,这体现了我国在数据产权上尝试创新性地采取“三权分立”方式的特殊政策导向。这是因为数据虽然依赖物理存储介质,但其与传统实物不同,具备可复制性、非排他性,不像实物那样一旦被某一主体占有就客观上无法被其他主体分享。并且,单一的原始数据没有价值,只有对大量数据进行集合和处理加工形成的结构化数据集才具备相当的科研及商业价值,这与实物只要存在即有价值也是不同的。因此,就数据集而言,我们推测将来会形成与传统知识产权或财产权等有所区别的新型产权形态,这种新形态可能吸纳传统产权的部分原则,亦可能考虑到数据本身特点而创设全新保护路径。

目前,国内多地对数据产权保护都开始了制度探索,例如《浙江省数据知识产权登记办法(试行)》认定数据主体对依法收集、经过一定算法加工、具备实用价值和智力成果属性的数据资源可以进行数据知识产权登记。据此我们推测,在未来的立法中,企业应当可以主张对自主加工形成的数据集拥有产权。

我们还推测,能否主张产权或许还会受到数据获取方式的影响,这是因为采取不同方式所付出的工作成本也是不同的。如果是爬取得来的数据,则企业在爬虫开发和设置上需要花费较多精力,且大概率需要对数据进行费时费力的标注,因此能够主张数据产权的可能性较高;而如果是直接使用开源数据集或从他人那里购买数据集,则获取到的已经是成型数据集,使用方可能仅需略微调整即可使用,故此时主张产权的可能性较低。

Q22. ChatGPT所产生的答复是否有相应的知识产权?进行数据挖掘和训练过程是否需要获得知识产权?
(以下观点初成于2024年1月,随着实务进展,问题已现新视角,下文将增补新观点)

针对第一个问题,我们认为,在我国既有法律框架下,ChatGPT生成物不具备知识产权,原因如下。首先,著作权的享有者必须是自然人、法人或非法人组织,也即法律意义上可以被视为“人”的主体,而ChatGPT本身虽然看似具备人的思维能力,但其本身依旧由内置算法逻辑控制,属于人制造的机器,不能拥有法律上的著作权主体地位。并且,若主张ChatGPT背后的OpenAI公司可以作为著作权主体,也是站不住脚的,否则根据类推原则就可以无限制扩大计算机生成内容具备著作权的范围。如果可以这样的话,那微软就可以主张对用户使用Excel对表格进行分析和计算产生的新数据拥有著作权,这显然是不合理的。退一步说,ChatGPT生成内容,除了要依靠开发主体为其进行数据投喂和训练,还需要依靠用户提出相应的问题,以及依靠该问题相关的海量数据,本身就是多个主体共同享有的结果,即使非要为其生成的内容找一个著作权主体,这个主体是否是企业本身还要打一个问号。

其次,著作权所保护的客体应当是具备独创性的智力成果表达,但ChatGPT进行回答的本质只是针对用户的输入并结合一定的内置算法逻辑,挑选自身数据库中储存的对应数据,并将其以符合人类语法的排列形式输出。因此,ChatGPT所生成的回答不是自发地进行创新表达,只是对已有数据的规则性抽取和排列,故也不符合著作权的客体要求。综上,无论是在主体还是客体上,要求ChatGPT生成物具备知识产权都是站不住脚的。

有关第二个问题,我们认为,为开发ChatGPT类产品进行数据挖掘和训练有必要获得知识产权或知识产权许可。如上所述,ChatGPT本身是通过抽取和排列已有数据来形成自身回答的,故其输出的内容可视为已有数据的汇编和集合。从法理角度上讲,即使是仅对具备知识产权的作品进行分析和统计等较为简单的操作,由于涉及到对作品内容的复制、修改和汇编,也是需要获取知识产权许可的,故AI训练亦不可免除该项义务。从商业角度讲,相较于一般互联网产品,ChatGPT类产品的生成物被用户看出涉及其他有知识产权的作品的概率本就更高,若不获取知识产权许可,则产品在后续运行中被用户投诉而陷入知识产权纠纷的可能性也会随之升高,这就极大增加了企业的法律风险。综上,进行数据挖掘和训练应当获得相应的知识产权或知识产权许可。

(新观点增补)

针对第一个问题,(2023)京0491民初11279号“AI生成图片著作权侵权第一案”提出了新的观点。北京互联网法院审理认为,原告进行了一定的智力投入,比如设计人物的呈现方式、选择提示词、安排提示词顺序、设置相关参数、选定图片等,涉案人工智能生成图片体现了原告的个性化表达和智力投入,具备“独创性”要件,应当被认定为作品,受到著作权法保护。该案首次认可自然人对其利用AI绘画大模型生成图片在符合一定条件下享有著作权,肯定了AI生成内容的可版权性。

对此,学术界也有不同的看法。例如,王迁教授持反对观点,他认为,“人工智能文生图第一案”的判决及相关学术观点不符合著作权法的基本原理,在逻辑上无法成立。

人工智能生成的内容是否有相应的知识产权这一问题,涉及技术、法律和伦理等多个层面,没有标准的答案。目前,这仍是一个被持续研究且受到热烈讨论的话题,实务界和学术界存在不少争论和不同的见解。
关于第二个问题,(2024)粤0192民初113号“全球AIGC平台侵权第一案”提供了补充。广州互联网法院认为,生成式人工智能具有一定的工具属性,服务提供者在提供生成式人工智能服务时应尽到合理的注意义务。本案中,涉案平台的行为侵犯了原告对案涉奥特曼作品享有的复制权、改编权,应承担赔偿责任。判决书指出,服务提供者应采取建立举报机制、提示潜在风险、进行显著标识等行动,尊重知识产权。这也印证了前述“数据挖掘和训练应当获得相应的知识产权或知识产权许可”的观点。

Q23. 有哪些数据加工步骤可以委托或合作?企业在进行委托加工或合作加工时有什么要点需要注意?

数据加工中的清洗、标准化和结构化、标注等步骤均可以委托或合作,但在实行时会依步骤不同而有所区别。具体而言,数据清洗、标准化和结构化对AIGC模型研发效果的影响相对较小,且这些步骤可以依靠编写自动化脚本来完成,对人力的需求也较小,故委托中委托方可能只会开放部分原始数据作为测试要求受托方编写脚本,合作中双方可能也只会在商定策略后各自负责自己所有的那部分原始数据。而数据标注对模型研发效果的影响相对较大,且对人力需求较大,因此委托中委托方可能需要将原始数据全部分享给受托方,合作中双方亦可能需要共享全部原始数据。
我们建议,考虑到前述“数据二十条”中明确对数据产权提出“三权分立”的政策导向,企业在为委托加工或合作加工签订协议时,应当注意根据委托合作的具体步骤及实行情况,明确数据资源持有权、数据加工使用权、数据产品经营权这三权分别为哪方所持有或共有,从而划分好数据权利归属,尽量降低未来产生纠纷的可能性。


评论列表(0)
暂无提问

发表提问 取消回复