生成式ai监管新规的哪些细节值得关注
2023-04-17 17:31:39 来源:法治日报·法治周末
《法治周末》记者 仇飞
随着人工智能技术的不断发展,aigc已经成为了一种新型的内容创作方式。为了确保aigc服务的质量和可信度,网信办发布了《生成式人工智能服务管理办法(征求意见稿)》,对aigc服务进行了规范。
从百度的文心一言到阿里的通义千问,国内各大厂相继发布生成式人工智能产品。生成式人工智能技术是一项正在快速发展的技术,它可以通过算法、模型、规则等方式生成各种类型的文本、图片、声音、视频、代码等内容。这种技术的应用前景非常广泛,包括自动化生成内容、智能化问答、自动化翻译等领域。然而,生成式人工智能技术也面临着一些挑战,其中包括知识产权、安全、伦理和数据等问题。针对这些挑战,最重要的立法措施《生成式人工智能服务管理办法(征求意见稿)》(以下简称《意见稿》)出台。这份意见稿对人工智能生成内容、主体责任、训练数据和数据处理等方面都做出了规定,旨在保障生成式人工智能技术的合规性和安全性。
然而,也有学者提出,当然人工智能产业刚刚起步,业界还不清楚究竟会出现哪些问题,又需要设置哪些规则。在这种情况下,过于超前的立法反而可能会阻碍技术的发展和创新。例如,《意见稿》提到:“提供生成式人工智能服务应当按照《中华人民共和国网络安全法》规定,要求用户提供真实身份信息。”对此,北京大学法学院薛军教授指出:“生成式人工智能服务,在特定情况下更类似于搜索服务,本质是一种智能检索,应当允许用户以游客的身份使用。比如,必应搜索引擎迁入了chatgpt问答模型,普通游客都可以浏览使用。这样,也可以更好保护用户的隐私,方便网民使用。”
在生成内容方面,《意见稿》提到:“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息”,确立了内容真实性的要求。这一规定目前受到颇多争议。从实践的角度来看,生成内容的真实准确性与生成式人工智能的技术原理是互相冲突的,人工智能生成内容并不是从知识库中搜索并拼凑出结果,生成结果是通过计算机算法得来的。所以对于生成信息的真实准确性,会存在一些不可避免的技术限制。以chatgpt为例,当问到ai不知道的问题时,ai会“一本正经的胡说八道”。真正的人工智能一定会犯错,因为它学习了很多知识,机器在推理过程中会产生突变。立法需要给予一定的包容空间,像看待人类学习进化一样去看待生成式人工智能的发展。
中国社会科学院大学法学院副教授、互联网法治研究中心执行主任刘晓春表示:“大模型服务提供者有责任积极采取与技术发展水平相适应的风险预防措施,及时响应监管要求,对权利主体提出的合理诉求给出及时的回应。如果按照规定执行,可以明确大模型服务提供者的具体治理义务,在其尽到与技术发展水平相应的义务的情况下,给予一定的免责规则。”
在训练数据方面,《意见稿》对预训练数据提出了更多的要求,要求保证训练数据的“真实性、准确性、客观性、多样性”。
清华大学中国发展规划研究院执行副院长董煜指出,大模型离不开数据的训练,如果对于训练数据作出过于严苛的规定,将阻碍大模型的发展速度。数据训练的规模会决定人工智能生成内容的质量,数据的数量和质量比算法和模型更重要,美国可以做出chatgpt,很大程度上在于美国对于全世界数据的收集和掌握。从欧盟、美国、韩国、日本等国家针对预训练数据合法性的要求来看,为了支持大模型的发展,他们允许使用各种出版物对生成式人工智能训练数据进行分析。因此,如果由于真实性、koko官网下载的版权等问题无法使用相关训练数据,将对人工智能技术发展带来很大的负面影响。
有学者提出,要求提供者保证训练数据的“真实性、准确性、客观性、多样性”,并不具有可操作性。训练数据来源非常复杂,且在大规模训练中才可能发挥作用,如果在使用训练数据前,先要审核一遍合法性,确实非常难以执行。对于训练数据中是否包含侵犯知识产权的内容的情况界定,存在很多模糊地带,往往需要法院经过专业判断才能识别出来。同样,“征得个人信息主体的同意”,也不具有可操作性。因为个人信息的范围极其大,仅就排除“姓名”这一项个人信息而言就无法实施。姓名在模型训练中很难筛选出来,操作的难度很大。
此外,《意见稿》第十五条规定“对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成”。在当前的社会和科技环境下,大型语言模型的参数规模在到达一个临界值后,涌现能力变得越来越强。即使是openai这样的团队,也很难解释这样的涌现现象。在这种情况下,人工智能基座大模型生成的内容往往是难以精确预测和控制的,这是生成式人工智能方法的固有缺陷之一。
因此,清华大学人工智能研究院视觉智能研究中心主任邓志东教授提出,“通过模型优化训练的方式防止再次生成侵权内容,在技术上非常难以实现,而利用价值对齐的算法采取内容过滤等措施或可实现。如果要求生成式人工智能产品服务提供方在收到侵权问题反馈时,第一时间过滤侵权内容,并通过模型优化训练,实际上是非常困难的,人工智能立法应当在智能涌现能力和安全性中找到平衡”。
责编:王硕