神农法学名家讲坛
 
 
神农法学名家讲坛(第12讲)|肖冬梅:生成式人工智能使用训练数据的著作权风险及其合规方案
2024-10-23 18:29 虞澍德    (点击)

10月22日神农法学名家讲坛(第12讲)在伟德国际1949始于英国四楼模拟法庭开讲。主讲人为湘潭大学知识产权学院肖冬梅教授,主题为“生成式人工智能使用训练数据的著作权风险及其合规方案”。讲座由伟德国际1949始于英国谭伟教授主持,冷必元经理、徐慧娟副经理、谭伟教授、孙蕾研究员、杨海涌副教授、王瑞玲副教授、陈晰博士、张彪博士、孙昊博士、谢米隆博士、彭华副教授等伟德国际1949始于英国老师、研究生以及本科生参加了讲座。讲座伊始,谭伟教授对肖冬梅教授表示热烈欢迎,并为大家介绍了肖冬梅教授的基本情况和丰硕的学术成就。在讲座中,肖冬梅教授介绍了生成式人工智能,是指一种通过学习大规模数据集生成新的原创内容的新型人工智能,如文心一言、文心一格、豆包等。肖教授强调,今天的主题不是对生成式人工智能提立法建议,而是立足于现行知识产权法基础上,对于生成式人工智能引发的法律风险进行防范和管控,并提出可行有效的合规方案。

肖冬梅教授介绍了生成式人工智能的训练步骤及原理,生成式人工智能训练数据的目的不是为了复制数据,而是将用户指令转化为相应输出的模型以及探索模型训练规则。肖冬梅教授指出,作为新时代的法科生,要敢于突破学科间的知识壁垒,积极优化自身的知识结构。既要熟练掌握法学专业的基础知识,又要善于建立多学科的知识脉络,以便更好地与时俱进、推陈出新。在此基础上,肖冬梅教授充分坚持问题导向,在实践中发现并提出了生成式人工智能的著作权侵权风险,通过研究,提出了行之有效的著作权合规方案。肖教授随即从以下三个方面进行展开:

一、归纳大模型使用训练数据的主要争议。肖教授以“《纽约时报》诉OpenAI、微软人工智能产品侵权版权”一案切入,逐步分析生成式人工智能是否存在著作权侵权风险,主要从以下三点进行判断:第一,分析训练大模型的数据构成是否符合著作权法意义上的作品?第二,大模型使用训练数据的行为是否落入著作权专有权的控制范围?是作品性使用还是非作品性使用?第三,是否存在著作权的侵权阻却事由?即是否符合“合理使用”、“法定许可”、“强制许可”三种免责事由。上述案例的争议焦点主要是使用包含享有著作权作品在内的数据集来训练人工智能究竟是著作权侵权还是合理使用的问题。对此,学界主要有侵权责任阻却事由说、使用权者说、权利限制说三种观点。

二、提出并分析著作权的侵权风险。肖教授认为,由于著作权法保护的是作为思想表达的作品而非思想本身,所以对于生成式人工智能使用训练数据的著作权风险应当从两方面来进行分析。第一,在数据输入和模型训练阶段,对于上述数据集的使用是一种非表达性的使用,因而不存在著作权侵权风险。第二,在内容输出阶段的使用行为属于表达性的使用,可能存在复制权、改编权、保护作品完整权、信息网络传播权、广播权的侵权风险,要根据我国著作权法对于作品的“实质性相似”和“创造性“标准进行综合判断。对于创造性标准的认定,从比较法上看,德国的标准最为严厉,英国的标准最为宽松,我国的标准处于两者之间。

三、提出合理有效的著作权合规方案。肖教授以主体的区别来划分不同的合规方案。首先,若对服务提供者兼模型训练者进行合规服务,应当区分为公共领域的作品还是著作权保护期内的作品。如果是在著作权保护期内的作品,则需要划分为单独授权、集体授权、开放授权、“孤儿作品”四种情形来分别应对。其次,若对单纯的服务提供者进行合规服务,则可以采取尽职调查、用户告知、内容审核和侵权投诉机制的方式进行风险规避。

肖教授结合我国目前生成式人工智能发展情况,认为我国尚不需要严格适用著作权授权使用规则。可以考虑削足适履,引入法定许可制度;借鉴比较法上“确立文本与数据挖掘例外制度”、信息分析合理使用规则以及转换性使用规则,为生成式人工智能训练数据开辟合理使用的空间。从国家发展战略角度出发,对大模型训练数据的充分利用,将使我国新质生产力与经济高质量发展紧密协同、有机结合,从而保持中国国际竞争优势并处于领先地位。

在答疑互动环节,同学们都非常积极踊跃举手提问,肖冬梅教授对同学们提出的有关大模型数据的性质归属问题、数据知识产权的概念探讨、数据的转换性使用等问题一一进行了耐心而细致地解答。

讲座最后,谭伟教授对本次讲座进行了总结,并对肖冬梅教授的到来再次表示感谢。在本次讲座中,肖冬梅教授的授课着眼经典案例,回归著作权法的法理阐释与制度构建,深入浅出地讲解了生成式人工智能使用训练数据的著作权风险及其合规方案,为同学们建立起严密知识产权法体系打下了坚实基础,进一步激发了同学们对相关领域法治研究的热情,并赢得同学们的热烈掌声。

关闭窗口