2

中文在线:多方携手保护数字版权,开启AIGC版权生态新格局-品玩

 1 year ago
source link: https://www.pingwest.com/a/283343
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

中文在线:多方携手保护数字版权,开启AIGC版权生态新格局-品玩业界动态

中文在线:多方携手保护数字版权,开启AIGC版权生态新格局

  “《三体》作者刘慈欣是哪个省的人?”

  “《三体》作者刘慈欣是黑龙江省的人,出生于哈尔滨市。”这是ChatGPT此前给出的回答。

  稍作了解会知道,刘慈欣是山西阳泉人。虽然ChatGPT已经对错误答案做了修正,但这不是它第一次犯错,显然也不会是最后一次。

  面对专业领域的具体问题,AI常常被人诟病“一本正经地胡说八道”,而AIGC模型之所以无法保证生成内容的质量和准确性,根源在训练数据。

  “各种AI模型通过各种数据集的投喂获取知识图谱和源数据,其生成内容的质量依赖于训练数据本身的质量和准确性。”6月2日,在远集坊第五十四期文化讲座《人工智能生成内容版权问题研讨》中,中文在线董事长兼总裁童之磊表示。他认为,2023年是人工智能的历史性时刻,正在带来数字内容产业的新机遇,也激活了模型训练对高质量数据的需求。

article-body

  与此同时,全球AIGC侵权案件的发生让大量数据违法使用和滥用问题浮出水面,引起了各界关注。

  据悉,远集坊此次讲座由中国版权协会主办,理事长阎晓宏亲自主持,演讲嘉宾除童之磊外,还有多位来自法学界、科技界和商界的代表,包括中国法学会副会长甘藏春、清华大学新闻学院教授、元宇宙文化实验室主任沈阳、澜舟科技创始人兼CEO周明、北京互联网法院综合审判一庭副庭长朱阁等。虽然在人工智能生成内容的版权界定上,仍有诸多议题处于理论探讨阶段,但对于尊重数字版权、抵制版权侵权,各方已经达成了共识。

  数据,AIGC的“砖石”与“命门”

  随着大模型的技术演进,尤其是多模态大模型的持续迭代,不仅需要更大的数据集进行预训练,更需要高质量的数据投喂。权威学者吴恩达曾在提及“以数据为中心的AI”时公开表示:“我认为目前必须将重点从大数据转移到高质量数据。“

  AI模型背后的数据以⽂本、语⾳、图像、视频等多种形态存在,其来源包括公共数据集、公共网站、自有数据、众包数据、合成数据等。这些数据是构建AIGC模型的“砖石”。理想状态下,海量、优质、正版数据与算力、算法三位一体,加速大模型迭代进化和应用层产品孵化,并通过AIGC产业层面的落地,完美呈现数据要素的价值。

  但这只是数据之于AIGC的A面,一旦数据存在缺陷,大厦的根基就会被撼动。例如,标注数据质量欠佳、预训练语料库多样性不足可能导致模型训练效果不理想、输出内容错误;数据来源不正,会使得生成的内容面临版权风险;数据安全性不足,可能导致模型抵御攻击性差、隐私信息暴露等,这些构成了数据之于AIGC的B面。

  更为隐蔽的风险则在于数据的导向性。AIGC作为一种高效的生产力工具,与人类“从无到有”的创造性劳动不同,它是将数据以一定形式转换后输入AIGC模型,从中提取有价值的内容,再生成与之相匹配的学习结果,本质上是一个“从有到无”的过程。因此,AIGC生成的内容,会展现出训练数据的元素、特征和价值倾向。数据所带有的价值观和立场,直接影响到AI生成内容的导向,决定了输出作品的底色。

  这也意味着,一旦数据导向存在偏差,大概率会导致AI生成的内容也同样“跑偏”,进而影响到用户的认知和行为,从这个角度看,数据也是AIGC的“命门”,获取优质、正版数据的能力成为大模型企业的核心竞争力之一。

  保护AIGC训练数据版权的“三点倡议”

  与对高质量数据的渴求相伴而来的,是AIGC训练数据的版权争议。

  今年1月,发生了两起影响全球的侵权诉讼,一个是美国三名漫画艺术家状告Stability AI、DeviantArt 和 Midjourney三家公司在“未经原作者同意的情况下”,从网络上采集近60亿张图像来训练其人工智能,侵犯了“数百万艺术家”的权利;另一个则是盖蒂图片社起诉Stability AI在训练旗下的Stable Difussion时,“非法复制和处理了数百万受版权保护的图像”。

  这两起案件也标志着AIGC将从野蛮生长状态逐渐转入法律法规的精细化管控之下。大量凝结着作者原创智慧的作品如果在AIGC领域脱离了版权的保护,长期来看,可能导致大量盗用和滥用,不仅会损害创作者的各项权益,也会扰乱市场秩序和社会安全,损害高质量数据的商业价值,最终反噬AI模型,影响其训练效果。

  为此,童之磊发出了三点倡议:

  一是进一步完善AI大模型使用训练数据立法。面对数字内容版权的全新领域,法律正在划定“不可为”的边界。近日,欧盟《人工智能法案》提案的谈判授权草案通过,该法案强调在使用版权法保护的数据进行训练时,需要进行公开披露。在我国,《生成式人工智能服务管理办法(征求意见稿)》已于2023年4月11日出炉, 要求提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。

  二是加强现有法律框架下的数据司法保护。AI训练数据通常是一种知识产权,判定数据合理使用的范围,通过专利权、著作权等法律防范侵权,能最大程度保护创作者和数据所有者的权益。

  最后,童之磊倡议AI领域前沿公司使用高质量正版数据,确保模型质量,同时呼吁数字内容文化产业、出版界、法律界联合起来,重视和尊重正版内容数据的价值,共建版权保护新生态。

  多方合力,共建AIGC版权保护新生态

  为了解决AIGC时代全新的版权保护问题,行业层面已经行动起来。在远集坊的活动中,中国版权协会联合首批26家单位发布《合理使用正版数据倡议书》,向AIGC领域专家、学者及AIGC从业机构发出六点倡议,包括尊重版权,赋能产业正向发展;避免侵权,营造良好发展环境等,并特别提及要在模型训练者与内容提供者之间搭建便利、有序的内容授权渠道。

  规范数据使用,当“破”亦当“立”。为推进数据交易市场体系建立,政策层面已经给出了清晰的指引。2022年底,国务院印发《数据二十条》,成为数据基础制度体系的高规格顶层设计。在市场层面,各主体也正在积极推动正版数据的交易和使用,其中,中文在线的做法堪称表率。

  作为数据的拥有者,中文在线现有的数据总量达55.5TB ,甚至比GPT3.5使用的45TB文本训练数据还要多,并且这些数据皆为正版、优质数据,兼具准确性、完整性、一致性、真实性。除此之外,中文在线每天还会产生数以亿计文字内容增量。

  在数字版权保护上,童之磊认为:“当下面临的版权挑战,既然是以技术为因,就应该以技术手段来应对。”为此,中文在线已开启以区块链技术为底层的知识产权保护逻辑,向上延伸至版权溯源与交易平台双线并行的业务模式。不仅以自研的创珍链作为底层技术支撑版权流转所有阶段,构建自主产权的版权秩序管理架构,还打造了以人工智能为基础的一站式版权监测及维权平台,能够实现自动取证、AI调整等功能,并以大数据为基础构建版权价值评估体系,通过技术创新强化数字版权服务。

  版权保护不是“一个人的战斗”,自2005年“中文在线反盗版联盟”成立开始,一个协同共建的版权保护生态就在不断生长。在近20年的时间里,中文在线主导内外部维权案件超万件,涉案著作权作品10万余部,累计获赔金额数亿元,为数千权利人提供了知识产权服务。这些实践让中文在线面对AIGC时代的数字版权保护难题时,得以提出更具可行性的解题思路。

article-body

  一个繁荣可持续的人工智能产业生态不可能建立在盗版与侵权之上,相信在政府、行业、企业、学界多方携手之下,AIGC版权生态的新格局是定将抵达的彼岸。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK