10

秦兵教授受邀在2021中国人工智能大会自然语言处理专题论坛做主题报告

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzIxMjAzNDY5Mg%3D%3D&%3Bmid=2650803645&%3Bidx=1&%3Bsn=dbd0b31ea71cfd7866ee01e86385a7c7
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

秦兵教授受邀在2021中国人工智能大会自然语言处理专题论坛做主题报告

Original 哈工大SCIR 赛尔实验室 2021-10-16 08:13

10月12日,2021中国人工智能大会(CCAI 2021)在成都举行。本次大会以“智启非凡”为主题,以“强化自立、硬化创新、深化融合、优化协同”为目标,设置了8场主题报告、1场院士尖峰对话、9大专题论坛、6个同期活动。大会邀请政府部门、科研院所、高校、科技企业的领导、专家学者、企业家、技术领军者等各界代表进行最新成果交流,以产业共智启迪非凡未来。

640?wx_fmt=jpeg

2021中国人工智能大会开幕仪式

哈工大社会计算与信息检索研究中心主任秦兵教授受邀在自然语言处理专题论坛做关于《文本生成技术》主题报告。

640?wx_fmt=jpeg
秦兵教授简介报告主要介绍了三部分内容,分别是文本生成任务概述异构数据理解可控文本生成。在第一部分中,给出了文本生成任务的目标和主要场景,可以简单概括为文本到文本的生成、结构化数据到文本的生成和图像数据到文本的生成,并简述了基于编码器和解码器的通用文本生成框架。
640?wx_fmt=png

图1 主要讲解内容

由此也引出了第二部分如何来针对不同模态的输入进行编码,其中文本建模主要采用序列化的编码方式。针对篇章级或者对话领域的摘要任务,主要是通过引入篇章结构信息加以处理。
640?wx_fmt=png

图2 对话中的篇章关系

针对结构化表格数据建模问题,介绍了三元组层次化编码方式和引入预训练模型的序列化编码方式,并通过加入表格重构损失保留输入数据的结构化特征(TableGPT)。
640?wx_fmt=png

图3 TableGPT的表格重构

在图像数据编码过程中介绍了Image Caption、Visual Storytelling和Video Summarization三个任务,以及编码图片和视频的相同之处与不同之处。在第三部分中主要介绍了如何对解码端进行长度控制、风格控制和逻辑控制,分别通过修改Transformer的Position Embedding、预训练模型解码偏置和动态Coverage策略,通过上述方法可以有效的对生成文本实现控制,提升文本生成技术的可用性。
640?wx_fmt=png

图4 动态 Coverage 策略

最后,对文本生成领域进行了展望,包括如何有效约束预训练生成模型,保证事实一致性;如何提升长文本生成的逻辑一致性,保证前后统一和如何改进自动文本生成评价标准,降低人工评价的主观性等。

本期责任编辑:冯骁骋
本期编辑:彭 湃


哈尔滨工业大学社会计算与信息检索研究中心

理解语言,认知社会

以中文技术,助民族复兴

0?wx_fmt=png
赛尔实验室
哈尔滨工业大学社会计算与信息检索研究中心
434篇原创内容
Official Account

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK