7

百度彭煦潭:濒危语言的守护者,AI让古老语言重焕生机

 2 years ago
source link: http://www.mycaijing.com.cn/news/2022/04/29/469380.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

百度彭煦潭:濒危语言的守护者,AI让古老语言重焕生机

来源: 浏览:1261 2022-04-29 15:51:32
“青年是整个社会力量中最积极、最有生气的力量,国家的希望在青年,民族的未来在青年。中国青年始终是实现中华民族伟大复兴的先锋力量。”在共青团建团100周年及五四青年节到来之际,国新办发表的《新时代的中国青年》白皮书,高度肯定了青年的时代地位,可谓掷地有声。在滚滚向前的时代洪流中,青年应该怎样发挥自身价值...

“青年是整个社会力量中最积极、最有生气的力量,国家的希望在青年,民族的未来在青年。中国青年始终是实现中华民族伟大复兴的先锋力量。”在共青团建团100周年及五四青年节到来之际,国新办发表的《新时代的中国青年》白皮书,高度肯定了青年的时代地位,可谓掷地有声。

在滚滚向前的时代洪流中,青年应该怎样发挥自身价值,激扬青春?正在谢菲尔德大学读博的彭煦潭认为,新时代的中国为青年人实现个人理想提供了广阔的沃土,年轻人不仅要有情怀有理想,更应该积极利用科技带来的力量去实现心中理想。

彭煦潭,谢菲尔德大学在读博士,研究兴趣主要围绕自然语言处理和表示学习。尽管还是一名学生,却已经利用AI技术在保护藏川文化和濒临消失的语言方面做出了突出贡献,利用百度飞桨平台能力全自动地生成大规模“汉语-少数民族语言”词典。

新时代青年的独特情怀:保护濒危语言 传承人类文明DNA 

“语言是文明的DNA”,当一些语言不再被传递给下一代的时候,意味着一个文明正在被人们所忘却。2020年初的“国际母语日”期间,彭煦潭在谢菲尔德大学人文学院听了一场演讲,了解到全球现存7000余种有记录的语言中,已经有超过400种濒临灭绝,超过200种处于接近濒危的状态。

濒危语言的处境激起了这个热血青年的强烈保护欲,也成为促使他加入保护濒危语言的行动中的直接因素。谈到保护濒危语言的初衷,彭煦潭说这是一种情怀,他希望通过自己的所学知识更好的保护人类文明传承的“DNA”。从大学的计算机专业,到博士期间研究“计算机语言学”并将自然语言处理和表示学习作为研究方向,彭煦潭始终想通过AI技术帮助一线预报工作者减轻工作量,守护濒危语言。

彭煦潭介绍,根据中国语言资源保护工程公布最新数据,四川凉山彝族自治州和雅安地区的藏民熟悉的“尔苏语”就是一种亟须采取保护的语言。

“不过这种保护我们发现很难通过传统的劳动密集型方式去实现,因为想要做到这种语言的翻译、保存,就必须找到同时会尔苏语和汉语的人来进行‘人工对齐’,但事实上目前会这种语言的只有不到2万人,且超过一半都是70岁以上、不会说汉语的文盲老人。而且如果遇到更生僻、更濒危的语言就更难知道其背后的含义了。”彭煦潭解释说。

2020年,彭煦潭及其团队,利用专业知识在百度飞桨平台建立模型,并基于无监督跨语言词向量算法,成功地实现了对濒危语言词典的自动化生成。而且该项目成果还拿下了第三届“中国高校计算机大赛人工智能创意赛”海外赛区的一等奖、最佳案例奖和优质开源奖。

开放心态成就心中理想:搭载百度飞桨 更好实现濒危语言保护成果

濒危语言的保护实现不易,但AI技术的发展却为相关项目的开展提供了难以估量的价值。基于自身的研究方向,以及开放的技术心态,彭煦潭首先想到的是利用百度飞桨助力濒危语言的保护。

彭煦潭表示自己早在18年就注册了百度飞桨,当时的用户id序列是八十多,而现在已经有几十万的用户注册使用了。过去三年,百度飞桨算子的丰富度和应用性,以及模型的配套和案例的丰富度都得到了很大提升,使用起来非常方便。他觉得在飞桨平台搭建一个AI 算法,就像在搭积木,原来需要自己去砍树去打磨,现在拿起积木就能动手。

“由于少数民族的语料主要围绕神话传说、民间故事、民歌和日常会话,我们想或许可以构建现代汉语同领域的语料库,当各自的语料领域相对近似时,可以通过对齐算法建立濒危语言和现代汉语之间的联系。”彭煦潭解释道,“在具体操作过程中,我们充分利用飞桨平台能力构建了主题一致的现代汉语数据集,并在低资源条件下训练单语词向量,最终借助飞桨实现跨语言词向量对齐算法,全自动地生成大规模‘汉语-少数民族语言’词典。”

百度飞桨能力的加持以及我们对几何分布方法的运用,大大解决了传统需要双语学者才能做到的翻译工作,不仅能节省人力物力,也能很大程度上提升翻译的精准度。在拯救濒危语言的过程中发挥了很大作用。

彭煦潭介绍,后续他们还计划把项目的源码、文本说明和相关权利全部捐赠给了国家语保工程的“语言典藏”项目,帮助其完善语言翻译工具链,以更大规模地运用在少数民族语音和地方方言的保护工作上。

而在谈到未来AI技术在语言应用方面的价值时,彭煦潭表示AI技术不仅能完成语言和语言之间的翻译,还能实现古代语言和现代语言的转换,并帮助小语种人群实现更简单地实现“跨语言迁移学习”,AI技术的未来应用前景非常广阔。

民族的就是世界的,对濒危语言的保护不仅是传承人类多样性文化的需要,更是增强文化自信,将民族历史文化推向更广阔平台的必要措施。更多像彭煦潭这样的中国青年接过前辈们手中的接力棒,利用自身所学实现创造性转化和创新性实践,让深厚的传统文化活起来,这是对文化自信和民族自豪最好的诠释。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK