首页 产经 正文

百度彭煦潭:濒危语言的守护者,AI让古老语言重焕生机

2022-04-29 12:15 中国发展网

“青年是整个社会力量中最积极、最有生气的力量,国家的希望在青年,民族的未来在青年。中国青年始终是实现中华民族伟大复兴的先锋力量。”在共青团建团100周年及五四青年节到来之际,国新办发表的《新时代的中国青年》白皮书,高度肯定了青年的时代地位,可谓掷地有声。

在滚滚向前的时代洪流中,青年应该怎样发挥自身价值,激扬青春?正在谢菲尔德大学读博的彭煦潭认为,新时代的中国为青年人实现个人理想提供了广阔的沃土,年轻人不仅要有情怀有理想,更应该积极利用科技带来的力量去实现心中理想。

彭煦潭,谢菲尔德大学在读博士,研究兴趣主要围绕自然语言处理和表示学习。尽管还是一名学生,却已经利用AI技术在保护藏川文化和濒临消失的语言方面做出了突出贡献,利用百度飞桨平台能力全自动地生成大规模“汉语-少数民族语言”词典。

新时代青年的独特情怀:保护濒危语言 传承人类文明DNA

“语言是文明的DNA”,当一些语言不再被传递给下一代的时候,意味着一个文明正在被人们所忘却。2020年初的“国际母语日”期间,彭煦潭在谢菲尔德大学人文学院听了一场演讲,了解到全球现存7000余种有记录的语言中,已经有超过400种濒临灭绝,超过200种处于接近濒危的状态。

濒危语言的处境激起了这个热血青年的强烈保护欲,也成为促使他加入保护濒危语言的行动中的直接因素。谈到保护濒危语言的初衷,彭煦潭说这是一种情怀,他希望通过自己的所学知识更好的保护人类文明传承的“DNA”。从大学的计算机专业,到博士期间研究“计算机语言学”并将自然语言处理和表示学习作为研究方向,彭煦潭始终想通过AI技术帮助一线预报工作者减轻工作量,守护濒危语言。

彭煦潭介绍,根据中国语言资源保护工程公布最新数据,四川凉山彝族自治州和雅安地区的藏民熟悉的“尔苏语”就是一种亟须采取保护的语言。

“不过这种保护我们发现很难通过传统的劳动密集型方式去实现,因为想要做到这种语言的翻译、保存,就必须找到同时会尔苏语和汉语的人来进行‘人工对齐’,但事实上目前会这种语言的只有不到2万人,且超过一半都是70岁以上、不会说汉语的文盲老人。而且如果遇到更生僻、更濒危的语言就更难知道其背后的含义了。”彭煦潭解释说。

2020年,彭煦潭及其团队,利用专业知识在百度飞桨平台建立模型,并基于无监督跨语言词向量算法,成功地实现了对濒危语言词典的自动化生成。而且该项目成果还拿下了第三届“中国高校计算机大赛人工智能创意赛”海外赛区的一等奖、最佳案例奖和优质开源奖。

开放心态成就心中理想:搭载百度飞桨 更好实现濒危语言保护成果

濒危语言的保护实现不易,但AI技术的发展却为相关项目的开展提供了难以估量的价值。基于自身的研究方向,以及开放的技术心态,彭煦潭首先想到的是利用百度飞桨助力濒危语言的保护。

彭煦潭表示自己早在18年就注册了百度飞桨,当时的用户id序列是八十多,而现在已经有几十万的用户注册使用了。过去三年,百度飞桨算子的丰富度和应用性,以及模型的配套和案例的丰富度都得到了很大提升,使用起来非常方便。他觉得在飞桨平台搭建一个AI 算法,就像在搭积木,原来需要自己去砍树去打磨,现在拿起积木就能动手。

“由于少数民族的语料主要围绕神话传说、民间故事、民歌和日常会话,我们想或许可以构建现代汉语同领域的语料库,当各自的语料领域相对近似时,可以通过对齐算法建立濒危语言和现代汉语之间的联系。”彭煦潭解释道,“在具体操作过程中,我们充分利用飞桨平台能力构建了主题一致的现代汉语数据集,并在低资源条件下训练单语词向量,最终借助飞桨实现跨语言词向量对齐算法,全自动地生成大规模‘汉语-少数民族语言’词典。”

百度飞桨能力的加持以及我们对几何分布方法的运用,大大解决了传统需要双语学者才能做到的翻译工作,不仅能节省人力物力,也能很大程度上提升翻译的精准度。在拯救濒危语言的过程中发挥了很大作用。

彭煦潭介绍,后续他们还计划把项目的源码、文本说明和相关权利全部捐赠给了国家语保工程的“语言典藏”项目,帮助其完善语言翻译工具链,以更大规模地运用在少数民族语音和地方方言的保护工作上。

而在谈到未来AI技术在语言应用方面的价值时,彭煦潭表示AI技术不仅能完成语言和语言之间的翻译,还能实现古代语言和现代语言的转换,并帮助小语种人群实现更简单地实现“跨语言迁移学习”,AI技术的未来应用前景非常广阔。

民族的就是世界的,对濒危语言的保护不仅是传承人类多样性文化的需要,更是增强文化自信,将民族历史文化推向更广阔平台的必要措施。更多像彭煦潭这样的中国青年接过前辈们手中的接力棒,利用自身所学实现创造性转化和创新性实践,让深厚的传统文化活起来,这是对文化自信和民族自豪最好的诠释。

责任编辑:李振


返回首页
相关新闻
返回顶部