6

死活想不起某个词语?清华大学出品的「反向词典」帮你告别「词不达意」

 2 years ago
source link: https://www.ifanr.com/app/1453378
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

死活想不起某个词语?清华大学出品的「反向词典」帮你告别「词不达意」

有一个古老的段子是这样说的:古人登上泰山,会感叹「会当凌绝顶,一览众山小」;而现在的人看着同样的景色,可能只会大喊「卧槽,牛逼!」

这不过是网络时代「失语症」的一部分。看着库里比赛时砍下 50 分,论坛里的评论往往是「库里牛逼」「YYDS」「MVP」……碰到出彩的评论,大家也只会报以「哪家书店能买到您的书」「XXX 当初退出文坛我是极不同意的」这样的公式化回答。

当然,这种娱乐性的流行用语本身并不是问题。字斟句酌咬文嚼字也许更适用于信件的时代,在需要即时反应的社交网络空间,可以随时套用的句式才更贴合人们的需求。

看见一个敢于在地铁站跳舞的人,比起文绉绉地说他「坦然自若」,说他是「社交牛逼症」更能够表达出我们内心的叹服。

640.gif

真正的问题在于,流行语的应用有没有让人失去对语言丰富性的敏感——当我在一篇文章中需要写到少数民族节日庆典的场面时,脑袋里一时竟想不出除了「喧嚣」「热闹」「人声鼎沸」之外的词语,而这显然与我想要表达的意思相去甚远。

只有当你想要认认真真写一篇冷静的文字时,网络「失语症」的危害才会显现出来,进而又让我怀念起高中时代那个用于积累语料素材的小本本。

不过,即使真的存在「语言退化」,也不代表着我们应该重新找个小本本积累词句锻炼表达,时代发展的好处就在于,它总会提供一些新的工具来解决新的问题。

比如说,清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP)和清华大学人工智能研究院就合作出品了一个名为「万词王」(WantWords)的开源在线「反向词典」——顾名思义,与传统词典给词语提供释义的做法相反,它可以在输入想要表达的意思后,为我们找到相对应的词语。

Snipaste_2021-11-09_19-38-58.jpg!720

作为一个在线工具,在「万词王」主页左上方,能看到它提供了「汉语」「英语」「汉-英」「英-汉」四种查找选项。如果选择「汉语」,那就是在输入汉语的描述后为你找到对应的汉语词。

同理,「汉-英」选项卡里,则可以在输入汉语描述后找到相应的英语词汇。也就是说,以汉语和英语为母语的人都能使用这个工具学习外语或是更好地理解自己的语言。

它的效果怎么样?我试着用了上面的案例,输入「描述人多的场景」之后,它给我列出了「稠人广众」「挨肩擦背」「挤挤插插」「囤街塞巷」等「好用」的词语。

虽说只有成语本身不足以让我写出漂亮的段落,但把它们用到句子上,总比用直白的「吵闹」和烂大街的「人山人海」要好得多。

Snipaste_2021-11-09_18-00-03.jpg!720

点击它给出的每个结果,都能在弹出浮窗中看到词语的拼音与定义,这种「把饭喂到嘴边」的体贴操作让我不至于陷入看到好词语以后都不知道怎么念的窘况。

sshot-2.jpg!720

在浮窗下方,还能看到四个按钮,分别能帮语言研究者在语言知识库 OpenHowNet 中查找词语义原(Sememe,即最基本的、不可分割的语义单位)、到百度汉语查看词语释义、寻找更多同义词以及上报错误。

而浮窗的左上角设置了代表「正合我意」的点赞按钮和「词不达意」的点踩按钮,可以预见,随着用户反馈数量的增加,词典所给出的答案也会更加准确。

之所以会出现「词不达意」的现象,是因为词典会在会在它浩瀚的语料库(也就是存储各种文本的仓库)里寻找一切与你描述的含义相关的词语,从而会错误地混入一些邻近但并不直接相关的词语。

例如,输入「描述人多的场景」时给出的结果中,会出现「闹市」「剧场」和「期货市场」等词语,它们在语料里确实与「人多」相关,但本身并不能描述喧嚣的场景,因此是需要被用户投票逐步排除出去的结果。

workflow-1024x993.jpg!720

▲「万词王」的工作流程

那么,用它来搜索英语词汇又会怎么样?我试了下在「汉-英」选项卡输入「下雨的词汇」,可以见到它确实给出了诸如 downpour(倾盆大雨)、splashing(液体飞溅)、sprinkling(仅限在局地的小阵雨)、drizzle(毛毛细雨)、cloudburst(豪雨)等许多别出心裁的特别表达,但同时也给出了比汉语更多的「干扰结果」,如 albedo(反照率)、Miami(迈阿密市)、sewage(污水)也被列入其中。

显然,目前用它用来增加词汇量很不错,但也确实需要更多的优化。

Snipaste_2021-11-09_18-45-41.jpg!720

这些词不达意的错误结果也许会让人感到头疼,但「万词王」提供的强大筛选器功能可以在一定程度上减轻这问题。

在筛选器里,用户能够根据词语字数、笔画数、词形、拼音首字母、词性、韵脚等方式筛选结果。如果本来就对用词毫无头绪,筛选器能起到的作用也许会很有限;但如果你本来知道某一个词语,只是一时间忘了,筛选器就能方便地帮你将它「找回来」。

sshot-1.jpg!720

在项目的 GitHub 页面上,开发者这样描述「反向词典」的应用范围:

  • 解决舌尖现象(Tip of the tongue),即自己知道某个词语,却如鲠在喉死活想不起来的短时性记忆抑制现象;
  • 为学习新语言的人提供帮助;
  • 帮助选词性命名不能 (word selection anomia) 患者。这类失语症患者声称知道正确名称,但就是「忘了」,常常以描述来代替说不出的词语。

但考虑到「万词王」的强大能力,我相信它的应用绝不止于这些领域。实际上,每个需要使用书面文字表达的人,或多或少都能从这款工具上获益。所以,为什么不马上打开浏览器试试呢?

附:万词王官网 https://wantwords.thunlp.org/home/

sysappso.jpg!720


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK