网络流行语的特征和翻译方法研究(谷歌发布用于有监督词义消歧的大型语料库)

 2024-08-18  阅读 178  评论 0

摘要:选自Google Research Blog机器之心编译参与:微胖、朱思颖、蒋思源理解特定单词在文本中的各种意思是理解语言的关键。比如,句子「he will receive stock in the reorganized company」中,根据新牛津美语词典(NOAD),我们依据上下文可以知道「

选自Google Research Blog

机器之心编译

参与:微胖、朱思颖、蒋思源

网络流行语的特征和翻译方法研究(谷歌发布用于有监督词义消歧的大型语料库)(1)

理解特定单词在文本中的各种意思是理解语言的关键。比如,句子「he will receive stock in the reorganized company」中,根据新牛津美语词典(NOAD),我们依据上下文可以知道「stock」是指「公司企业通过发行和认购股份筹措到的资金」。但是,词典中,从「存货(goods in a store)」到「一种中世纪刑具」,stock 的定义有十多个。计算机算法很难区分这些意思,过去,人们形容这一问题难度「与解决强人工智能核心问题的难度不相上下(AI-complete)」(Navigli, 2009 Mallery 1988 )。

为了帮助解决这个难题,我们很高兴发布了基于流行的 MASC 和 SemCor 数据组的词义标注,人工标注了 NOAD 的各种词义。我们也在发布 NOAD 词义到 English Wordnet 的映射,研究社区更常用到这个。这是最大的全词义标注英文语料库发布之一。

  • 方便从文本自动构建数据库,从而可以回答问题和链接文本中的知识。例如,理解「hemi engine」是一种自动化的机械,「locomotive engine」是属于火车的,或者也可以是说「Kanye West is a star」意味着他是一个名人,而「Sirius is a star」意味着它是天文学客体。

  • 消除查询中的词的歧义,使得「date palm」和「date night」或「web spam」和「spam recipe」等查询可以被解读出各自不同的含义,并且使得根据该查询所返回的文档具有和该查询相同的含义。

  • 人工标注

    在我们发布的人工标注数据集中,每一个词义标注(sense annotation)由五个人评估。为了确保高质量的语义标注,评估者首先会进行黄金标注(gold annotations)的训练,这个训练事先是由经验丰富的语言学家在单独试验研究中标注。下图显示了标注者在使用我们标注工具时的工作页面。

    网络流行语的特征和翻译方法研究(谷歌发布用于有监督词义消歧的大型语料库)(2)

    页面左侧列出了所有候选的字典词义(在这个例子中是单词「general」)。字典中的例句也会提供给标注者。在页面右侧,需要被标注单词会在句子中突出显示。除了将单词链接到字典词义之外,评估者还能标记如下三个异常:单词拼写错误、无上述情况(none of the above)和标注者不能决定。评估者同样可以检查词的使用是不是一种隐喻,并可以留下评论。

    用于此发布的数据进行词义标注任务使用 Krippendorff's alpha 测量达到了 0.869 的评估者间可信度值(inter-rater reliability score)。在 Krippendorff's alpha 中,α >= 0.67 就可以考虑是可接受的再现性结果(reproducibility),α >= 0.80 就是很高的可再现性结果。下面列出来了标注数:

    网络流行语的特征和翻译方法研究(谷歌发布用于有监督词义消歧的大型语料库)(3)

    Wordnet 映射

    Wordnet 地址:https://wordnet.princeton.edu/

    我们也发布了两套 NOAD 到 Wordnet 的映射。小一点的那一套,我们采用上述类似词义标注的方法,人工映射了 2200 个单词,大一点的那一套是算法创造的。这些映射有助于将 Wordnet 的资源应用到这个 NOAD 语料库中,也有助于用这套语料库评估使用 Wordnet 构建的系统。

    在这一语料库上使用基于 LSTM 的语言模型以及半监督学习的全部研究结果,请参阅论文《Semi-supervised Word Sense Disambiguation with Neural Models》。

    致谢

    这一数据库的建立离不开以下人员的帮助:Eric Altendorf、Heng Chen、Jutta Degener、Ryan Doherty、David Huynh、Ji Li、Julian Richardson 和 Binbin Ruan。

    ,

    版权声明:xxxxxxxxx;

    原文链接:http://cn.tdroid.net/ce37bCz0EAAkNX1Q.html

    发表评论:

    管理员

    • 内容265841
    • 积分0
    • 金币0
    关于我们
    lecms主程序为免费提供使用,使用者不得将本系统应用于任何形式的非法用途,由此产生的一切法律风险,需由使用者自行承担,与本站和开发者无关。一旦使用lecms,表示您即承认您已阅读、理解并同意受此条款的约束,并遵守所有相应法律和法规。
    联系方式
    电话:
    地址:广东省中山市
    Email:
    注册登录
    注册帐号
    登录帐号

    Copyright © 2022 太卓开发网 Inc. 保留所有权利。 泰达科技网易库网

    页面耗时0.1011秒, 内存占用1.34 MB, 访问数据库18次