MASC (Manually Annotated Sub-Corpus)
收藏OpenDataLab2026-03-29 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MASC
下载链接
链接失效反馈资源简介:
手动注释子语料库 (MASC) 由大约 500,000 个单词的当代美国英语书面和口语数据组成,这些数据来自美国开放国家语料库 (OANC)。所有 MASC 都包括人工验证的句子边界、token、lemma 和 POS 注释;名词和动词块;命名实体(人、地点、组织、日期); Penn Treebank 语法;共指;和话语结构。 MASC 项目已经为部分子语料库生成了额外的手动生成或验证的注释,包括 FrameNet 框架元素的全文注释和带有 WordNet 3.1 感知标签的 100K+ 句子语料库,其中十分之一也被注释为FrameNet 框架元素。其他项目为各种其他语言现象提供了全部或部分子语料库的注释,包括 PropBank、TimeBank、Pittsburgh opinion 和其他几个项目。与大多数免费提供的包含各种语言注释的语料库不同,MASC 包含来自广泛流派的均衡文本选择。
提供机构:
OpenDataLab
创建时间:
2022-05-25



