community-datasets/has_part
收藏数据集卡片 for HasPart KB
数据集描述
数据集摘要
该数据集是一个新的 hasPart 关系知识库(KB),从大量通用陈述语料库中提取。与其他可用资源互补,它是第一个同时具备以下三个特点的资源:准确(90% 精度)、显著(涵盖人们可能提及的关系)和高覆盖率(近似于一个 10 岁儿童的词汇量),并且其 hasPart 条目数量是流行本体库 ConceptNet 和 WordNet 的几倍。此外,它还包含关于量词、参数修饰符的信息,并将实体链接到 Wikipedia 和 WordNet 中的适当概念。
支持的任务和排行榜
文本分类 / 评分 - 部分关系(例如,plant 有部分 stem)
语言
英语
数据集结构
数据实例
json { "arg1": "plant", "arg2": "stem", "score": 0.9991798414303377, "synset": ["wn.plant.n.02", "wn.stalk.n.02"], "wikipedia_primary_page": ["Plant"] }
数据字段
arg1,arg2: 这些是部分关系的实体,即arg1has_partarg2score: 部分关系的评分,根据下述过程描述synset: WordNet 中两个实体的本体分类wikipedia_primary_page: 实体的 Wikipedia 页面
注意: 某些示例仅包含一个实体的 synset / wikipedia 信息。
数据分割
单个训练文件
数据集创建
我们的 hasPart 提取方法包括五个步骤:
- 从大型语料库中收集通用句子
- 训练并应用 RoBERTa 模型来识别这些句子中的 hasPart 关系
- 规范化实体名称
- 聚合和过滤条目
- 将 hasPart 参数链接到 Wikipedia 页面和 WordNet 感官
我们不是从任意文本中提取知识,而是从通用句子中提取 hasPart 关系,例如“Dogs have tails.”,以偏向于提取通用(适用于一个类别的大多数成员)和显著(足够值得记录)的提取。作为通用句子的来源,我们使用 GenericsKB,这是一个从 17 亿个句子中收获的 340 万个独立通用句子的大型存储库。
注释
注释过程
对于 GenericsKB 中的每个句子 S,我们使用名词块解析器(spaCy 的 Doc.noun chunks)识别句子中的所有名词块。每个块都是一个候选的整体或部分。然后,对于每一对可能的组合,我们使用 RoBERTa 模型来分类它们之间是否存在 hasPart 关系。输入句子以 wordpiece 标记序列的形式呈现给 RoBERTa,候选 hasPart 参数的开始和结束使用特殊标记标识,例如:
[CLS] [ARG1-B]Some pond snails[ARG1-E] have [ARG2-B]gills[ARG2-E] to breathe in water.
其中 [ARG1/2-B/E] 是表示参数边界的特殊标记。[CLS] 标记被投影到两个类别标签(hasPart/notHasPart),然后应用 softmax 层,产生类别标签的输出概率。我们使用交叉熵损失进行训练。我们使用 RoBERTa-large(24 层),每层隐藏大小为 1024,16 个注意力头,总共 355M 参数。我们使用模型提供的预训练权重,并通过在我们的标记数据上训练 15 个周期来进一步微调模型参数。为了训练模型,我们使用了一个手工注释的约 2k 个示例集。
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
plaintext @misc{bhakthavatsalam2020dogs, title={Do Dogs have Whiskers? A New Knowledge Base of hasPart Relations}, author={Sumithra Bhakthavatsalam and Kyle Richardson and Niket Tandon and Peter Clark}, year={2020}, eprint={2006.07510}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @jeromeku 添加此数据集。



