five

community-datasets/has_part

收藏
Hugging Face2024-06-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/has_part
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个关于hasPart关系的新知识库,这些关系是从大量通用语句中提取出来的。数据集的特点是准确性高(90%的精确度)、覆盖范围广(包括人们可能提到的关系),并且对常见术语的覆盖率高(近似于10岁儿童的词汇量)。此外,数据集还包含了量词、参数修饰符的信息,并将实体链接到Wikipedia和WordNet中的适当概念。数据集的结构包括arg1、arg2、score、synset和wikipedia_primary_page等字段,主要用于文本分类/评分任务,特别是处理部分关系(如‘植物’有部分‘茎’)。数据集的创建过程包括从大型语料库中收集通用句子、训练和应用RoBERTa模型来识别hasPart关系、规范化实体名称、聚合和过滤条目以及将hasPart参数链接到Wikipedia页面和WordNet意义。
提供机构:
community-datasets
原始信息汇总

数据集卡片 for HasPart KB

数据集描述

数据集摘要

该数据集是一个新的 hasPart 关系知识库(KB),从大量通用陈述语料库中提取。与其他可用资源互补,它是第一个同时具备以下三个特点的资源:准确(90% 精度)、显著(涵盖人们可能提及的关系)和高覆盖率(近似于一个 10 岁儿童的词汇量),并且其 hasPart 条目数量是流行本体库 ConceptNet 和 WordNet 的几倍。此外,它还包含关于量词、参数修饰符的信息,并将实体链接到 Wikipedia 和 WordNet 中的适当概念。

支持的任务和排行榜

文本分类 / 评分 - 部分关系(例如,plant 有部分 stem

语言

英语

数据集结构

数据实例

json { "arg1": "plant", "arg2": "stem", "score": 0.9991798414303377, "synset": ["wn.plant.n.02", "wn.stalk.n.02"], "wikipedia_primary_page": ["Plant"] }

数据字段

  • arg1, arg2: 这些是部分关系的实体,即 arg1 has_part arg2
  • score: 部分关系的评分,根据下述过程描述
  • synset: WordNet 中两个实体的本体分类
  • wikipedia_primary_page: 实体的 Wikipedia 页面

注意: 某些示例仅包含一个实体的 synset / wikipedia 信息。

数据分割

单个训练文件

数据集创建

我们的 hasPart 提取方法包括五个步骤:

  1. 从大型语料库中收集通用句子
  2. 训练并应用 RoBERTa 模型来识别这些句子中的 hasPart 关系
  3. 规范化实体名称
  4. 聚合和过滤条目
  5. 将 hasPart 参数链接到 Wikipedia 页面和 WordNet 感官

我们不是从任意文本中提取知识,而是从通用句子中提取 hasPart 关系,例如“Dogs have tails.”,以偏向于提取通用(适用于一个类别的大多数成员)和显著(足够值得记录)的提取。作为通用句子的来源,我们使用 GenericsKB,这是一个从 17 亿个句子中收获的 340 万个独立通用句子的大型存储库。

注释

注释过程

对于 GenericsKB 中的每个句子 S,我们使用名词块解析器(spaCy 的 Doc.noun chunks)识别句子中的所有名词块。每个块都是一个候选的整体或部分。然后,对于每一对可能的组合,我们使用 RoBERTa 模型来分类它们之间是否存在 hasPart 关系。输入句子以 wordpiece 标记序列的形式呈现给 RoBERTa,候选 hasPart 参数的开始和结束使用特殊标记标识,例如:

[CLS] [ARG1-B]Some pond snails[ARG1-E] have [ARG2-B]gills[ARG2-E] to breathe in water.

其中 [ARG1/2-B/E] 是表示参数边界的特殊标记。[CLS] 标记被投影到两个类别标签(hasPart/notHasPart),然后应用 softmax 层,产生类别标签的输出概率。我们使用交叉熵损失进行训练。我们使用 RoBERTa-large(24 层),每层隐藏大小为 1024,16 个注意力头,总共 355M 参数。我们使用模型提供的预训练权重,并通过在我们的标记数据上训练 15 个周期来进一步微调模型参数。为了训练模型,我们使用了一个手工注释的约 2k 个示例集。

注释者是谁?

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

plaintext @misc{bhakthavatsalam2020dogs, title={Do Dogs have Whiskers? A New Knowledge Base of hasPart Relations}, author={Sumithra Bhakthavatsalam and Kyle Richardson and Niket Tandon and Peter Clark}, year={2020}, eprint={2006.07510}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @jeromeku 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作