community-datasets/has_part

Name: community-datasets/has_part
Creator: community-datasets
Published: 2024-06-25 13:58:56
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/has_part

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于hasPart关系的新知识库，这些关系是从大量通用语句中提取出来的。数据集的特点是准确性高（90%的精确度）、覆盖范围广（包括人们可能提到的关系），并且对常见术语的覆盖率高（近似于10岁儿童的词汇量）。此外，数据集还包含了量词、参数修饰符的信息，并将实体链接到Wikipedia和WordNet中的适当概念。数据集的结构包括arg1、arg2、score、synset和wikipedia_primary_page等字段，主要用于文本分类/评分任务，特别是处理部分关系（如‘植物’有部分‘茎’）。数据集的创建过程包括从大型语料库中收集通用句子、训练和应用RoBERTa模型来识别hasPart关系、规范化实体名称、聚合和过滤条目以及将hasPart参数链接到Wikipedia页面和WordNet意义。

提供机构：

community-datasets

原始信息汇总

数据集卡片 for HasPart KB

数据集描述

数据集摘要

该数据集是一个新的 hasPart 关系知识库（KB），从大量通用陈述语料库中提取。与其他可用资源互补，它是第一个同时具备以下三个特点的资源：准确（90% 精度）、显著（涵盖人们可能提及的关系）和高覆盖率（近似于一个 10 岁儿童的词汇量），并且其 hasPart 条目数量是流行本体库 ConceptNet 和 WordNet 的几倍。此外，它还包含关于量词、参数修饰符的信息，并将实体链接到 Wikipedia 和 WordNet 中的适当概念。

支持的任务和排行榜

文本分类 / 评分 - 部分关系（例如，plant 有部分 stem）

语言

英语

数据集结构

数据实例

json { "arg1": "plant", "arg2": "stem", "score": 0.9991798414303377, "synset": ["wn.plant.n.02", "wn.stalk.n.02"], "wikipedia_primary_page": ["Plant"] }

数据字段

arg1, arg2: 这些是部分关系的实体，即 arg1 has_part arg2
score: 部分关系的评分，根据下述过程描述
synset: WordNet 中两个实体的本体分类
wikipedia_primary_page: 实体的 Wikipedia 页面

注意: 某些示例仅包含一个实体的 synset / wikipedia 信息。

数据分割

单个训练文件

数据集创建

我们的 hasPart 提取方法包括五个步骤：

从大型语料库中收集通用句子
训练并应用 RoBERTa 模型来识别这些句子中的 hasPart 关系
规范化实体名称
聚合和过滤条目
将 hasPart 参数链接到 Wikipedia 页面和 WordNet 感官

我们不是从任意文本中提取知识，而是从通用句子中提取 hasPart 关系，例如“Dogs have tails.”，以偏向于提取通用（适用于一个类别的大多数成员）和显著（足够值得记录）的提取。作为通用句子的来源，我们使用 GenericsKB，这是一个从 17 亿个句子中收获的 340 万个独立通用句子的大型存储库。

注释

注释过程

对于 GenericsKB 中的每个句子 S，我们使用名词块解析器（spaCy 的 Doc.noun chunks）识别句子中的所有名词块。每个块都是一个候选的整体或部分。然后，对于每一对可能的组合，我们使用 RoBERTa 模型来分类它们之间是否存在 hasPart 关系。输入句子以 wordpiece 标记序列的形式呈现给 RoBERTa，候选 hasPart 参数的开始和结束使用特殊标记标识，例如：

[CLS] [ARG1-B]Some pond snails[ARG1-E] have [ARG2-B]gills[ARG2-E] to breathe in water.

其中 [ARG1/2-B/E] 是表示参数边界的特殊标记。[CLS] 标记被投影到两个类别标签（hasPart/notHasPart），然后应用 softmax 层，产生类别标签的输出概率。我们使用交叉熵损失进行训练。我们使用 RoBERTa-large（24 层），每层隐藏大小为 1024，16 个注意力头，总共 355M 参数。我们使用模型提供的预训练权重，并通过在我们的标记数据上训练 15 个周期来进一步微调模型参数。为了训练模型，我们使用了一个手工注释的约 2k 个示例集。

注释者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

plaintext @misc{bhakthavatsalam2020dogs, title={Do Dogs have Whiskers? A New Knowledge Base of hasPart Relations}, author={Sumithra Bhakthavatsalam and Kyle Richardson and Niket Tandon and Peter Clark}, year={2020}, eprint={2006.07510}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @jeromeku 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集