Riedel NYT

github2022-02-16 更新2024-05-31 收录

下载链接：

https://github.com/juanluis17/distant-supervision-dataset-evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

用于训练模型的数据集，包括自动生成和手动修订的标签。数据集包含多个实例，每个实例有两个标签，一个是自动生成的原始标签，另一个是经过手动修订的标签。

The dataset used for training models includes both automatically generated and manually revised labels. The dataset contains multiple instances, each with two labels: one is the original label generated automatically, and the other is the label that has been manually revised.

创建时间：

2020-05-26

原始信息汇总

数据集概述

数据集来源

本数据集主要使用Riedel NYT进行模型训练。

测试集构建

测试集通过从Riedel NYT的测试分区中选取324个实例构建而成。这些实例包含两个标签：自动生成的原始标签和通过手动修订的标签。
另一个测试集构建自Riedel NYT的测试分区，包含所有关系不为“NA”的句子。这些实例同样包含两个标签：自动生成的原始标签和通过Amazon Mechanical Turk手动修订的标签。

数据集结构

数据集的结构包括voc2id（词汇到ID的映射）、type2id（实体类型到ID的映射）、rel2id（关系到ID的映射）、max_pos（考虑的最大位置）等。
train、test和valid部分包含多个句子包，每个包中的元素包括X（句子中的单词索引列表）、Y（包中句子的关系）、Pos1和Pos2（单词相对于目标实体1和2的位置）、SubPos和ObjPos（目标实体1和2在每个句子中的位置）、SubType和ObjType（目标实体1和2的类型信息）、ProbY（关系别名侧信息）、DepEdges（每个句子的依赖解析边列表）。

数据集使用

在训练和测试模型之前，需要执行setup.sh下载GloVe嵌入，并将数据集复制到数据目录。
训练命令包括针对不同模型的训练脚本，如RESIDE、BGWA、PCNN和CNN。
测试命令包括使用手动和启发式标签对不同模型进行测试的脚本。
通过运行python auc_heuristic_manual_labels.py可以计算所有训练模型的AUC。

搜集汇总

数据集介绍

构建方式

Riedel NYT数据集的构建基于远程监督方法，通过将纽约时报的新闻文本与Freebase知识库中的实体关系对齐，自动生成训练数据。为了提升数据质量，研究团队进一步对测试集进行了人工标注，生成了两种标签：自动生成的原始标签和经过人工修订的标签。数据集的输入结构经过精心设计，包含了词汇、实体类型和关系的映射，以及句子中实体位置、类型信息和依存句法分析等丰富的特征。

特点

Riedel NYT数据集的特点在于其多层次的标注信息。除了自动生成的标签外，还提供了人工修订的标签，为模型评估提供了更可靠的基准。数据集的结构化设计支持多种深度学习模型，如RESIDE、PCNN、CNN等，能够有效捕捉句子中的语义关系和依存结构。此外，数据集中还包含了实体类型、位置信息和关系别名等辅助信息，为关系抽取任务提供了丰富的上下文特征。

使用方法

使用Riedel NYT数据集时，首先需通过`setup.sh`脚本下载GloVe词向量，并将数据集复制到指定目录。训练过程中，可通过运行不同的脚本（如`reside.py`、`bgwa.py`等）来训练RESIDE、BGWA、PCNN等模型。测试时，可选择使用自动生成标签或人工修订标签进行评估，并通过`auc_heuristic_manual_labels.py`脚本计算模型的AUC值。数据集的灵活性和丰富的标注信息使其成为关系抽取任务中的重要基准。

背景与挑战

背景概述

Riedel NYT数据集是关系抽取领域的重要资源，最初由Riedel等人于2010年提出，旨在通过远监督方法从大规模文本中自动抽取实体间的关系。该数据集基于《纽约时报》的新闻文章，结合Freebase知识库进行标注，广泛应用于关系抽取模型的训练与评估。其核心研究问题在于如何利用远监督信号提升关系抽取的准确性与鲁棒性，推动了自然语言处理领域在信息抽取方向的发展。Riedel NYT数据集的影响力不仅体现在其广泛的应用场景中，还在于其为后续研究提供了基准数据支持。

当前挑战

Riedel NYT数据集在应用过程中面临多重挑战。首先，远监督方法虽然能够快速生成大量标注数据，但其标注质量存在噪声，可能导致模型学习到错误的模式。其次，数据集中存在大量‘NA’关系（即无明确关系），这增加了模型区分有效关系的难度。此外，构建过程中依赖人工修订标注，成本高昂且难以扩展。最后，数据集的多样性和复杂性对模型的泛化能力提出了更高要求，尤其是在处理长尾关系和低频实体时，模型表现往往不尽如人意。

常用场景

经典使用场景

Riedel NYT数据集在关系抽取领域中被广泛用于评估远监督学习方法的效果。该数据集通过自动标注和人工修订相结合的方式，提供了丰富的文本和关系标签，使得研究人员能够在真实世界的数据上测试和优化模型。经典的使用场景包括训练和评估多种深度学习模型，如RESIDE、PCNN、CNN等，以验证其在远监督关系抽取任务中的性能。

解决学术问题

Riedel NYT数据集解决了远监督关系抽取中的关键问题，即如何在大规模文本数据中自动标注关系标签。通过提供自动生成和人工修订的双重标签，该数据集帮助研究人员评估不同模型在噪声数据下的鲁棒性和准确性。此外，该数据集还支持对模型在复杂语义关系中的表现进行深入分析，推动了关系抽取领域的技术进步。

衍生相关工作

Riedel NYT数据集衍生了许多经典的研究工作，如RESIDE、PCNN+ATT、BGWA等模型。这些模型通过引入不同的注意力机制和依赖解析技术，显著提升了远监督关系抽取的性能。此外，基于该数据集的研究还推动了远监督学习方法的理论发展，为后续的研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集