Riedel dataset

github2019-05-19 更新2024-05-31 收录

下载链接：

https://github.com/abarthakur/clustering_riedel_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本项目处理了Riedel等人于2010年引入的Riedel数据集，并对其进行聚类和可视化。数据集可通过链接下载，包含源和目标实体ID以及提及列表，这些关系是在使用Freebase注释NYT语料库后提取的。文档包含句子，句子包括依赖树和POS标签。

This project processes the Riedel dataset introduced by Riedel et al. in 2010, performing clustering and visualization on it. The dataset, available for download via a provided link, includes source and target entity IDs along with a list of mentions. These relationships were extracted after annotating the NYT corpus using Freebase. The documents contain sentences, each of which includes dependency trees and POS (Part-of-Speech) tags.

创建时间：

2017-10-22

原始信息汇总

数据集概述

数据集名称

Riedel 数据集

数据集来源

由 Riedel 等人于 2010 年引入，数据集可从这里下载。

数据集格式

原始格式为 protobuf，后转换为 TSV 格式。

数据集内容

数据集包含关系，每种关系包括源和目标 ID，以及一系列提及（由文件名和句子号定义）。这些关系是从 NYT 语料库的注释中提取的，使用 Freebase 知识库。文档包含句子，句子包括依赖树（使用 MALT 解析器生成）和 POS 标签。

数据集处理

使用 protobuf 的 Java API 分离关系。
将关系从 protobuf 格式转换为 TSV 格式。
提取特征，如源和目标实体、源与目标之间的短语、依赖树中的最短路径。
使用 GloVe 词表示将特征转换为向量，并应用 tSNE 和层次聚类分析数据。

数据集应用

用于分析错误注释的句子和违反距离监督假设的句子。

数据集使用

通过运行 visualize.py 可以复制实验。

搜集汇总

数据集介绍

构建方式

Riedel数据集的构建基于对纽约时报语料库的注释，并通过Freebase知识库提取关系。数据集中的每一条关系由源和目标实体、两者之间的短语以及依赖树中最短路径构成。这些特征经过组合并转化为GloVe词向量，进而利用tSNE和层次聚类进行数据分析，旨在识别错误注释的句子和违反距离监督假设的句子。

使用方法

使用Riedel数据集时，首先需要准备glove词向量文件和riedel_ecml数据文件夹。数据集的protobuf格式需转换为TSV格式，通过运行提供的脚本完成转换。之后，可以执行`visualize.py`脚本来重现实验，进行关系的可视化和聚类分析，进一步探索数据模式。

背景与挑战

背景概述

Riedel数据集，源于Riedel等人在2010年的研究工作，是一项针对自然语言处理领域的重要成果。该数据集通过标注纽约时报（NYT）语料库，利用Freebase知识库提取出关系实例，旨在研究实体间关系及其表述的识别问题，对实体关系抽取领域产生了显著影响。

当前挑战

数据集构建过程中，研究人员面临了如何高效处理Protobuf格式数据、实体间关系标注以及依赖树 shortest path 提取等挑战。此外，在数据集应用中，如何准确识别并纠正错误标注的句子，以及违反距离监督假设的句子，是当前研究的主要挑战。

常用场景

经典使用场景

在知识图谱构建与自然语言处理领域，Riedel数据集的经典使用场景主要涉及对实体关系的聚类与可视化分析。通过对该数据集进行处理，研究者能够探索实体间的关联性，并识别出错误标注的句子以及违反距离监督假设的句子，进而优化模型性能。

解决学术问题

Riedel数据集解决了学术研究中如何准确标注实体关系、识别错误标注以及分析实体间依赖关系等关键问题。其提供的标注数据，有助于评估和改进信息提取算法，特别是在知识图谱构建和语义理解方面，对于提升模型准确性和鲁棒性具有显著意义。

实际应用

实际应用中，Riedel数据集可被用于增强自然语言处理系统中的关系抽取模块，助力构建更加智能的知识图谱。此外，它还支持对新闻报道中的实体关系进行深入分析，为信息检索和语义搜索引擎提供技术支持。

数据集最近研究