Dialogue RE

github2020-07-01 更新2025-02-08 收录

下载链接：

https://github.com/nlpdata/dialogre

下载链接

链接失效反馈

资源简介：

对话关系抽取（Dialogue RE）数据集是首个基于对话的关系抽取人工标注数据集。它来源于从美国情景喜剧《老友记》中提取的1,788段对话。标注者仔细标注了对话中36种关系类型的实例，并提供了中文和英文版本。

The Dialogue Relationship Extraction (Dialogue RE) dataset is the first manually annotated dataset for relationship extraction based on dialogues. It is sourced from 1,788 dialogue excerpts extracted from the American sitcom 'Friends'. Annotators meticulously labeled instances of 36 types of relationships within the dialogues, and provided both Chinese and English versions.

提供机构：

Tencent AI Lab et al.

创建时间：

2020-07-01

原始信息汇总

DialogRE 数据集概述

基本信息

名称：DialogRE
类型：对话式关系抽取数据集
标注方式：人工标注
特点：首个基于对话的关系抽取数据集
联系方式：dialogre@dataset.org
论文：Dialogue-Based Relation Extraction

数据集版本

原始版本：
- 文件路径：data/{train,dev,test}.json
- 数据格式：包含对话轮次和关系实例的嵌套结构
更新版本（2020年8月）：
- 英文版：
  - 文件路径：data_v2/en/data/{train,dev,test}.json
  - 改进：修复了部分标注错误
- 中文版：
  - 文件路径：data_v2/cn/data/{train,dev,test}.json
  - 特点：不包含参数类型标注（x_type和y_type为空）

数据格式

结构： json [ [ ["对话轮次1", "对话轮次2", ...], [ { "x": "参数1", "y": "参数2", "x_type": "参数1类型", "y_type": "参数2类型", "r": ["关系1", "关系2", ...], "rid": ["关系1ID", "关系2ID", ...], "t": ["关系1触发词", "关系2触发词", ...] }, ... ] ], ... ]

附加资源

知识库：
- 文件路径：kb/Fandom_triples
- 来源：Fandom
关系类型映射表：
- 文件路径：kb/matching_table.txt

基线模型

实现：BERT和BERT<sub>S</sub>基线
文件路径：bert文件夹
依赖：
- Python 3.6
- PyTorch 1.0
- BERT预训练模型（需自行下载）

更新历史

2020年夏季：
- 发布中文版DialogRE
- 修复英文版标注错误
- 发布更新版基线结果

搜集汇总

数据集介绍

构建方式

Dialogue RE数据集的构建基于人工标注的对话文本，旨在从对话中提取实体间的关系。数据集的构建过程包括从真实对话中提取对话轮次，并由专业标注人员对每个对话实例中的实体及其关系进行详细标注。每个实例包含两个实体及其类型、关系类型、关系ID以及触发词等信息。数据集还提供了英文和中文两个版本，中文版本在标注时省略了实体类型信息，以简化标注流程。

特点

Dialogue RE数据集作为首个基于对话的关系抽取数据集，具有显著的创新性和实用性。其特点在于数据来源于真实对话场景，涵盖了丰富的对话轮次和复杂的关系类型。数据集不仅提供了详细的实体和关系标注，还包含了触发词信息，为关系抽取任务提供了更丰富的上下文信息。此外，数据集的英文和中文版本为跨语言研究提供了便利，且中文版本在标注上进行了优化，减少了不必要的标注负担。

使用方法

Dialogue RE数据集的使用方法较为灵活，适用于多种自然语言处理任务，尤其是对话系统中的关系抽取。用户可以通过加载数据集中的JSON文件，获取对话轮次、实体及其关系信息。数据集还提供了与BERT模型的集成方法，用户可以通过设置环境变量、转换模型权重文件并执行训练和评估脚本，快速构建和评估基于BERT的关系抽取模型。此外，数据集还提供了基线模型的实现代码，用户可以直接运行这些代码，获取模型的性能评估结果。

背景与挑战

背景概述

Dialogue RE数据集由Dian Yu、Kai Sun、Claire Cardie和Dong Yu等研究人员于2020年创建，是首个基于对话的关系抽取数据集。该数据集旨在解决自然语言处理领域中的关系抽取问题，特别是在对话场景中的应用。通过标注对话中的实体及其关系，Dialogue RE为研究者提供了一个全新的视角，推动了对话理解与关系抽取技术的结合。该数据集的研究成果发表于第58届计算语言学协会年会（ACL 2020），并在相关领域引起了广泛关注，成为对话关系抽取任务的重要基准。

当前挑战

Dialogue RE数据集在构建与应用过程中面临多重挑战。首先，对话场景中的关系抽取相较于传统文本更为复杂，对话的上下文依赖性、多轮交互以及口语化表达增加了关系识别的难度。其次，数据集的构建需要大量的人工标注，确保对话中的实体关系准确无误，这对标注人员的专业性和一致性提出了较高要求。此外，尽管数据集在2020年进行了更新以修正部分标注错误，但仍可能存在潜在的噪声数据，影响模型的训练效果。最后，如何将Dialogue RE扩展到多语言环境（如中文版本）并保持高质量的标注，也是未来研究的重要挑战。

常用场景

经典使用场景

Dialogue RE数据集在自然语言处理领域中被广泛应用于对话系统中的关系抽取任务。通过分析对话中的多个轮次，该数据集能够帮助模型识别对话参与者之间的关系及其变化，从而提升对话系统的理解和响应能力。这一数据集特别适用于需要处理复杂对话场景的研究，如客服对话、社交对话等。

衍生相关工作

基于Dialogue RE数据集，研究者们提出了多种改进的关系抽取模型，如基于BERT的对话关系抽取模型和基于图神经网络的对话关系抽取模型。这些模型在Dialogue RE的基础上进一步优化了关系抽取的准确性和效率，推动了对话系统领域的研究进展。此外，该数据集还催生了许多跨语言对话关系抽取的研究，如中文版本的Dialogue RE，为多语言对话系统的开发提供了重要支持。

数据集最近研究