dataset-org/dialog_re
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/dataset-org/dialog_re
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- expert-generated
language_creators:
- expert-generated
language:
- en
license:
- other
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- other
- text-generation
- fill-mask
task_ids:
- dialogue-modeling
paperswithcode_id: dialogre
pretty_name: DialogRE
tags:
- relation-extraction
dataset_info:
features:
- name: dialog
sequence: string
- name: relation_data
sequence:
- name: x
dtype: string
- name: y
dtype: string
- name: x_type
dtype: string
- name: y_type
dtype: string
- name: r
sequence: string
- name: rid
sequence: int32
- name: t
sequence: string
config_name: dialog_re
splits:
- name: train
num_bytes: 1520940
num_examples: 1073
- name: test
num_bytes: 472306
num_examples: 357
- name: validation
num_bytes: 490580
num_examples: 358
download_size: 3816234
dataset_size: 2483826
---
# Dataset Card for [DialogRE]
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [DialogRE Homepage](https://dataset.org/dialogre/)
- **Repository:** [DialogRE Repository](https://github.com/nlpdata/dialogre)
- **Paper:** [Arxiv](https://arxiv.org/abs/2004.08056v1)
- **Point of Contact:** [dialogre@dataset.org](mailto:dialogre@dataset.org)
### Dataset Summary
The DialogRE dataset is the first human-annotated dialogue-based relation extraction (RE) dataset, aiming to support the prediction of relation(s) between two arguments that appear in a dialogue. DialogRE can also act as a platform for studying cross-sentence RE as most facts span multiple sentences. Specifically, the dataset annotate all occurrences of 36 possible relation types that exist between pairs of arguments in the 1,788 dialogues originating from the complete transcripts of Friends (in English).
### Supported Tasks and Leaderboards
* `other-other-relation-extraction`: The dataset can be used to train a model for Relation Extraction, which consists of the prediction of relation between two arguments that appear in a dialogue. Success on this task is typically measured by achieving a *high* [F1 Score](https://huggingface.co/metrics/f1).
### Languages
The dialogues in the dataset is in English originating from the transcripts of Friends. The associated BCP-47 code is `en`.
## Dataset Structure
### Data Instances
A typical data point consists of a dialogue between speakers as a list of sentences. This is followed by the annotations of the relations between the entities in the dialog.
An example from the DialogRE train set looks as follows:
```
{'dialog': ["Speaker 1: It's been an hour and not one of my classmates has shown up! I tell you, when I actually die some people are gonna get seriously haunted!",
'Speaker 2: There you go! Someone came!',
"Speaker 1: Ok, ok! I'm gonna go hide! Oh, this is so exciting, my first mourner!",
'Speaker 3: Hi, glad you could come.',
'Speaker 2: Please, come in.',
"Speaker 4: Hi, you're Chandler Bing, right? I'm Tom Gordon, I was in your class.",
'Speaker 2: Oh yes, yes... let me... take your coat.',
"Speaker 4: Thanks... uh... I'm so sorry about Ross, it's...",
'Speaker 2: At least he died doing what he loved... watching blimps.',
'Speaker 1: Who is he?',
'Speaker 2: Some guy, Tom Gordon.',
"Speaker 1: I don't remember him, but then again I touched so many lives.",
'Speaker 3: So, did you know Ross well?',
"Speaker 4: Oh, actually I barely knew him. Yeah, I came because I heard Chandler's news. D'you know if he's seeing anyone?",
'Speaker 3: Yes, he is. Me.',
'Speaker 4: What? You... You... Oh! Can I ask you a personal question? Ho-how do you shave your beard so close?',
"Speaker 2: Ok Tommy, that's enough mourning for you! Here we go, bye bye!!",
'Speaker 4: Hey, listen. Call me.',
'Speaker 2: Ok!'],
'relation_data': {'r': [['per:alternate_names'],
['per:alumni'],
['per:alternate_names'],
['per:alumni', 'per:positive_impression'],
['per:alternate_names'],
['unanswerable']],
'rid': [[30], [4], [30], [4, 1], [30], [37]],
't': [[''], [''], [''], ['', 'call me'], [''], ['']],
'x': ['Speaker 2',
'Speaker 2',
'Speaker 4',
'Speaker 4',
'Speaker 4',
'Speaker 1'],
'x_type': ['PER', 'PER', 'PER', 'PER', 'PER', 'PER'],
'y': ['Chandler Bing',
'Speaker 4',
'Tom Gordon',
'Speaker 2',
'Tommy',
'Tommy'],
'y_type': ['PER', 'PER', 'PER', 'PER', 'PER', 'PER']}}
```
### Data Fields
* `dialog`
* List of dialog spoken between the speakers
* List of annotations per dialog per argument
* `x` : First entity
* `y` : Second entity
* `x_type` : Type of the first entity
* `y_type`: Type of the second entity
* `r` : List of relations
* `rid`: List of relation IDs
* `t`: List of relation Trigger words
### Data Splits
The data is split into a training, validation and test set as per the original dataset split.
| | train | validation | test |
| --------------------- |-------:|------------:|------:|
| Input dialog examples | 1073 | 358 | 357 |
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
DialogRE dataset is intended for non-commercial research purpose only
### Citation Information
```
@inproceedings{yu2020dialogue,
title={Dialogue-Based Relation Extraction},
author={Yu, Dian and Sun, Kai and Cardie, Claire and Yu, Dong},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020},
url={https://arxiv.org/abs/2004.08056v1}
}
```
### Contributions
Thanks to [@vineeths96](https://github.com/vineeths96) for adding this dataset.
annotations_creators: 标注创建者:专家生成(expert-generated)
language_creators: 语言创建者:专家生成(expert-generated)
language: 语言:英语(en)
license: 许可协议:其他(other)
multilinguality: 多语言属性:单语言(monolingual)
size_categories: 数据规模类别:1000 < n < 10000
source_datasets: 源数据集:原创(original)
task_categories: 任务类别:其他、文本生成(text-generation)、填空(fill-mask)
task_ids: 任务子类型:对话建模(dialogue-modeling)
paperswithcode_id: PapersWithCode 标识:dialogre
pretty_name: 数据集名称:DialogRE
tags: 标签:关系抽取(relation-extraction)
dataset_info: 数据集信息:
features: 特征项:
- 名称:dialog(对话),类型:字符串序列
- 名称:relation_data(关系数据),类型:嵌套序列,包含以下字段:
- 名称:x,数据类型:字符串
- 名称:y,数据类型:字符串
- 名称:x_type(实体x类型),数据类型:字符串
- 名称:y_type(实体y类型),数据类型:字符串
- 名称:r(关系标签),类型:字符串序列
- 名称:rid(关系ID),类型:int32序列
- 名称:t(触发词),类型:字符串序列
config_name: 配置名称:dialog_re
splits: 数据划分:
- 名称:训练集(train),字节大小:1520940,样本数量:1073
- 名称:测试集(test),字节大小:472306,样本数量:357
- 名称:验证集(validation),字节大小:490580,样本数量:358
download_size: 下载总大小:3816234,数据集总大小:2483826
## DialogRE 数据集卡片
## 目录
- [数据集概述](#dataset-description)
- [数据集摘要](#dataset-summary)
- [支持任务与评测基准](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建动因](#curation-rationale)
- [源数据](#source-data)
- [标注流程](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献者](#contributions)
### 数据集概述
- **主页**:[DialogRE 官方主页](https://dataset.org/dialogre/)
- **代码仓库**:[DialogRE 仓库](https://github.com/nlpdata/dialogre)
- **相关论文**:[Arxiv 预印本](https://arxiv.org/abs/2004.08056v1)
- **联系人**:[dialogre@dataset.org](mailto:dialogre@dataset.org)
#### 数据集摘要
DialogRE 是首个基于人类标注的对话式关系抽取(relation extraction, RE)数据集,旨在实现对话中两个论元间关系的预测任务。由于多数事实信息跨多个句子分布,该数据集也可作为跨句子关系抽取研究的实验平台。具体而言,数据集对源自美剧《老友记》完整英文台词的1788段对话中,实体对之间出现的36种预定义关系类型的所有实例均进行了标注。
#### 支持任务与评测基准
* `other-other-relation-extraction`: 本数据集可用于训练关系抽取模型,其任务目标为预测对话内两个论元之间的语义关系。该任务的性能通常通过**F1分数(F1 Score)**进行量化评估。
#### 语言
本数据集的对话内容均源自《老友记》的英文原声台词,对应的BCP-47语言代码为`en`。
### 数据集结构
#### 数据实例
一个标准数据样本包含以句子列表形式呈现的说话人对话,以及该对话中实体间关系的标注信息。
以下为来自DialogRE训练集的一个典型样本:
python
{'dialog': ["Speaker 1: 已经过去一小时了,我的同学一个都没来!我跟你说,等我真的死了,有些人可得被我狠狠缠上了!",
'Speaker 2: 说的没错!有人来了!',
"Speaker 1: 好啦好啦!我要躲起来啦!哦,这太刺激了,我的第一个吊唁者!",
'Speaker 3: 嗨,很高兴你能来。',
'Speaker 2: 请进。',
"Speaker 4: 嗨,你是钱德勒·宾(Chandler Bing)对吧?我是汤姆·戈登(Tom Gordon),你班上的学生。",
'Speaker 2: 哦对,没错……让我……帮你拿外套。',
"Speaker 4: 谢谢……呃……罗斯的事我真的很抱歉,那……",
'Speaker 2: 至少他是在做自己热爱的事情的时候去世的……看飞艇。',
'Speaker 1: 他是谁?',
'Speaker 2: 一个陌生人,汤姆·戈登。',
"Speaker 1: 我不记得他了,不过话说回来,我影响过那么多人。",
'Speaker 3: 那么,你和罗斯熟吗?',
"Speaker 4: 哦,其实我几乎不认识他。是啊,我来是因为听说了钱德勒的事。你知道他现在有没有在和谁约会吗?",
'Speaker 3: 有的,他在和我约会。',
'Speaker 4: 什么?你……你……哦!我能问你个私人问题吗?你是怎么把胡子刮得这么干净的?',
"Speaker 2: 好了汤米,哀悼时间够长了!我们走吧,再见!!",
'Speaker 4: 嘿,听着。打给我。',
'Speaker 2: 好的!'],
'relation_data': {'r': [["per:alternate_names"],
["per:alumni"],
["per:alternate_names"],
["per:alumni", "per:positive_impression"],
["per:alternate_names"],
["unanswerable"]],
'rid': [[30], [4], [30], [4, 1], [30], [37]],
't': [[""], [""], [""], ["", "call me"], [""], [""]],
'x': ['Speaker 2',
'Speaker 2',
'Speaker 4',
'Speaker 4',
'Speaker 4',
'Speaker 1'],
'x_type': ['PER', 'PER', 'PER', 'PER', 'PER', 'PER'],
'y': ['Chandler Bing',
'Speaker 4',
'Tom Gordon',
'Speaker 2',
'Tommy',
'Tommy'],
'y_type': ['PER', 'PER', 'PER', 'PER', 'PER', 'PER']}}
#### 数据字段
* `dialog`:说话人间的对话句子列表
* 每个对话对应的论元标注集合:
* `x`:第一个实体
* `y`:第二个实体
* `x_type`:第一个实体的类型
* `y_type`:第二个实体的类型
* `r`:关系标签列表
* `rid`:关系ID列表
* `t`:关系触发词列表
#### 数据划分
本数据集按照原始划分方案分为训练集、验证集与测试集:
| | 训练集 | 验证集 | 测试集 |
| --------------------- |-------:|------------:|------:|
| 对话样本数 | 1073 | 358 | 357 |
### 数据集构建
#### 构建动因
[需补充更多信息]
#### 源数据
##### 初始数据收集与标准化
[需补充更多信息]
##### 源语言生成者身份
[需补充更多信息]
#### 标注流程
##### 标注过程
[需补充更多信息]
##### 标注人员身份
[需补充更多信息]
#### 个人与敏感信息
[需补充更多信息]
### 数据集使用注意事项
#### 数据集的社会影响
[需补充更多信息]
#### 偏差讨论
[需补充更多信息]
#### 其他已知局限
[需补充更多信息]
### 附加信息
#### 数据集维护者
[需补充更多信息]
#### 许可信息
DialogRE 数据集仅可用于非商业研究用途。
#### 引用信息
bibtex
@inproceedings{yu2020dialogue,
title={Dialogue-Based Relation Extraction},
author={Yu, Dian and Sun, Kai and Cardie, Claire and Yu, Dong},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020},
url={https://arxiv.org/abs/2004.08056v1}
}
#### 贡献者
感谢 [@vineeths96](https://github.com/vineeths96) 为本数据集的收录提供支持。
提供机构:
dataset-org
原始信息汇总
数据集概述
数据集摘要
DialogRE 数据集是第一个基于对话的人工标注的关系抽取(RE)数据集,旨在支持预测对话中出现的两个论点之间的关系。DialogRE 还可以作为研究跨句子关系抽取的平台,因为大多数事实跨越多个句子。具体来说,该数据集标注了来自《老友记》完整剧本的 1,788 个对话中所有出现的 36 种可能的关系类型。
支持的任务和排行榜
other-other-relation-extraction:该数据集可用于训练关系抽取模型,该模型包括预测对话中出现的两个论点之间的关系。该任务的成功通常通过达到高 F1 分数来衡量。
语言
数据集中的对话是英语,源自《老友记》的剧本。相关的 BCP-47 代码是 en。
数据集结构
数据实例
一个典型的数据点由说话者之间的对话组成,随后是对话中实体之间关系的标注。
数据字段
dialog:说话者之间的对话列表relation_data:每个对话每个论点的标注列表x:第一个实体y:第二个实体x_type:第一个实体的类型y_type:第二个实体的类型r:关系列表rid:关系 ID 列表t:关系触发词列表
数据划分
数据分为训练集、验证集和测试集,具体如下:
| train | validation | test | |
|---|---|---|---|
| 输入对话示例 | 1073 | 358 | 357 |
数据集创建
数据集许可信息
DialogRE 数据集仅用于非商业研究目的。
引用信息
@inproceedings{yu2020dialogue, title={Dialogue-Based Relation Extraction}, author={Yu, Dian and Sun, Kai and Cardie, Claire and Yu, Dong}, booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics}, year={2020}, url={https://arxiv.org/abs/2004.08056v1} }
搜集汇总
数据集介绍

构建方式
DialogRE数据集的构建基于 Friends(友记)完整剧本的转录,通过人工标注的方式,对对话中的实体及其关系进行注释,共涵盖了36种可能的关系类型。该数据集的构建目的是为了支持对话中的关系提取任务,特别是跨越多个句子的关系的提取。数据集由训练集、验证集和测试集组成,分别包含1073、358和357个对话实例。
特点
DialogRE数据集的特点在于它是首个基于对话的关系提取数据集,注释由专家生成,保证了标注的质量和准确性。数据集采用单语言英语,专注于关系提取和填空等任务,适用于研究对话模型和跨句子关系提取。此外,数据集标注详细,包括实体类型、关系类型、关系ID以及触发词等。
使用方法
使用DialogRE数据集时,用户可以依据数据集提供的对话实例和相应的注释信息进行模型训练和评估。数据集的 splits 已经划分为训练集、验证集和测试集,便于进行机器学习模型的开发和测试。用户需要遵守数据集的使用许可,仅将数据用于非商业性研究目的。
背景与挑战
背景概述
DialogRE数据集是首个由人工标注的基于对话的关系提取(RE)数据集,其旨在支持预测对话中两个论点之间存在的关联。DialogRE亦可作为一个研究跨句子RE的平台,因为大多数事实跨越多个句子。具体而言,该数据集标注了来自《老友记》完整剧本的1788个对话中,论点对之间可能存在的36种关系类型的所有出现。该数据集由Yu Dian、Sun Kai、Cardie Claire和Yu Dong等研究人员于2020年创建,并在ACL会议上发表相关论文,对关系提取领域尤其是对话式关系提取领域产生了重要影响。
当前挑战
DialogRE数据集在构建过程中遇到的挑战主要包括:1)对话数据的预处理和标准化,以确保数据质量;2)关系类型的定义和标注,这要求标注者具备专业知识,并且需要大量时间进行精确标注;3)数据集的多元性和跨句子关系的复杂性,为模型训练和评估带来了额外的挑战。在所解决的领域问题方面,DialogRE数据集的挑战在于如何准确地在对话中提取出实体间的关系,并处理跨句子关系提取的问题。
常用场景
经典使用场景
在自然语言处理领域,DialogRE数据集作为首个人类标注的对话关系提取数据集,其经典使用场景在于为机器学习模型提供训练数据,以预测对话中两个论点之间的具体关系。该数据集的独到之处在于,它不仅关注单句内部的关系,还涉及跨句子的关系提取,为研究对话中的复杂关系提供了可能。
实际应用
在实际应用中,DialogRE数据集可被用于提升对话系统的智能化水平,例如在自动问答、智能客服、内容推荐等领域,通过准确识别对话中的关系,系统能够更好地理解用户意图,提供更为精准和个性化的服务。
衍生相关工作
DialogRE数据集的创建促进了后续相关工作的开展,如对话系统的关系分类、实体识别以及跨领域的关系提取研究。此外,该数据集还激发了对话上下文理解、多轮对话关系推理等领域的探索,为对话系统的进一步发展奠定了基础。
以上内容由遇见数据集搜集并总结生成



