five

Dialogue RE|关系抽取数据集|对话分析数据集

收藏
github2020-07-01 更新2025-02-08 收录
关系抽取
对话分析
下载链接:
https://github.com/nlpdata/dialogre
下载链接
链接失效反馈
资源简介:
对话关系抽取(Dialogue RE)数据集是首个基于对话的关系抽取人工标注数据集。它来源于从美国情景喜剧《老友记》中提取的1,788段对话。标注者仔细标注了对话中36种关系类型的实例,并提供了中文和英文版本。

The Dialogue Relationship Extraction (Dialogue RE) dataset is the first manually annotated dataset for relationship extraction based on dialogues. It is sourced from 1,788 dialogue excerpts extracted from the American sitcom 'Friends'. Annotators meticulously labeled instances of 36 types of relationships within the dialogues, and provided both Chinese and English versions.
提供机构:
Tencent AI Lab et al.
创建时间:
2020-07-01
原始信息汇总

DialogRE 数据集概述

基本信息

  • 名称:DialogRE
  • 类型:对话式关系抽取数据集
  • 标注方式:人工标注
  • 特点:首个基于对话的关系抽取数据集
  • 联系方式:dialogre@dataset.org
  • 论文Dialogue-Based Relation Extraction

数据集版本

  1. 原始版本

    • 文件路径:data/{train,dev,test}.json
    • 数据格式:包含对话轮次和关系实例的嵌套结构
  2. 更新版本(2020年8月)

    • 英文版
      • 文件路径:data_v2/en/data/{train,dev,test}.json
      • 改进:修复了部分标注错误
    • 中文版
      • 文件路径:data_v2/cn/data/{train,dev,test}.json
      • 特点:不包含参数类型标注(x_typey_type为空)

数据格式

  • 结构: json [ [ ["对话轮次1", "对话轮次2", ...], [ { "x": "参数1", "y": "参数2", "x_type": "参数1类型", "y_type": "参数2类型", "r": ["关系1", "关系2", ...], "rid": ["关系1ID", "关系2ID", ...], "t": ["关系1触发词", "关系2触发词", ...] }, ... ] ], ... ]

附加资源

  • 知识库
    • 文件路径:kb/Fandom_triples
    • 来源:Fandom
  • 关系类型映射表
    • 文件路径:kb/matching_table.txt

基线模型

  • 实现:BERT和BERT<sub>S</sub>基线
  • 文件路径:bert文件夹
  • 依赖
    • Python 3.6
    • PyTorch 1.0
    • BERT预训练模型(需自行下载)

更新历史

  • 2020年夏季:
    • 发布中文版DialogRE
    • 修复英文版标注错误
    • 发布更新版基线结果
AI搜集汇总
数据集介绍
main_image_url
构建方式
Dialogue RE数据集的构建基于人工标注的对话文本,旨在从对话中提取实体间的关系。数据集的构建过程包括从真实对话中提取对话轮次,并由专业标注人员对每个对话实例中的实体及其关系进行详细标注。每个实例包含两个实体及其类型、关系类型、关系ID以及触发词等信息。数据集还提供了英文和中文两个版本,中文版本在标注时省略了实体类型信息,以简化标注流程。
特点
Dialogue RE数据集作为首个基于对话的关系抽取数据集,具有显著的创新性和实用性。其特点在于数据来源于真实对话场景,涵盖了丰富的对话轮次和复杂的关系类型。数据集不仅提供了详细的实体和关系标注,还包含了触发词信息,为关系抽取任务提供了更丰富的上下文信息。此外,数据集的英文和中文版本为跨语言研究提供了便利,且中文版本在标注上进行了优化,减少了不必要的标注负担。
使用方法
Dialogue RE数据集的使用方法较为灵活,适用于多种自然语言处理任务,尤其是对话系统中的关系抽取。用户可以通过加载数据集中的JSON文件,获取对话轮次、实体及其关系信息。数据集还提供了与BERT模型的集成方法,用户可以通过设置环境变量、转换模型权重文件并执行训练和评估脚本,快速构建和评估基于BERT的关系抽取模型。此外,数据集还提供了基线模型的实现代码,用户可以直接运行这些代码,获取模型的性能评估结果。
背景与挑战
背景概述
Dialogue RE数据集由Dian Yu、Kai Sun、Claire Cardie和Dong Yu等研究人员于2020年创建,是首个基于对话的关系抽取数据集。该数据集旨在解决自然语言处理领域中的关系抽取问题,特别是在对话场景中的应用。通过标注对话中的实体及其关系,Dialogue RE为研究者提供了一个全新的视角,推动了对话理解与关系抽取技术的结合。该数据集的研究成果发表于第58届计算语言学协会年会(ACL 2020),并在相关领域引起了广泛关注,成为对话关系抽取任务的重要基准。
当前挑战
Dialogue RE数据集在构建与应用过程中面临多重挑战。首先,对话场景中的关系抽取相较于传统文本更为复杂,对话的上下文依赖性、多轮交互以及口语化表达增加了关系识别的难度。其次,数据集的构建需要大量的人工标注,确保对话中的实体关系准确无误,这对标注人员的专业性和一致性提出了较高要求。此外,尽管数据集在2020年进行了更新以修正部分标注错误,但仍可能存在潜在的噪声数据,影响模型的训练效果。最后,如何将Dialogue RE扩展到多语言环境(如中文版本)并保持高质量的标注,也是未来研究的重要挑战。
常用场景
经典使用场景
Dialogue RE数据集在自然语言处理领域中被广泛应用于对话系统中的关系抽取任务。通过分析对话中的多个轮次,该数据集能够帮助模型识别对话参与者之间的关系及其变化,从而提升对话系统的理解和响应能力。这一数据集特别适用于需要处理复杂对话场景的研究,如客服对话、社交对话等。
衍生相关工作
基于Dialogue RE数据集,研究者们提出了多种改进的关系抽取模型,如基于BERT的对话关系抽取模型和基于图神经网络的对话关系抽取模型。这些模型在Dialogue RE的基础上进一步优化了关系抽取的准确性和效率,推动了对话系统领域的研究进展。此外,该数据集还催生了许多跨语言对话关系抽取的研究,如中文版本的Dialogue RE,为多语言对话系统的开发提供了重要支持。
数据集最近研究
最新研究方向
在自然语言处理领域,对话关系抽取(Dialogue-Based Relation Extraction)作为信息抽取的重要分支,近年来备受关注。DialogRE作为首个基于对话的人工标注关系抽取数据集,为研究者提供了丰富的对话场景数据,推动了对话关系抽取技术的发展。当前的研究方向主要集中在如何利用预训练语言模型(如BERT)提升关系抽取的准确性和鲁棒性。通过引入上下文感知的深度学习模型,研究者能够更好地捕捉对话中的隐含关系,尤其是在多轮对话中,模型的表现得到了显著提升。此外,跨语言版本的推出(如中文版DialogRE)也为多语言关系抽取研究提供了新的实验平台,进一步拓展了该数据集的应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录