five

GEM/dart

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/dart
下载链接
链接失效反馈
官方服务:
资源简介:
DART是一个英文数据集,它通过将多个其他数据到文本数据集聚合到一个基于三元组的通用格式中,形成一个新的扁平格式。这种格式不需要模型学习层次结构,同时保留了完整的信息。数据集包含82,191个实例,分为训练集、开发集和测试集。数据集的主要任务是通过三元组生成连贯的句子,评估指标包括BLEU、MoverScore、BERTScore和BLEURT等。数据集旨在进一步研究从语义数据生成自然语言的任务。

DART is an English-language dataset that aggregates multiple existing data-to-text datasets into a triple-based universal format to form a new flat structure. This format eliminates the need for models to learn hierarchical structures while retaining complete information. The dataset contains 82,191 instances, which are split into training, development, and test sets. Its primary task is to generate coherent natural language sentences from semantic triples, with evaluation metrics including BLEU, MoverScore, BERTScore, BLEURT, and others. This dataset is intended to advance research on natural language generation from semantic data.
提供机构:
GEM
原始信息汇总

数据集概述

数据集描述

  • 名称: DART
  • 语言: 英语
  • 许可证: MIT License
  • 任务类别: 表到文本
  • 数据来源: 原始
  • 数据结构: 完全扁平化,不要求模型学习层次结构,同时保留完整信息

数据集概览

数据和文档位置

  • 下载链接: GitHub
  • 论文链接: ACL Anthology
  • 联系人: Dragomir Radev, Rui Zhang, Nazneen Rajani

数据集摘要

DART是一个英语数据集,将多个其他数据到文本数据集聚合在一个共同的三元组格式中。新格式完全扁平化,不要求模型学习层次结构,同时保留完整信息。

数据集结构

  • 数据字段:
    • tripleset: 三元组列表
    • subtree_was_extended: 布尔变量
    • annotations: 字典列表,包含源和文本键
    • source: 源表名称字符串
    • text: 句子字符串

数据分割

  • 训练/验证/测试分割:
    • 训练: 62,659
    • 验证: 6,980
    • 测试: 12,552

数据集在GEM中的理由

  • 贡献: DART是一个大型且开放领域的结构化数据记录到文本生成语料库,具有高质量的句子注释,每个输入都是一个遵循树结构本体的实体-关系三元组集合。

数据集维护

  • 维护计划: 无

数据集使用

  • 目的: 进一步研究从语义数据生成自然语言
  • 主要任务: 数据到文本
  • 通信目标: 生成连贯的句子和构建列标题的树结构本体

数据集创建

  • 创建者: Linyong Nan, Dragomir Radev, Rui Zhang, 等
  • 组织类型: 学术、工业
  • 组织: Yale University, Salesforce Research, Penn State University, The University of Hong Kong, MIT
  • 语言数据获取: 发现、为数据集创建
  • 数据验证: 由众包工作者验证
  • 个人识别信息: 无

数据集评估

  • 评估方法: 使用BLEU、METEOR、TER、MoverScore、BERTScore和BLEURT等指标
  • 先前结果: 是
  • 相关先前结果: BART模型目前根据排行榜获得最佳性能
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作