five

google-research-datasets/discofuse

收藏
Hugging Face2024-01-06 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/discofuse
下载链接
链接失效反馈
官方服务:
资源简介:
DiscoFuse是一个大规模的数据集,用于基于语篇的句子融合任务。数据集包含两个配置:discofuse-sport和discofuse-wikipedia,每个配置都有训练、验证和测试集。数据集的字段包括连贯和不连贯的句子对、连接词、语篇类型等。数据集的创建过程、注释过程、源数据等信息未详细说明。
提供机构:
google-research-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: DiscoFuse
  • 语言: 英语
  • 许可证: CC BY-SA 3.0
  • 多语性: 单语
  • 数据集大小: 10M < n < 100M
  • 源数据: 原始数据
  • 任务类别: 文本到文本生成
  • 标签: 句子融合

数据集配置

  • 配置名称: discofuse-sport

    • 特征:
      • connective_string: 字符串
      • discourse_type: 字符串
      • coherent_second_sentence: 字符串
      • has_coref_type_pronoun: 浮点数 (float32)
      • incoherent_first_sentence: 字符串
      • incoherent_second_sentence: 字符串
      • has_coref_type_nominal: 浮点数 (float32)
      • coherent_first_sentence: 字符串
    • 分割:
      • 训练: 43291020 个样本, 14736176073 字节
      • 测试: 445521 个样本, 151655243 字节
      • 验证: 440902 个样本, 150206657 字节
    • 下载大小: 9422142544 字节
    • 数据集大小: 15038037973 字节
  • 配置名称: discofuse-wikipedia

    • 特征:
      • connective_string: 字符串
      • discourse_type: 字符串
      • coherent_second_sentence: 字符串
      • has_coref_type_pronoun: 浮点数 (float32)
      • incoherent_first_sentence: 字符串
      • incoherent_second_sentence: 字符串
      • has_coref_type_nominal: 浮点数 (float32)
      • coherent_first_sentence: 字符串
    • 分割:
      • 训练: 16310585 个样本, 6377885028 字节
      • 测试: 163657 个样本, 64007750 字节
      • 验证: 168081 个样本, 65681627 字节
    • 下载大小: 3929336540 字节
    • 数据集大小: 6507574405 字节

数据文件配置

  • 配置名称: discofuse-sport

    • 数据文件:
      • 训练: discofuse-sport/train-*
      • 测试: discofuse-sport/test-*
      • 验证: discofuse-sport/validation-*
  • 配置名称: discofuse-wikipedia

    • 数据文件:
      • 训练: discofuse-wikipedia/train-*
      • 测试: discofuse-wikipedia/test-*
      • 验证: discofuse-wikipedia/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作