google-research-datasets/discofuse
收藏Hugging Face2024-01-06 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/discofuse
下载链接
链接失效反馈官方服务:
资源简介:
DiscoFuse是一个大规模的数据集,用于基于语篇的句子融合任务。数据集包含两个配置:discofuse-sport和discofuse-wikipedia,每个配置都有训练、验证和测试集。数据集的字段包括连贯和不连贯的句子对、连接词、语篇类型等。数据集的创建过程、注释过程、源数据等信息未详细说明。
提供机构:
google-research-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: DiscoFuse
- 语言: 英语
- 许可证: CC BY-SA 3.0
- 多语性: 单语
- 数据集大小: 10M < n < 100M
- 源数据: 原始数据
- 任务类别: 文本到文本生成
- 标签: 句子融合
数据集配置
-
配置名称: discofuse-sport
- 特征:
connective_string: 字符串discourse_type: 字符串coherent_second_sentence: 字符串has_coref_type_pronoun: 浮点数 (float32)incoherent_first_sentence: 字符串incoherent_second_sentence: 字符串has_coref_type_nominal: 浮点数 (float32)coherent_first_sentence: 字符串
- 分割:
- 训练: 43291020 个样本, 14736176073 字节
- 测试: 445521 个样本, 151655243 字节
- 验证: 440902 个样本, 150206657 字节
- 下载大小: 9422142544 字节
- 数据集大小: 15038037973 字节
- 特征:
-
配置名称: discofuse-wikipedia
- 特征:
connective_string: 字符串discourse_type: 字符串coherent_second_sentence: 字符串has_coref_type_pronoun: 浮点数 (float32)incoherent_first_sentence: 字符串incoherent_second_sentence: 字符串has_coref_type_nominal: 浮点数 (float32)coherent_first_sentence: 字符串
- 分割:
- 训练: 16310585 个样本, 6377885028 字节
- 测试: 163657 个样本, 64007750 字节
- 验证: 168081 个样本, 65681627 字节
- 下载大小: 3929336540 字节
- 数据集大小: 6507574405 字节
- 特征:
数据文件配置
-
配置名称: discofuse-sport
- 数据文件:
- 训练: discofuse-sport/train-*
- 测试: discofuse-sport/test-*
- 验证: discofuse-sport/validation-*
- 数据文件:
-
配置名称: discofuse-wikipedia
- 数据文件:
- 训练: discofuse-wikipedia/train-*
- 测试: discofuse-wikipedia/test-*
- 验证: discofuse-wikipedia/validation-*
- 数据文件:



