twwch/summary
收藏Hugging Face2023-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/twwch/summary
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于文章摘要生成任务,包含源文本和目标摘要两个特征。数据集分为训练集和测试集,分别包含10352和1151个样本。数据集的语言为中文,适用于微调google/mt5-base模型进行摘要生成。
提供机构:
twwch
原始信息汇总
数据集概述
许可证
- Apache 2.0
配置
- 默认配置
- 训练数据路径:
data/train-* - 测试数据路径:
data/test-*
- 训练数据路径:
数据集信息
- 特征
- 源: 字符串类型
- 目标: 字符串类型
- 分割
- 训练集
- 字节数: 31798343
- 样本数: 10352
- 测试集
- 字节数: 3617590
- 样本数: 1151
- 训练集
- 下载大小: 17798756
- 数据集大小: 35415933
任务类别
- 摘要生成
语言
- 中文
大小类别
- 10K < n < 100K



