RussianNLP/Mixed-Summarization-Dataset

Name: RussianNLP/Mixed-Summarization-Dataset
Creator: RussianNLP
Published: 2024-04-25 08:25:50
License: 暂无描述

Hugging Face2024-04-25 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/RussianNLP/Mixed-Summarization-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Russian summarization data mix，主要用于俄语文本的摘要任务。数据集包含训练集和测试集，训练集有197561个样本，测试集有258个样本。测试集是手动验证的半合成数据，用于评估目的。数据集的特征包括text和summary，分别表示文本和摘要。此外，数据集还使用了多个其他数据集进行训练，包括XLSum、Gazeta、WikiLingua、MLSUM、Reviews (ru)、Curation-corpus (ru)、Matreshka、DialogSum (ru)和SAMSum (ru)。

提供机构：

RussianNLP

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 摘要生成
语言: 俄语
数据规模: 100K<n<1M

配置信息

配置名称: mixedsum
数据文件:
- 训练集: train/train.parquet
- 测试集: test/test.parquet

数据集详情

配置名称: mixedsum
特征:
- text: 数据类型为字符串
- summary: 数据类型为字符串
分割:
- 训练集: 包含197561个样本
- 测试集: 包含258个样本

数据集组成

训练集: 197561个样本
测试集: 258个样本（手动验证的半合成数据，用于评估目的）

数据来源

XLSum
Gazeta
WikiLingua
MLSUM
Reviews (ru)
Curation-corpus (ru)
Matreshka
DialogSum (ru)
SAMSum (ru)

5,000+

优质数据集

54 个

任务类型

进入经典数据集