Joemgu/sumstew

Name: Joemgu/sumstew
Creator: Joemgu
Published: 2023-06-21 13:07:18
License: 暂无描述

Hugging Face2023-06-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Joemgu/sumstew

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: target dtype: string - name: input_tokens dtype: int64 - name: target_tokens dtype: int64 - name: subset dtype: string - name: language dtype: string splits: - name: train num_bytes: 3338029493 num_examples: 187221 - name: validation num_bytes: 218403099 num_examples: 14542 - name: test num_bytes: 201638368 num_examples: 12467 download_size: 1982559322 dataset_size: 3758070960 task_categories: - summarization language: - en - de - fr - it - es size_categories: - 100K<n<1M license: apache-2.0 tags: - chemistry - biology --- # Dataset Card for "sumstew" ## TL;DR: Sumstew is a abstractive, multilingual Dataset, with a balanced number of samples from a diverse set of summarization Datasets. The input sizes range up to 16384 tokens. Filtered using a diverse set of heuristics to encourage high coverage, accuracy and factual consistency. Code to reproduce Dataset available at *TODO* ## Dataset Description - **Dataset Identifier**: sumstew - **Dataset Summary**: "SumStew" is a rich multilingual dataset for text summarization. It incorporates diverse data sources such as cnn_dailymail, samsum, mlsum (de, fr, es, it), klexikon, xlsum (fr, en, es), govreport, sciqa, piqa, pumbed_qa, multinews, laysum, booksum, dialogsum, fanpage (it), ilpost (it). This data has been curated by filtering based on n-gram overlap between the source and target documents and normalized to prevent undue bias. Every instance in this dataset is prefixed by an instruction (title, summary, or qa). ## Task Information - **Task Categories**: The tasks covered by this dataset are primarily summarization tasks. - **Languages**: This dataset supports multiple languages including English (en), German (de), French (fr), Italian (it), and Spanish (es). ## Dataset Structure - **Data Instances**: Each data instance in the dataset comprises five fields - 'prompt', 'target', 'task', 'subset', and 'language'. - 'prompt': The input text for the task. (dtype: string) - 'target': The expected output for the task. (dtype: string) - 'subset': The subset of the dataset the instance belongs to. (dtype: string) - 'language': The language of the instance. (dtype: string) - **Data Splits**: The dataset is split into two subsets: - 'train' set: 187221 examples - 'validation' set: 14542 examples - 'test' set: 12467 examples ## Dataset Statistics - **Max Document Length**: The maximum document length is 16384 mlong-t5 tokens. - **Max Output Length**: The maximum output length is 1024 mlong-t5 tokens. ## Additional Information - **Data Collection**: The data has been collected from a variety of sources spanning different languages and domains, ensuring a diverse and comprehensive dataset. - **Data Cleaning**: The dataset has been filtered by checking the ngram overlap between the source and target document and dropping samples which have too much or too little overlap, and also through normalization. - **Known Limitations**: As the dataset is generated from diverse sources, the inherent biases or limitations of those sources may persist in this dataset as well. - **Usage Scenarios**: This dataset can be used for training and evaluating models on tasks like summarization and question-answering, in a multilingual context. ## Credits At this point I want to thank every creator of the underlying datasets (there are too many for me to count). If there are any issues concercining licensing or you want your data removed from the dataset, feel free to DM over Twitter (link in profile). Special thanks to @pszemraj [https://huggingface.co/pszemraj] for the inspiration. If interested in collaboration or consulting for your project, feel free to DM https://twitter.com/StutterBuddy

数据集信息：特征： - 名称：提示词（prompt），数据类型：字符串 - 名称：目标输出（target），数据类型：字符串 - 名称：输入Token（input_tokens），数据类型：64位整数 - 名称：目标Token（target_tokens），数据类型：64位整数 - 名称：子集（subset），数据类型：字符串 - 名称：语言（language），数据类型：字符串数据划分： - 名称：训练集（train），字节数：3338029493，样本数：187221 - 名称：验证集（validation），字节数：218403099，样本数：14542 - 名称：测试集（test），字节数：201638368，样本数：12467 下载大小：1982559322，数据集总大小：3758070960 任务类别： - 文本摘要（summarization）支持语言： - 英语（en） - 德语（de） - 法语（fr） - 意大利语（it） - 西班牙语（es）样本规模类别： - 100K<n<1M 许可证：Apache-2.0 标签： - 化学（chemistry） - 生物学（biology） # "sumstew"数据集卡片 ## 速览（TL;DR）： Sumstew是一款抽象式多语言数据集，样本分布均衡，涵盖了多样化的摘要类数据集来源。其输入长度上限可达16384个Token。该数据集通过多样化的启发式规则进行过滤，以保障高覆盖率、准确性与事实一致性。复现该数据集的代码详见*待补充*。 ## 数据集概述 - **数据集标识符**：sumstew - **数据集详情**："SumStew"是面向文本摘要任务的丰富多语言数据集，整合了cnn_dailymail、samsum、mlsum（德语、法语、西班牙语、意大利语）、klexikon、xlsum（法语、英语、西班牙语）、govreport、sciqa、piqa、pumbed_qa、multinews、laysum、booksum、dialogsum、fanpage（意大利语）、ilpost（意大利语）等多样数据源。本数据集经过精心筛选，基于源文档与目标文档的n-gram重叠度进行过滤，并做归一化处理以避免不当偏差。数据集中的每个实例均以指令（标题、摘要或问答）作为前缀。 ## 任务信息 - **任务类别**：该数据集覆盖的核心任务为文本摘要任务。 - **支持语言**：本数据集支持英语（en）、德语（de）、法语（fr）、意大利语（it）以及西班牙语（es）共五种语言。 ## 数据集结构 - **数据实例**：数据集中的每个数据实例包含五个字段：提示词（prompt）、目标输出（target）、任务类型（task）、子集（subset）与语言（language）。 - 提示词（prompt）：任务的输入文本，数据类型为字符串。 - 目标输出（target）：任务的预期输出，数据类型为字符串。 - 任务类型（task）：该实例对应的任务类型，数据类型为字符串。 - 子集（subset）：该实例所属的数据集子集，数据类型为字符串。 - 语言（language）：该实例的语言，数据类型为字符串。 - **数据划分**：该数据集被划分为三个子集： - 训练集（train）：共187221个样本 - 验证集（validation）：共14542个样本 - 测试集（test）：共12467个样本 ## 数据集统计信息 - **最大文档长度**：最大文档长度为16384个mlong-t5 Token。 - **最大输出长度**：最大输出长度为1024个mlong-t5 Token。 ## 补充信息 - **数据采集**：本数据集采集自覆盖不同语言与领域的多种数据源，确保了数据集的多样性与全面性。 - **数据清洗**：数据集通过检查源文档与目标文档的n-gram重叠度进行过滤，剔除重叠度过高或过低的样本，并进行了归一化处理。 - **已知局限性**：由于本数据集源自多样化的数据源，这些数据源本身固有的偏差或局限性也可能在本数据集中存在。 - **使用场景**：本数据集可用于多语言环境下的文本摘要与问答等任务的模型训练与评估。 ## 致谢在此我谨向所有底层数据集的创作者致以诚挚谢意（数量众多，无法一一列举）。若存在任何与许可证相关的问题或希望将您的数据从本数据集中移除，请通过Twitter私信联系（链接见个人主页）。特别感谢@pszemraj [https://huggingface.co/pszemraj] 为本项目提供的灵感。若您对项目合作或咨询有兴趣，请私信联系 https://twitter.com/StutterBuddy

提供机构：

Joemgu

原始信息汇总

数据集概述

数据集标识符

Dataset Identifier: sumstew

数据集概要

Dataset Summary: "SumStew"是一个用于文本摘要的多语言数据集，包含多种数据源，如cnn_dailymail, samsum, mlsum (de, fr, es, it), klexikon, xlsum (fr, en, es), govreport, sciqa, piqa, pumbed_qa, multinews, laysum, booksum, dialogsum, fanpage (it), ilpost (it)。数据经过筛选，基于源文档和目标文档之间的n-gram重叠，并进行标准化处理以防止偏见。

任务信息

Task Categories: 主要涵盖文本摘要任务。
Languages: 支持多种语言，包括英语(en)、德语(de)、法语(fr)、意大利语(it)、西班牙语(es)。

数据集结构

Data Instances: 每个数据实例包含五个字段：
- prompt: 任务输入文本（dtype: string）
- target: 任务预期输出（dtype: string）
- subset: 实例所属的数据集子集（dtype: string）
- language: 实例的语言（dtype: string）
Data Splits: 数据集分为三个子集：
- train set: 187221 examples
- validation set: 14542 examples
- test set: 12467 examples

数据集统计

Max Document Length: 最大文档长度为16384 mlong-t5 tokens。
Max Output Length: 最大输出长度为1024 mlong-t5 tokens。

附加信息

Data Collection: 数据来自多种语言和领域的不同来源，确保了数据集的多样性和全面性。
Data Cleaning: 数据集通过检查源文档和目标文档之间的n-gram重叠进行筛选，并进行标准化处理。
Known Limitations: 由于数据集源自多样化的来源，这些来源的固有偏见或限制可能在此数据集中仍然存在。
Usage Scenarios: 该数据集可用于训练和评估多语言环境下的文本摘要和问答模型。

许可证

license: apache-2.0

搜集汇总

数据集介绍

构建方式

在文本摘要研究领域，构建高质量数据集是推动模型泛化能力的关键。Sumstew数据集通过整合多个知名摘要数据集，如cnn_dailymail、samsum、mlsum等，覆盖化学、生物学等多领域，并运用n-gram重叠度筛选机制，去除源文本与目标摘要间重叠过高或过低的样本，确保数据在覆盖范围、准确性和事实一致性方面达到优化。此外，数据经过规范化处理，每个实例均以指令（如标题、摘要或问答形式）为前缀，增强了任务的明确性。

特点

Sumstew数据集展现出鲜明的多语言与跨领域特性，支持英语、德语、法语、意大利语和西班牙语五种语言，为多语言摘要研究提供了丰富资源。其数据规模庞大，包含超过18万训练样本，且输入文本长度可达16384个标记，输出长度限制在1024个标记内，适应了长文本摘要的需求。数据集结构清晰，每个实例包含提示、目标、子集和语言字段，便于模型训练与评估，同时通过平衡不同来源的样本分布，有效减少了数据偏差。

使用方法

在自然语言处理应用中，Sumstew数据集适用于训练和评估多语言摘要模型。用户可直接通过HuggingFace平台加载数据集，利用其预划分的训练、验证和测试分割进行模型开发。数据集支持多种任务格式，如基于指令的摘要生成，研究者可结合提示字段设计特定实验，以提升模型在跨语言和跨领域场景下的性能。此外，数据集的开源特性允许复现和扩展，为学术与工业界提供了可靠的基准资源。

背景与挑战

背景概述

在自然语言处理领域，文本摘要任务旨在从冗长文档中提取核心信息，生成简洁且连贯的摘要。随着多语言应用的普及，构建高质量、跨语言的摘要数据集成为推动模型泛化能力的关键。Sumstew数据集由研究人员Joemgu于近期创建，整合了包括cnn_dailymail、samsum、mlsum、govreport等在内的多个知名摘要数据集，覆盖英语、德语、法语、意大利语和西班牙语五种语言。该数据集的核心研究问题在于解决多语言抽象摘要任务中数据分布不均、语言覆盖有限以及摘要质量参差不齐的难题，通过精心筛选和标准化处理，为跨语言摘要模型的训练与评估提供了丰富资源，显著促进了多语言自然语言处理技术的发展。

当前挑战

Sumstew数据集面临的挑战主要体现在两个方面：在领域问题层面，多语言文本摘要任务需克服语言差异带来的语义对齐困难，确保模型在不同语言中均能生成准确、连贯且事实一致的摘要，同时避免源文档与目标摘要之间的信息冗余或缺失。在构建过程中，数据集整合了来自多样来源的样本，这引入了数据质量不一致的挑战，例如原始数据中的偏见或噪声可能被继承；此外，通过n-gram重叠等启发式方法进行过滤虽提升了摘要质量，但可能剔除部分有价值样本，影响数据集的全面性。这些挑战要求后续研究在模型训练中注重跨语言泛化与数据清洗策略的优化。

常用场景

经典使用场景

在自然语言处理领域，Sumstew数据集以其多语言和跨领域的特性，为抽象式文本摘要任务提供了经典的应用场景。该数据集整合了新闻、对话、科学文献等多种来源，支持英语、德语、法语、意大利语和西班牙语，使得研究人员能够训练和评估模型在不同语言和文化背景下的摘要生成能力。通过平衡的样本分布和严格的启发式过滤，Sumstew确保了数据的高覆盖度和事实一致性，成为推动多语言摘要技术发展的关键资源。

实际应用

在实际应用中，Sumstew数据集支持多语言摘要系统在新闻聚合、学术文献整理、企业报告生成等场景中的部署。例如，媒体机构可利用该数据集训练的模型，自动生成不同语言新闻的简明摘要，提升信息传播效率；科研人员则能借助其科学问答（SciQA）和书籍摘要（BookSum）等子集，快速提炼复杂文献的核心内容。这些应用不仅优化了信息处理流程，还增强了跨语言交流的便捷性，体现了数据集在全球化数字环境中的实用价值。

衍生相关工作

基于Sumstew数据集，衍生出了一系列经典研究工作，主要集中在多语言摘要模型的优化与评估框架的构建上。例如，研究人员利用其平衡的多语言样本，开发了能够处理长文档（如GovReport和MultiNews子集）的摘要算法，扩展了模型在专业领域的适用性。同时，该数据集也促进了如指令前缀（instruction-prefixing）等新技术在摘要任务中的探索，为后续研究提供了丰富的实验基础和比较基准，推动了自然语言处理社区向更高效、更准确的摘要系统迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集