d0rj/wikisum

Name: d0rj/wikisum
Creator: d0rj
Published: 2023-06-16 11:24:25
License: 暂无描述

Hugging Face2023-06-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/d0rj/wikisum

下载链接

链接失效反馈

官方服务：

资源简介：

WikiSum是一个用于高效人类评估的连贯摘要数据集，包含URL、标题、摘要、文章和步骤标题等特征。数据集分为训练集、测试集和验证集，分别包含35775、2000和2000个样本。数据集大小为350740303字节，下载大小为194202865字节。该数据集主要用于摘要任务，语言为英语，属于单语言数据集，标签包括抽象摘要、维基和抽象。数据集的名称为WikiSum: Coherent Summarization Dataset for Efficient Human-Evaluation，大小类别为10K<n<100K，源数据集为原始数据集。

提供机构：

d0rj

原始信息汇总

数据集概述

基本信息

名称: WikiSum
任务类别: 摘要生成 (summarization)
语言: 英语 (en)
多语言性: 单语种 (monolingual)
标签:
- 抽象摘要 (abstractive-summarization)
- Wiki
- 抽象性
美观名称: WikiSum: Coherent Summarization Dataset for Efficient Human-Evaluation
大小类别: 10K<n<100K
源数据集: 原始数据 (original)
paperswithcode_id: wikisum

数据集特征

url: 字符串类型
title: 字符串类型
summary: 字符串类型
article: 字符串类型
step_headers: 字符串类型

数据集分割

训练集:
- 示例数量: 35775
- 字节数: 315275236
测试集:
- 示例数量: 2000
- 字节数: 17584216
验证集:
- 示例数量: 2000
- 字节数: 17880851

数据集大小

下载大小: 194202865 字节
数据集大小: 350740303 字节

许可证

未知

搜集汇总

数据集介绍

构建方式

d0rj/wikisum数据集的构建，是通过收集维基百科文章的URL、标题、摘要、完整文章内容以及文章中的步骤标题信息来完成的。该数据集涵盖了35775条训练数据、2000条测试数据和2000条验证数据，总计350740303字节的数据规模，确保了数据集的多样性和可用性。

特点

此数据集的特点在于其专注于摘要生成任务，特别是对于维基百科文章的摘要生成。它提供了丰富的文本特征，包括文章的标题、摘要和正文，以及文章结构的步骤标题，这为研究摘要的连贯性和效率提供了独特的视角。此外，数据集的单语特性（英语）保证了研究的专一性和语言的统一性。

使用方法

在使用d0rj/wikisum数据集时，研究者可以依据其提供的训练集、测试集和验证集进行模型的训练、评估和验证。数据集的结构化特征使得它可以方便地应用于文本摘要的自动评估和人工评估，有助于推动摘要生成技术的发展。用户可以从指定的存储库和主页获取数据集及相关资源，以开展相关研究。

背景与挑战

背景概述

在自然语言处理领域，文本摘要生成是重要的研究方向之一。WikiSum数据集应运而生，旨在为研究者提供一个高效的人类评估的连贯摘要数据集。该数据集创建于2021年，由亚马逊团队的核心研究人员Nachshon等人精心打造。它以维基百科文章为来源，包含了文章标题、内容、摘要以及文章中的小节标题，总计约350MB大小，涵盖了35,775条训练数据及各含2,000条数据验证集和测试集。WikiSum数据集的构建，为评估摘要生成模型的性能提供了可靠基准，对推动相关领域的研究具有重要意义。

当前挑战

WikiSum数据集在构建过程中，面临了多方面的挑战。首先，如何确保摘要的连贯性和准确性，是数据集构建的一大挑战。其次，构建一个既能反映人类评估标准，又能有效服务于模型训练的数据集，需要克服数据清洗、格式统一、信息标注等多重困难。此外，数据集的多样性和规模也是必须考虑的问题，以保证模型能够学习到丰富的语言特征。在所解决的领域问题方面，WikiSum数据集在摘要生成任务中，特别是在生成连贯摘要方面提出了挑战，要求模型不仅能够提取关键信息，还要能够生成逻辑上紧密、结构上清晰的文章摘要。

常用场景

经典使用场景

在自然语言处理领域，尤其是文本摘要领域，d0rj/wikisum数据集被广泛用于训练和评估摘要模型。其包含从维基百科文章中提取的标题、摘要和完整文章内容，特别适用于构建能够生成连贯、准确摘要的机器学习模型。

解决学术问题

该数据集解决了学术研究中自动文本摘要的一致性和准确性问题，为研究者提供了一个用于评估摘要质量的标准平台，有助于推动摘要生成算法的进步。

衍生相关工作

基于d0rj/wikisum数据集，研究者们衍生出了众多相关工作，包括但不限于摘要生成算法的改进、摘要质量评估指标的发展以及跨领域文本摘要的应用探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集