WikiHow

Name: WikiHow
Creator: 加州大学圣塔芭芭拉分校
Published: 2018-10-18 13:29:41
License: 暂无描述

arXiv2018-10-18 更新2024-06-21 收录

下载链接：

https://github.com/mahnazkoupaee/WikiHow-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

WikiHow是一个大规模的文本摘要数据集，由加州大学圣塔芭芭拉分校创建，包含超过20万篇文章和摘要对。数据集内容丰富，涵盖多种主题和写作风格，数据来源于WikiHow知识库，通过爬虫技术提取并构建。创建过程包括从文章中提取摘要性的句子，并将其与详细描述部分配对。WikiHow数据集主要用于文本摘要研究，旨在解决现有数据集在多样性和抽象级别上的不足，为研究者提供一个更具挑战性的评估平台。

WikiHow is a large-scale text summarization dataset developed by the University of California, Santa Barbara, which contains over 200,000 article-summary pairs. The dataset features rich content covering diverse topics and writing styles, and is constructed by extracting data from the WikiHow knowledge base via web crawling techniques. Its creation process involves extracting summary sentences from articles and pairing them with corresponding detailed descriptive sections. Primarily used for text summarization research, the WikiHow dataset aims to address the shortcomings of existing datasets in terms of diversity and abstraction level, providing researchers with a more challenging evaluation platform.

提供机构：

加州大学圣塔芭芭拉分校

创建时间：

2018-10-18

搜集汇总

数据集介绍

构建方式

在文本摘要研究领域，构建高质量数据集是推动模型发展的关键。WikiHow数据集通过爬取在线知识库WikiHow中的文章，精心构建了超过23万篇文章与摘要对。具体而言，研究人员利用Python Scrapy库编写爬虫，获取涵盖20个不同主题类别的文章。每篇文章通常包含多个步骤，每个步骤以粗体摘要句开头，后跟详细描述。通过将步骤的详细描述拼接形成源文章，同时提取并拼接粗体摘要句形成参考摘要，从而生成结构化的数据对。为确保数据质量，还通过长度阈值过滤了摘要长于文章的无效样本，最终得到约20.4万对有效数据，为长序列文本摘要任务提供了丰富资源。

特点

WikiHow数据集在文本摘要领域展现出独特优势，其核心特点在于高度的抽象性和多样性。与常见的新闻摘要数据集不同，该数据集的文章由普通用户撰写，主题覆盖日常任务指南，文体风格多样，避免了新闻惯用的倒金字塔结构。通过定义抽象度指标，研究发现摘要中多数n-gram未在原文出现，体现了较高的创造性要求。此外，数据集的压缩比达到2.38，显著高于CNN/Daily Mail的1.44，意味着摘要需在更大程度上凝练原文语义，这为模型处理深层抽象内容带来了新挑战。这些特性共同使WikiHow成为评估摘要系统泛化能力的理想测试平台。

使用方法

WikiHow数据集适用于训练和评估各类文本摘要模型，尤其适合探索抽象式摘要方法。研究人员可将数据集按标准划分为训练集、验证集和测试集，用于训练序列到序列模型、指针生成网络等先进架构。在评估时，建议使用ROUGE和METEOR等自动指标衡量生成摘要的质量，同时注意数据集的抽象特性可能导致传统基于重叠的指标得分偏低。此外，由于文章结构以步骤描述为主，可设计针对性的基线方法，例如提取各段落首句形成摘要，以对比模型性能。该数据集已公开提供，便于社区进一步推动摘要技术向更高抽象层次发展。

背景与挑战

背景概述

WikiHow数据集由加州大学圣塔芭芭拉分校的研究团队于2018年提出，旨在应对自然语言处理领域文本摘要任务的挑战。该数据集从在线知识库WikiHow中提取超过23万篇文章与摘要对，覆盖广泛主题，展现了多样化的写作风格。其核心研究问题在于解决现有摘要数据集如新闻文章存在的风格单一、抽象层次有限等缺陷，为长序列文本的抽象摘要提供了大规模、高质量的训练资源。该数据集的发布显著推动了摘要模型在非新闻领域的泛化能力，成为评估抽象摘要系统性能的重要基准。

当前挑战

WikiHow数据集所解决的领域问题在于文本摘要，特别是面向多样化主题的抽象摘要生成。其挑战体现在：首先，数据具有较高的抽象性，摘要中多数n-gram未在原文出现，要求模型具备更强的语义理解和创造性生成能力；其次，数据压缩比较高，模型需从长文本中提炼核心信息，对语义捕获提出更高要求。在构建过程中，挑战包括从WikiHow知识库中提取结构化数据，需处理文章的多方法描述，并过滤无详细解释的条目，以确保数据质量与适用性。

常用场景

经典使用场景

在自然语言处理领域，文本摘要任务旨在生成简洁且信息完整的文本摘要。WikiHow数据集以其大规模、高抽象性和多样化的写作风格，成为评估和训练抽象式摘要模型的经典资源。该数据集包含超过20万篇关于各类主题的文章，每篇文章均配有由段落标题合并而成的人工摘要，其结构打破了新闻数据常见的倒金字塔模式，要求模型深入理解内容逻辑而非简单提取开头句子。

衍生相关工作

自WikiHow数据集发布以来，已衍生出多项经典研究工作，主要集中在提升抽象式摘要模型的性能。例如，研究者基于该数据集探索了指针生成器网络与覆盖机制的改进，以应对其高抽象性带来的重复生成挑战；同时，也有工作利用WikiHow评估多任务学习框架，增强模型在跨领域摘要中的泛化能力。这些研究不仅推动了摘要技术的发展，还促进了数据增强、迁移学习等方法在自然语言处理中的更广泛应用。

数据集最近研究