WikiHow
收藏github2020-04-22 更新2024-05-31 收录
下载链接:
https://github.com/HHousen/WikiHow-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
WikiHow是一个基于在线WikiHow知识库的大型文本摘要数据集。该数据集通过合并段落形成文章,并将段落概要合并形成摘要,包含超过20万个长序列对。数据集包含两个主要文件:wikihowAll.csv和wikihowSep.csv,分别包含文章及其摘要的不同格式。
WikiHow is a large-scale text summarization dataset based on the online WikiHow knowledge base. The dataset is constructed by merging paragraphs to form articles and combining paragraph summaries to create abstracts, encompassing over 200,000 long sequence pairs. The dataset includes two main files: wikihowAll.csv and wikihowSep.csv, which contain the articles and their summaries in different formats.
创建时间:
2020-04-22
原始信息汇总
数据集概述
数据集名称
WikiHow-Dataset
数据集来源
基于WikiHow知识库,由mahnazkoupaee/WikiHow-Dataset处理而来。
数据集内容
包含两个主要数据文件:
-
wikihowAll.csv
- Title: 文章标题
- Headline: 所有段落中加粗的句子连接成的参考摘要
- Text: 所有段落(除加粗句子外)连接成的待摘要文章
-
wikihowSep.csv
- Title: 文章标题
- Overview: 文章的介绍部分
- Headline: 段落中加粗的句子作为参考摘要
- Text: 段落(除加粗句子外)作为待摘要文章
数据集规模
超过200,000对长序列数据。
数据集下载链接
- wikihowAll.csv: https://ucsb.box.com/s/ap23l8gafpezf4tq3wapr6u8241zz358
- wikihowSep.csv: https://ucsb.box.com/s/7yq601ijl1lzvlfu4rjdbbxforzd2oag
数据集使用许可
内容遵循Creative Commons License (CC-BY-NC-SA)。
搜集汇总
数据集介绍

构建方式
WikiHow数据集的构建采用了对WikiHow知识库中的文章进行处理的策略。该数据集将文章的各个段落合并形成完整的文章,同时将每个段落开头的加粗句子合并形成摘要,从而构建出超过20万对的长序列文章与摘要配对。
特点
该数据集具有大规模的特点,其数据来源为WikiHow,一个构建世界最大规模、高质量how-to手册的wiki平台。数据集包含两种格式的文件:wikihowAll.csv将所有段落合并为文章,加粗行合并为参考摘要;wikihowSep.csv则将每个段落及其对应的摘要独立成行。此外,数据集遵循Creative Commons License (CC-BY-NC-SA)。
使用方法
使用该数据集时,首先需要通过提供的process.py脚本处理csv文件,生成包含每篇文章及其摘要句子的文件目录。数据集提供了训练、验证和测试三个独立文件,其中包含用于生成论文结果的文章标题。用户可以从提供的链接下载数据集,并根据需要利用这些数据进行文本摘要相关的研究和开发工作。
背景与挑战
背景概述
WikiHow数据集是一款基于在线知识库WikiHow构建的大规模文本摘要数据集,旨在为文本摘要领域提供丰富的资源。该数据集由Mahnaz Koupaee等于2018年提出,并在论文'https://arxiv.org/abs/1810.09305'中进行了详细介绍。数据集利用WikiHow网站上提供的文章,每篇文章包含多个段落,每个段落以概括性的句子开头。通过整合段落和段落摘要,该数据集形成了超过20万的长序列对,为长文本摘要任务提供了有力支持,对自然语言处理领域产生了重要影响。
当前挑战
WikiHow数据集在构建和应用过程中面临的挑战主要包括:1) 如何有效处理大规模文本数据,确保数据质量和处理效率;2) 文本摘要的评估问题,尤其是在长文本摘要中如何准确衡量摘要的质量;3) 数据集的动态更新问题,由于WikiHow网站内容持续更新,如何保持数据集的时效性和完整性是另一个挑战。
常用场景
经典使用场景
在文本摘要研究领域,WikiHow数据集被广泛用于评估和训练自动文本摘要模型。该数据集包含超过20万的长序列对,由WikiHow知识库的文章及其摘要句组成,为研究者提供了一个丰富的文本资源,使其能够开展大规模的文本摘要实验。
实际应用
在实际应用中,WikiHow数据集可以被用来开发和优化自动摘要工具,这些工具能够帮助用户快速获取文章的核心信息,提高信息处理的效率,特别是在信息过载的今天,这种技术具有极高的实用价值。
衍生相关工作
基于WikiHow数据集,研究者已经开展了一系列相关工作,包括但不限于改进摘要算法、探索摘要生成的新模型,以及将文本摘要技术应用于其他领域,如问答系统和信息检索。
以上内容由遇见数据集搜集并总结生成



