wikipedia-biography-dataset

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/DavidGrangier/wikipedia-biography-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了728,321篇维基百科传记文章，旨在评估文本生成算法。每篇文章提供首段和信息框（均已分词）。数据集用于研究从结构化数据生成文本，应用于传记领域，并建议在使用数据时引用相关论文。

This dataset comprises 728,321 biographical articles from Wikipedia, designed to evaluate text generation algorithms. Each article provides the introductory paragraph and the infobox, both of which have been tokenized. The dataset is utilized for research on generating text from structured data, specifically within the biographical domain, and it is recommended to cite the relevant papers when using the data.

创建时间：

2016-09-13

原始信息汇总

数据集概述

数据集名称

WikiBio (wikipedia biography dataset)

数据集内容

来源：该数据集从英文维基百科（enwiki-20150901）中收集了728,321篇传记文章。
目的：用于评估文本生成算法。
数据内容：每篇文章包含以下两部分：
- 第一段文本：已进行分词处理。
- 信息框（Infobox）：已进行分词处理，并以列表形式提供，包含字段名和字段值对。

数据处理

预处理工具：使用Stanford CoreNLP进行数据预处理，包括文本分割成句子和分词。
数据分割：数据集随机分为三个部分：训练集（80%）、验证集（10%）、测试集（10%）。

数据组织结构

目录结构：数据集分为三个子目录：train, valid, test。
文件内容：每个子目录包含7个文件，分别存储文章的ID、URL、信息框数据、句子数量、句子内容、标题和贡献者信息。

数据格式

信息框数据格式：每行代表一个信息框，使用制表符分隔的令牌表示，格式为fieldname_position:wordtype。空字段或不可读字段标记为fieldname:<none>。

引用信息

参考文献：Rémi Lebret, David Grangier, and Michael Auli. "Neural Text Generation from Structured Data with Application to the Biography Domain", EMNLP 16. 链接
引用要求：使用数据集时，请引用上述文献。

搜集汇总

数据集介绍

构建方式

该数据集从英文维基百科的2015年9月1日数据快照中提取了728,321篇传记文章，专注于评估文本生成算法。每篇文章包含首段和信息框（infobox），两者均经过分词处理。数据提取依赖于WikiProject Biography项目所引用的文章。使用Stanford CoreNLP工具对文本进行预处理，包括将文本分割成句子并进行分词。数据集被随机划分为训练集（80%）、验证集（10%）和测试集（10%），建议仅在最终评估时使用测试集。

特点

该数据集的主要特点在于其结构化数据的丰富性和多样性。每篇文章不仅包含文本信息，还附带结构化的信息框数据，这些数据以字段名和字段值对的形式呈现，便于进行文本生成和信息提取任务。此外，数据集的随机划分和详细的文件组织方式，使得数据易于访问和处理，适合用于多种自然语言处理任务。

使用方法

数据集分为训练、验证和测试三个子目录，每个子目录包含七个文件，分别存储维基百科ID、URL、信息框数据、句子数量、句子内容、文章标题和贡献者信息。使用时，需根据SET.nb文件中的句子数量来分割SET.sent文件中的句子。信息框数据以特定格式编码，便于解析和处理。建议在最终评估时仅使用测试集，以确保模型的泛化能力。

背景与挑战

背景概述

WikiBio（Wikipedia Biography Dataset）是由Rémi Lebret、David Grangier和Michael Auli在2016年EMNLP会议上提出的一个大规模数据集，旨在评估文本生成算法。该数据集从英文维基百科的2015年9月1日版本中提取了728,321篇传记文章，每篇文章包含首段文本和信息框（infobox），并进行了分词处理。数据集的构建依赖于WikiProject Biography项目，并使用Stanford CoreNLP工具进行预处理，将文本分割为句子并进行分词。该数据集被随机划分为训练集（80%）、验证集（10%）和测试集（10%），广泛应用于结构化数据到文本生成的研究领域，尤其在传记领域的应用中具有重要意义。

当前挑战

WikiBio数据集在构建和应用过程中面临多项挑战。首先，从维基百科中提取和处理大规模传记数据需要高效的文本处理工具和算法，以确保数据的准确性和一致性。其次，信息框的结构化数据与自然语言文本之间的转换是一个复杂的过程，涉及如何将结构化数据映射为自然语言描述，同时保持语义的连贯性和信息的完整性。此外，数据集的随机划分虽然简化了模型训练和评估，但也可能引入数据分布不均的问题，特别是在不同领域的传记文章中。最后，如何有效利用信息框中的多字段信息生成高质量的文本，仍是该领域研究的核心挑战之一。

常用场景

经典使用场景

在自然语言处理领域，Wikipedia Biography Dataset（WikiBio）被广泛用于评估文本生成算法的性能。该数据集通过提供维基百科中728,321篇传记文章的第一段和信息框（infobox），为研究者提供了一个丰富的资源来训练和测试文本生成模型。特别是，信息框中的结构化数据与文本段落的结合，使得模型能够学习如何从结构化数据生成连贯的文本描述，这在传记领域的文本生成任务中尤为重要。

衍生相关工作

基于Wikipedia Biography Dataset，许多研究工作得以展开，尤其是在文本生成和自然语言处理领域。例如，Rémi Lebret等人在EMNLP 2016上发表的论文《Neural Text Generation from Structured Data with Application to the Biography Domain》，详细探讨了如何利用该数据集进行神经网络文本生成。此外，该数据集还激发了其他研究者对结构化数据生成任务的兴趣，推动了相关领域的技术进步。

数据集最近研究