WikiBio (wikipedia biography dataset)|文本生成数据集|传记数据数据集

github2023-08-04 更新2024-05-31 收录

文本生成

传记数据

下载链接：

https://github.com/rlebret/wikipedia-biography-dataset

下载链接

链接失效反馈

资源简介：

该数据集收集了728,321篇维基百科传记，旨在评估文本生成算法。每篇文章提供首段和信息框（均已分词）。数据集用于评估从结构化数据生成文本的算法，特别是在传记领域。

This dataset comprises 728,321 Wikipedia biographies, designed to evaluate text generation algorithms. Each article provides the introductory paragraph and an infobox, both of which have been tokenized. The dataset is utilized to assess algorithms that generate text from structured data, particularly within the domain of biographical content.

创建时间：

2016-10-25

原始信息汇总

数据集概述

数据集名称

WikiBio (wikipedia biography dataset)

数据集内容

包含728,321篇维基百科传记文章。
每篇文章提供首段文本和信息框（均已分词）。

数据集用途

用于评估文本生成算法，特别是在传记领域。

数据处理

使用Stanford CoreNLP进行预处理，包括将文本分解为句子和分词。
数据集随机分为三个子集：训练集（80%）、验证集（10%）、测试集（10%）。

数据集结构

数据集分为三个子目录：train, valid, test。每个子目录包含7个文件：

SET.id: 维基百科文章ID列表。
SET.url: 维基百科文章URL列表。
SET.box: 信息框数据。
SET.nb: 每篇文章的句子数量。
SET.sent: 句子列表。
SET.title: 文章标题。
SET.contributors: 文章作者列表。

信息框数据格式

每行代表一个信息框。
信息框以列表形式编码，使用制表符分隔的令牌。
每个令牌格式为：fieldname_position:wordtype。
空字段或不可读令牌表示为：fieldname:<none>。

引用信息

当使用此数据集时，建议引用以下论文：

Neural Text Generation from Structured Data with Application to the Biography Domain
Rémi Lebret, David Grangier and Michael Auli, EMNLP 16
论文链接：http://arxiv.org/abs/1603.07771

AI搜集汇总

数据集介绍

构建方式

WikiBio数据集构建于2016年，旨在评估文本生成算法的性能。该数据集从英文维基百科的2015年9月1日数据转储中提取了728,321篇传记文章。每篇文章的首段和Infobox（信息框）被提取并进行了预处理，包括使用Stanford CoreNLP工具进行句子分割和文本、字段值的分词处理。数据集被随机划分为训练集（80%）、验证集（10%）和测试集（10%），以确保模型训练和评估的有效性。

特点

WikiBio数据集的一个显著特点是其结构化的Infobox信息与自然语言文本的结合。每篇文章的Infobox被编码为一系列字段名和字段值的对，这种结构化的数据形式为文本生成任务提供了丰富的上下文信息。此外，数据集中的文本和Infobox信息均经过细致的预处理，确保了数据的一致性和可用性。数据集的划分方式也使得研究者可以在不同的阶段进行模型的训练和评估。

使用方法

WikiBio数据集的使用方法相对直观。数据集被组织为三个子目录，分别对应训练集、验证集和测试集。每个子目录包含多个文件，分别存储了文章的唯一标识、URL、Infobox数据、句子数量、句子内容、文章标题以及贡献者信息。研究者可以通过这些文件的对应行号来访问特定文章的信息。特别地，Infobox数据的编码格式为字段名和字段值的列表，便于程序化处理和分析。在使用测试集时，建议仅用于最终评估，以确保模型性能的客观性。

背景与挑战

背景概述

WikiBio数据集由Rémi Lebret、David Grangier和Michael Auli于2016年创建，旨在评估从结构化数据生成文本的算法。该数据集包含728,321篇来自维基百科的传记文章，每篇文章均提供了首段文本和Infobox（信息框）的标记化数据。这些数据源自2015年9月的英文维基百科转储，并通过WikiProject Biography项目进行筛选。数据集的主要研究问题集中在如何从结构化的Infobox数据生成连贯的文本，特别是在传记领域。该数据集在自然语言生成领域具有重要影响力，为后续的文本生成模型提供了基准测试平台。

当前挑战

WikiBio数据集面临的主要挑战包括如何从结构化的Infobox数据生成自然且连贯的文本。Infobox中的字段通常以键值对形式存在，且信息高度压缩，如何将这些离散的字段转化为流畅的叙述是一个复杂的问题。此外，Infobox中的字段可能包含缺失或不完整的信息，这进一步增加了生成文本的难度。在数据构建过程中，研究人员还面临如何有效处理大规模维基百科数据的挑战，包括数据的清洗、标记化以及如何确保数据的多样性和代表性。这些挑战不仅影响了数据集的构建，也为后续的文本生成算法提出了更高的要求。

常用场景

经典使用场景

WikiBio数据集广泛用于评估文本生成算法，尤其是在从结构化数据生成自然语言文本的场景中。通过提供维基百科传记文章的第一段落和信息框数据，该数据集为研究者提供了一个标准化的测试平台，用于验证和改进文本生成模型的性能。

衍生相关工作

基于WikiBio数据集，许多经典的自然语言生成研究工作得以展开。例如，Rémi Lebret等人的研究《Neural Text Generation from Structured Data with Application to the Biography Domain》提出了从结构化数据生成文本的神经网络模型，为后续的研究奠定了基础。此外，该数据集还激发了更多关于信息框到文本生成的研究，推动了该领域的进一步发展。

数据集最近研究

最新研究方向

在自然语言处理领域，WikiBio数据集作为评估文本生成算法的重要资源，近年来在结构化数据到文本生成任务中展现了其独特价值。随着深度学习技术的快速发展，研究者们利用该数据集探索了基于神经网络的文本生成模型，如序列到序列模型、注意力机制以及预训练语言模型的应用。特别是在传记领域的文本生成任务中，WikiBio数据集为模型提供了丰富的结构化信息与自然语言文本的对应关系，推动了生成文本的准确性和流畅性。此外，该数据集还被广泛应用于多模态学习、知识图谱增强生成等前沿研究方向，为跨领域知识融合与生成提供了重要支持。其影响力不仅限于学术研究，还在智能写作、自动摘要等实际应用中展现了广阔前景。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据，涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录