WikiSplit Dataset

github2024-05-01 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/wiki-split

下载链接

链接失效反馈

官方服务：

资源简介：

Google的WikiSplit数据集自动从公开的维基百科修订历史中构建，虽然数据集包含一些固有噪声，但它可以作为训练模型的宝贵数据，用于分割或合并句子。

Google's WikiSplit dataset is automatically constructed from the revision history of publicly available Wikipedia. Although the dataset contains some inherent noise, it serves as valuable data for training models aimed at sentence splitting or merging.

创建时间：

2018-09-01

原始信息汇总

WikiSplit Dataset 概述

数据集描述

WikiSplit 数据集由 Google 自动从公开的 Wikipedia 修订历史中构建，包含一百万个英语句子，每个句子被分割成两个句子，这两个句子共同保留了原始句子的意义。该数据集适用于训练句子分割或合并的模型，尽管存在一些固有噪声。

数据集构建与使用

详细的数据集构建方法和用于模型训练的使用情况，请参阅相关论文：Learning to Split and Rephrase From Wikipedia Edit History。

引用信息

若在工作中使用或讨论此数据集，请引用以下论文：

@InProceedings{BothaEtAl2018, title = {Learning To Split and Rephrase From Wikipedia Edit History}, author = {Botha, Jan A and Faruqui, Manaal and Alex, John and Baldridge, Jason and Das, Dipanjan}, booktitle = {Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing}, pages = {to appear}, note = {arXiv preprint arXiv:1808.09468}, year = {2018} }

数据格式

数据集以文本文件形式发布，格式为制表符分隔值（TSV），具体格式如下：

列	含义
1	未分割的单个句子
2	分割后的句子，由字符串 `<::::>` 分隔

句子已在标点处进行了分词。

数据集统计

部分	实例数	词数	词汇量
train.tsv	989,944	33,084,465	632,588
tune.tsv	5,000	167,456	25,871
validation.tsv	5,000	166,628	25,251
test.tsv	5,000	167,853	25,386

*词数和词汇量统计基于未分割的句子。

性能评估

在 WebSplit 1.0 基准测试中，使用 WikiSplit 数据集进行模型训练，结果显示模型泛化能力得到提升，且在 WebSplit 1.0 测试集上的输出显著改善。具体性能对比请参阅论文。

许可证

WikiSplit 数据集是公开的 Wikipedia 修订历史内容的直接复制，因此根据 CC BY-SA 4.0 许可。任何第三方内容或数据均按“原样”提供，不附带任何明示或暗示的保证。

搜集汇总

数据集介绍

构建方式

WikiSplit数据集通过自动化的方式从公开的维基百科修订历史中构建而成。该数据集的核心思想是提取维基百科编辑历史中的句子，并将其拆分为两个句子，确保拆分后的句子能够共同保留原始句子的语义。尽管数据集中存在一定的噪声，但其构建过程充分利用了维基百科编辑的语义一致性，使得数据集在句子拆分和合并任务中具有较高的实用价值。

特点

WikiSplit数据集的主要特点在于其大规模的句子拆分样本，涵盖了超过一百万个英语句子。数据集的句子经过分词处理，并以制表符分隔的文本文件形式发布，便于直接用于模型训练。此外，数据集的多样性和语义一致性使其成为句子拆分和重述任务的理想训练数据，尤其在提升模型泛化能力方面表现突出。

使用方法

WikiSplit数据集的使用方法相对简单，用户可以直接加载TSV格式的数据文件，其中每行包含一个未拆分的句子及其对应的拆分结果，拆分结果通过字符串`<::::>`分隔。数据集提供了训练、调优、验证和测试四个部分，用户可以根据需求选择相应的数据子集进行模型训练或评估。此外，数据集的评估代码已公开，用户可以参考相关代码进行模型性能的验证。

背景与挑战

背景概述

WikiSplit数据集由Google的研究团队于2018年创建，旨在通过自动提取维基百科编辑历史中的句子分割信息，生成一个包含一百万条英语句子的数据集。该数据集的核心研究问题是如何有效地将长句子分割为两个或多个保持原意的短句子，从而为句子分割与合并任务提供高质量的训练数据。WikiSplit的构建不仅为自然语言处理领域提供了新的资源，还为模型在句子分割与重述任务中的表现提供了显著的提升，尤其是在WebSplit 1.0基准测试中，使用WikiSplit进行训练的模型表现出了更强的泛化能力。

当前挑战

WikiSplit数据集在构建过程中面临的主要挑战包括：首先，如何从维基百科的编辑历史中自动提取出高质量的句子分割样本，确保分割后的句子能够准确传达原句的语义。其次，数据集中不可避免地存在一定的噪声，这要求模型在训练时具备较强的鲁棒性。此外，如何有效地利用该数据集进行模型训练，以提升模型在句子分割与重述任务中的表现，也是一个重要的研究方向。最后，数据集的规模和复杂性使得其在存储、处理和分析过程中面临技术上的挑战。

常用场景

经典使用场景

WikiSplit数据集的经典使用场景主要集中在自然语言处理领域中的句子分割与重组任务。该数据集通过提供大量从维基百科编辑历史中提取的句子对，帮助模型学习如何将一个长句分割成两个或多个语义完整且相互关联的短句。这种任务对于文本摘要、机器翻译以及对话系统等应用具有重要意义，因为它能够提升模型对复杂句子的理解和处理能力。

解决学术问题

WikiSplit数据集解决了自然语言处理领域中句子分割与重组的核心问题。通过提供大规模的句子分割实例，该数据集为研究人员提供了一个标准化的基准，用于评估和改进句子分割模型的性能。其意义在于，它不仅提升了模型在句子分割任务上的表现，还为相关领域的研究提供了丰富的语料资源，推动了自然语言处理技术的进步。

衍生相关工作

基于WikiSplit数据集，许多相关的经典工作得以展开。例如，研究人员利用该数据集开发了更高效的句子分割算法，并在多个自然语言处理任务中取得了显著的性能提升。此外，WikiSplit数据集还被用于探索句子分割与重组任务中的多任务学习、迁移学习等前沿技术，进一步推动了自然语言处理领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集