five

google-research-datasets/wiki_split

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/wiki_split
下载链接
链接失效反馈
官方服务:
资源简介:
WikiSplit数据集包含一百万个英语句子,每个句子被分成两个句子,这两个句子共同保留了原始句子的含义。数据集是从维基百科的修订历史中自动构建的,尽管包含一些固有的噪声,但它可以作为拆分或合并句子的模型的有价值的训练数据。数据集的结构包括复杂句子和两个简单句子,数据分为训练集、验证集和测试集。数据集的许可证为CC BY-SA 4.0。

The WikiSplit dataset contains one million English sentences, each split into two sentences that jointly retain the meaning of the original sentence. It was automatically constructed from the revision histories of Wikipedia articles. Despite containing some inherent noise, it can serve as valuable training data for models that perform sentence splitting or merging. The dataset consists of complex sentences paired with two simplified sentences, and is divided into training, validation, and test sets. The dataset is licensed under CC BY-SA 4.0.
提供机构:
google-research-datasets
原始信息汇总

数据集概述

数据集摘要

WikiSplit数据集包含一百万条英语句子,每个句子被分成两个句子,这两个句子共同保留原始句子的意义。该数据集是从Wikipedia的修订历史中自动提取的。尽管数据集存在一些固有的噪声,但它可以作为训练模型进行句子分割或合并的有价值数据。

支持的任务和排行榜

  • 句子分割和重述

语言

  • 英语

数据集结构

数据实例

一个训练集的示例如下:

json { "complex_sentence": " As she translates from one language to another , she tries to find the appropriate wording and context in English that would correspond to the work in Spanish her poems and stories started to have differing meanings in their respective languages .", "simple_sentence_1": " As she translates from one language to another , she tries to find the appropriate wording and context in English that would correspond to the work in Spanish . ", "simple_sentence_2": " Ergo , her poems and stories started to have differing meanings in their respective languages ." }

数据字段

所有分割的数据字段相同:

  • complex_sentence: 类型为 string
  • simple_sentence_1: 类型为 string
  • simple_sentence_2: 类型为 string

数据分割

名称 训练集 验证集 测试集
default 989944 5000 5000

数据集创建

数据集来源

数据集是从Wikipedia的修订历史中自动提取的。

许可证信息

WikiSplit数据集基于Wikipedia的内容,因此遵循CC BY-SA 4.0许可证。

引用信息

plaintext @inproceedings{botha-etal-2018-learning, title = "Learning To Split and Rephrase From {W}ikipedia Edit History", author = "Botha, Jan A. and Faruqui, Manaal and Alex, John and Baldridge, Jason and Das, Dipanjan", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D18-1080", doi = "10.18653/v1/D18-1080", pages = "732--737", }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,句子拆分与重述任务旨在将复杂句转化为语义等价的简单句序列。WikiSplit数据集的构建巧妙地利用了维基百科的公开修订历史,通过自动化方法从编辑记录中提取句子对。具体而言,该过程识别出将单个长句拆分为两个较短句子的编辑操作,从而自动生成约一百万条英文句子对。这种基于真实编辑历史的构建方式,确保了数据在语言表达上的自然性与多样性,为模型训练提供了丰富的实例。
特点
WikiSplit数据集的核心特征在于其规模庞大且来源真实,包含近百万训练实例,覆盖了广泛的语义和句法结构。每个数据实例由原始复杂句及其对应的两个简单句构成,形成了标准的“拆分与重述”任务格式。尽管数据在自动提取过程中可能存在一定噪声,但其反映了真实语言使用中的改写模式,为研究句子简化、文本可读性提升等任务提供了宝贵资源。数据集采用CC BY-SA 4.0许可,确保了学术使用的合规性与开放性。
使用方法
该数据集主要用于训练和评估文本到文本生成模型,特别是在句子拆分与重述任务上。研究人员可通过HuggingFace数据集库直接加载,其已预分为训练集、验证集和测试集,便于进行模型训练与性能验证。典型的使用流程包括加载数据、预处理复杂句作为输入,并以其对应的简单句对作为目标输出,进而训练序列到序列模型。数据集支持直接应用于现有自然语言处理框架,为探索句子结构转换、文本简化等前沿课题提供标准化基准。
背景与挑战
背景概述
在自然语言处理领域,句子拆分与重述任务旨在将复杂长句分解为多个语义连贯的简单句,以提升文本可读性与机器理解能力。WikiSplit数据集由Google研究团队于2018年构建,其核心研究问题聚焦于从大规模语料中自动学习句子拆分与重组模式。该数据集基于维基百科编辑历史自动生成,包含约一百万条英语句子对,每条数据均由一个复杂句及其拆分后的两个简单句组成。这一资源的出现,显著推动了文本简化、句子生成及语义保持转换等研究方向的发展,为相关模型提供了宝贵的训练与评估基准。
当前挑战
WikiSplit数据集所针对的领域挑战在于,如何准确地将复杂长句拆分为多个简单句,同时保持原始语义的完整性与连贯性,这对模型的句法分析与语义理解能力提出了较高要求。在构建过程中,数据集面临自动提取流程带来的固有噪声问题,例如编辑历史中的非标准修改、语义偏移或语法错误可能被引入数据。此外,数据完全来源于维基百科,其领域覆盖与语言风格相对受限,可能影响模型在其他文本类型上的泛化性能。这些因素共同构成了数据集在质量与适用性方面的主要挑战。
常用场景
经典使用场景
在自然语言处理领域,WikiSplit数据集为“拆分与重述”任务提供了关键资源。该数据集通过从维基百科编辑历史中自动提取复杂句子及其对应的两个简化句子,构建了大规模的平行语料。这一设计使得模型能够学习如何将冗长或结构复杂的句子分解为语义连贯的简短句子,从而提升文本的可读性与清晰度。经典应用场景包括训练序列到序列模型,以实现自动化的句子简化与重组,为文本生成研究奠定了数据基础。
解决学术问题
WikiSplit数据集有效解决了自然语言生成中句子结构优化与语义保持的平衡问题。在学术研究中,该数据集助力探索如何将复杂句法结构转换为更易理解的表达形式,同时确保原始含义的准确传递。其意义在于推动了文本简化、句子分割及多句子生成等方向的发展,为评估模型在保持语义完整性前提下的句法重构能力提供了标准基准,促进了自然语言处理技术的理论深化与方法创新。
衍生相关工作
围绕WikiSplit数据集,学术界衍生了一系列经典研究工作。例如,基于该数据集的模型在“拆分与重述”任务上不断突破,推动了如Transformer架构的优化与适配。相关研究还拓展至多语言文本简化、可控生成及评估指标设计等领域,部分成果进一步整合到更大的自然语言生成框架中,为后续数据集如WikiAuto等的构建提供了方法论借鉴,形成了持续演进的研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作