WikiAtomicEdits Dataset

github2024-04-05 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/wiki-atomic-edits

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

WikiAtomicEdits数据集包含原子维基百科编辑，涉及句子中连续文本块的插入和删除。该数据集涵盖约4300万次编辑，跨越8种语言。

The WikiAtomicEdits dataset encompasses atomic Wikipedia edits, involving the insertion and deletion of contiguous text blocks within sentences. This dataset covers approximately 43 million edits across 8 languages.

创建时间：

2018-09-01

原始信息汇总

WikiAtomicEdits Dataset 概述

数据集描述

定义: 原子编辑是指对自然语言表达式 S 进行的编辑 e，涉及子表达式 P 的插入、删除或替换，确保原始表达式 S 和编辑后的表达式 e(S) 都是语义上完整的构成部分。
内容: 包含约4300万次原子编辑，涉及文本的插入和删除，覆盖8种语言。

语言分布

语言	插入次数	删除次数
German	3.3M	1.9M
English	13.7M	9.3M
Spanish	1.4M	0.9M
French	2.0M	2.0M
Italian	1.0M	0.6M
Japanese	2.2M	1.3M
Russian	1.4M	0.9M
Chinese	0.7M	0.4M
总计	25.7M	17.2M

数据格式

文件类型: 每种语言提供两个文件，分别对应插入和删除。
数据结构: 文件为制表符分隔的文本，包含以下三列：
- 列1: 原始句子
- 列2: 插入/删除内容
- 列3: 编辑后的句子

引用信息

引用格式:

@InProceedings{WikiAtomicEdits, title = {WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse}, author = {Faruqui, Manaal and Pavlick, Ellie and Tenney, Ian and Das, Dipanjan}, booktitle = {Proc. of EMNLP}, year = {2018} }

许可信息

许可: 数据集根据 CC BY-SA 4.0 授权。

搜集汇总

数据集介绍

构建方式

WikiAtomicEdits数据集的构建基于维基百科的编辑历史，专注于捕捉句子级别的原子编辑操作。这些编辑操作包括插入、删除或替换连续的文本块，确保编辑前后的句子在语义上保持完整。数据集涵盖了8种语言，共计约4300万次编辑，每种语言的插入和删除操作分别以TSV文件格式存储，便于研究人员下载和使用。

特点

该数据集的核心特点在于其专注于原子编辑操作，即对句子进行的最小语义单元修改。这种设计使得数据集特别适用于语言模型训练、自然语言处理任务以及语言演变研究。此外，数据集的多语言覆盖为跨语言研究提供了丰富的资源，每种语言的插入和删除操作均以清晰的表格形式呈现，便于分析和对比。

使用方法

使用WikiAtomicEdits数据集时，研究人员可通过提供的链接下载特定语言的插入和删除操作文件。每个文件包含三列数据：原始句子、插入或删除的文本块以及编辑后的句子。这些数据可直接用于训练语言模型、评估编辑效果或进行语言结构分析。引用该数据集时，需遵循CC BY-SA 4.0许可协议，并在相关研究中引用提供的论文。

背景与挑战

背景概述

WikiAtomicEdits数据集由Manaal Faruqui、Ellie Pavlick、Ian Tenney和Dipanjan Das等研究人员于2018年发布，旨在为自然语言处理领域提供多语言维基百科编辑的原子编辑数据。该数据集涵盖了8种语言，包含约4300万次编辑，主要聚焦于句子级别的插入和删除操作。通过定义原子编辑为对自然语言表达式的插入、删除或替换操作，且确保编辑前后的句子均为语义完整的成分，该数据集为语言模型和语篇分析提供了丰富的资源。其发布对机器翻译、文本生成和语言理解等领域的研究具有重要推动作用。

当前挑战

WikiAtomicEdits数据集在解决自然语言处理中的语言模型和语篇分析问题时，面临多重挑战。首先，原子编辑的定义要求编辑前后的句子在语义上保持完整，这对数据标注和筛选提出了高要求，确保数据质量成为一大难题。其次，数据集涵盖多语言环境，不同语言的语法结构和表达习惯差异显著，如何在多语言背景下保持数据的一致性和可比性，是构建过程中的关键挑战。此外，维基百科编辑的多样性和复杂性使得数据清洗和预处理工作异常繁重，如何在保证数据量的同时提升数据的精确性和代表性，也是研究者需要克服的障碍。

常用场景

经典使用场景

WikiAtomicEdits数据集在自然语言处理领域中被广泛应用于语言模型的训练与评估。该数据集通过捕捉维基百科中的原子编辑操作，即插入和删除连续的文本块，为研究者提供了丰富的语言变化实例。这些实例不仅涵盖了多种语言，还展示了句子在语义保持完整的情况下如何通过微小的编辑进行优化，从而为语言模型的微调和优化提供了宝贵的数据支持。

实际应用

在实际应用中，WikiAtomicEdits数据集被广泛用于自动文本编辑系统的开发。例如，在智能写作助手和自动校对工具中，该数据集可以帮助系统识别并建议句子中的优化编辑，从而提高文本的流畅性和准确性。此外，该数据集还被用于教育领域，帮助学生和教师理解语言表达的细微差异，提升写作和编辑能力。

衍生相关工作

基于WikiAtomicEdits数据集，研究者们开展了多项经典工作。例如，一些研究利用该数据集开发了基于深度学习的文本编辑模型，能够自动生成符合语义的句子优化建议。此外，该数据集还被用于跨语言编辑行为的研究，揭示了不同语言在编辑模式上的共性与差异。这些工作不仅推动了自然语言处理技术的发展，还为多语言文本处理提供了新的方法论。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集