D-Wikipedia

Name: D-Wikipedia
Creator: 北京大学计算机技术研究所，北京大学数据科学研究中心，教育部计算语言学重点实验室
Published: 2021-10-11 16:15:31
License: 暂无描述

arXiv2021-10-11 更新2024-06-21 收录

下载链接：

https://github.com/RLSNLP/Document-level-text-simplification

下载链接

链接失效反馈

官方服务：

资源简介：

D-Wikipedia是一个大规模的数据集，由北京大学计算机技术研究所等机构基于英文维基百科和简单英文维基百科构建。该数据集包含143,546对文章，旨在支持文档级文本简化研究。数据集的创建过程涉及从官方维基百科转储中下载数据，并进行清洗和筛选。D-Wikipedia不仅适用于文档级文本简化研究，还可用于构建句子级文本简化数据集。该数据集的应用领域主要集中在提高文本的可理解性，尤其是为非母语读者、儿童和非专业读者简化复杂的文本内容。

D-Wikipedia is a large-scale dataset constructed by institutions including the Institute of Computer Technology at Peking University based on English Wikipedia and Simple English Wikipedia. This dataset contains 143,546 article pairs, aiming to support document-level text simplification research. The creation process of the dataset involves downloading data from official Wikipedia dumps, followed by data cleaning and filtering. D-Wikipedia is applicable not only to document-level text simplification research but also to the construction of sentence-level text simplification datasets. The application fields of this dataset mainly focus on improving text comprehensibility, especially simplifying complex textual content for non-native speakers, children and non-professional readers.

提供机构：

北京大学计算机技术研究所，北京大学数据科学研究中心，教育部计算语言学重点实验室

创建时间：

2021-10-11

搜集汇总

数据集介绍

构建方式

在文档级文本简化研究领域，D-Wikipedia数据集的构建体现了系统性与严谨性。该数据集基于英文维基百科与简单英文维基百科的官方数据转储，通过自动化流程创建了超过17万篇文档对。为确保数据质量与实用性，研究团队仅保留文档的主要摘要内容，并剔除了原文或简化文本超过1000词汇的文档对，最终形成了包含143,546个文档对的大规模语料库。数据集的划分遵循标准机器学习实践，随机分配132K对作为训练集，3K对作为验证集，8K对作为测试集，确保了各集合间的无重叠性，为模型训练与评估提供了可靠基础。

使用方法

D-Wikipedia数据集的使用需遵循其任务定义与评估框架。研究者可将文档级简化任务形式化为：给定包含n个句子的原始复杂文档C，目标是生成包含m个句子的简化文档F，其中m与n可能不等，但需保持原文核心语义并提升可读性。数据集适用于训练序列到序列模型、基于预训练语言的生成模型等。评估时建议采用论文提出的D-SARI指标，该指标在传统SARI基础上引入了长度惩罚因子与句子级惩罚，更贴合文档级简化特性。同时可结合人工评估中的整体简化度指标，从短语简化、结构简化、语义保持、语法流畅性等多维度综合评判模型性能。

背景与挑战

背景概述

在自然语言处理领域，文本简化技术旨在将复杂文本转化为更易于理解的表达，同时保留核心语义。然而，传统研究多聚焦于句子级别的简化，忽视了文档层面多句连贯简化的实际需求。D-Wikipedia数据集由北京大学王选计算机研究所、数据科学中心及计算语言学教育部重点实验室的研究团队于2021年构建，旨在填补文档级文本简化研究的空白。该数据集基于英文维基百科与简单英文维基百科的语料库，构建了超过14万篇文档对，推动了从句子到文档层级简化任务的范式转变，为跨语言学习、儿童教育及非专业读者支持等应用提供了关键资源。

当前挑战

文档级文本简化面临双重挑战：在领域问题层面，需解决多句间语义连贯性保持、冗余信息筛选及复杂结构重组等难题，超越传统句子简化中词汇替换或局部调整的局限；在构建过程中，团队需克服大规模语料对齐的复杂性，确保原始文档与简化版本在主题一致性和信息完整性上的平衡，同时设计如D-SARI等新型评估指标以应对文档长度变异和结构变化的量化评价需求。

常用场景

经典使用场景

在自然语言处理领域，文档级文本简化任务旨在将包含多个句子的复杂文档转化为更易于理解的简化版本。D-Wikipedia数据集作为首个大规模文档级简化资源，其经典使用场景在于为研究者提供基准数据，以训练和评估模型在跨句子操作上的性能，如句子合并、拆分、删除及指代消解等。该数据集基于维基百科构建，确保了内容的广泛性和多样性，为探索文档级简化中的上下文连贯性与信息保留平衡提供了关键支撑。

解决学术问题

D-Wikipedia数据集主要解决了文档级文本简化研究中长期存在的资源匮乏问题。传统研究多集中于句子级简化，缺乏能够反映真实文档复杂性的数据。该数据集通过提供大量对齐的原文与简化文章对，使研究者能够系统分析文档级简化操作，如句子重组与信息筛选，并推动新评估指标（如D-SARI）的发展。其意义在于突破了简化研究的局限，为理解文档级语言转换的机制奠定了实证基础，促进了该子领域的形成与发展。

实际应用

在实际应用中，D-Wikipedia数据集支撑的技术可服务于教育、无障碍信息获取及跨语言交流等多个领域。例如，简化后的文本能帮助非母语学习者、儿童或认知障碍者更轻松地理解复杂文献，如新闻文章或百科条目。此外，该技术可集成到内容生成平台，自动将专业文档转化为通俗版本，提升信息的可及性。在数字化教育工具或辅助阅读系统中，此类简化能力有助于个性化学习体验的构建，满足不同受众的阅读需求。

数据集最近研究