MINWIKISPLIT

Name: MINWIKISPLIT
Creator: 圣加仑大学
Published: 2019-09-26 22:13:39
License: 暂无描述

arXiv2019-09-26 更新2024-06-21 收录

下载链接：

https://github.com/Lambda-3/MinWikiSplit

下载链接

链接失效反馈

官方服务：

资源简介：

MINWIKISPLIT是一个由圣加仑大学创建的大型句子分割数据集，包含203,000对复杂的源句及其简化的目标句。该数据集通过将每个输入句子分解为一系列最小命题，即每个句子都是自包含的、无法进一步分解的语义单元，来简化复杂的语言结构。创建过程中，使用了35条手工编写的转换规则来分解各种语言结构，并通过依赖解析和词性标注的启发式方法来保证输出质量。该数据集主要用于训练自然语言处理模型，以改善下游语义应用的性能，特别是在处理复杂句子结构时的效率和准确性。

MINWIKISPLIT is a large-scale sentence splitting dataset developed by the University of St. Gallen, which contains 203,000 pairs of complex source sentences and their simplified target sentences. It simplifies complex linguistic structures by decomposing each input sentence into a series of minimal propositions, where each simplified sentence is a self-contained semantic unit that cannot be further decomposed. During its creation, 35 hand-crafted transformation rules were used to decompose various linguistic structures, and heuristic methods based on dependency parsing and part-of-speech tagging were adopted to ensure output quality. This dataset is primarily utilized for training natural language processing models to improve the performance of downstream semantic applications, particularly the efficiency and accuracy when handling complex sentence structures.

提供机构：

圣加仑大学

创建时间：

2019-09-26

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，句法文本简化任务旨在将复杂句子转化为更易处理的结构。MINWIKISPLIT数据集的构建采用了系统化的方法，基于WIKISPLIT语料库中的一百万复杂句子，通过DISSIM句法文本简化框架进行处理。该框架应用了35条手写转换规则，能够分解多种语言结构，包括从句成分和短语元素。为确保输出质量，研究团队定义了一套基于依存句法分析和词性标注的启发式规则，用于过滤不符合语法规范或违反最小语义单元要求的句子，最终形成了包含20.3万对复杂源句与简化目标句的高质量语料。

特点

MINWIKISPLIT数据集的核心特点在于其强调最小命题的分解。每个复杂源句被拆分为一系列自包含的语义单元，这些单元无法进一步分解为有意义的命题，从而实现了结构上的高度简化。该数据集避免了先前语料库中存在的保守主义倾向，即模型倾向于保留输入而非进行转换。通过自动评估指标如SAMSA分数和人工分析，数据集展现出较高的语法正确性、意义保留度和结构简洁性，平均每个源句生成四个简化句，每句约含12个词符，为下游语义应用提供了更规则的输入表示。

使用方法

该数据集主要用于训练和评估句法文本简化模型，特别是在句子拆分任务中。研究人员可利用其对齐的复杂-简化句对，开发数据驱动的自然语言生成系统，学习如何将复杂语言结构转化为细粒度的短句序列。在使用时，建议遵循论文中提到的数据划分方式，以避免训练集与测试集之间的简单句重复问题，确保模型能够泛化到未见过的输入。此外，数据集生成的简化输出可作为中间表示，提升机器翻译、开放信息抽取等下游语义任务的性能，为自然语言处理应用提供结构更简单、更易处理的语言材料。

背景与挑战

背景概述

在自然语言处理领域，复杂句子的句法简化是提升下游语义应用性能的关键预处理步骤。MINWIKISPLIT数据集由圣加仑大学、曼彻斯特大学和帕绍大学的研究团队于2019年联合创建，旨在解决传统文本简化语料库中分句样本稀缺的问题。该数据集的核心研究问题聚焦于将具有复杂语言结构的句子分解为最小命题序列，即一系列独立、完整且不可再分的最小语义单元。通过提供20.3万对对齐的复杂源句与简化目标句，MINWIKISPLIT为训练数据驱动的分句模型奠定了坚实基础，显著推动了句法文本简化技术在机器翻译、开放信息抽取等任务中的应用进展。

当前挑战

MINWIKISPLIT数据集致力于解决句法文本简化中句子拆分任务的挑战，其核心在于将复杂长句转化为易于下游语义处理的最小命题序列。构建过程中面临多重困难：一是需确保简化后的句子既保持语法正确性，又严格遵循最小语义单元原则，避免混合多个无关命题；二是原始语料来源（WIKISPLIT）中每句仅含单一拆分，易导致模型保守化，难以生成细粒度输出。为此，研究团队设计了基于依存句法和词性的启发式规则，以过滤语法错误或非最小化句子，并通过自动评估与人工分析验证数据质量，但输出句的结构均匀性与语义完整性仍有优化空间。

常用场景

经典使用场景

在自然语言处理领域，句法文本简化任务面临着将复杂长句分解为易于处理单元的挑战。MINWIKISPLIT数据集通过提供20.3万对复杂源句与简化目标句的对应关系，为句子拆分研究建立了标准化的训练与评估基准。该数据集最经典的应用场景在于训练端到端的神经模型，使其能够自动识别句子中的从句结构、并列成分和短语修饰，并将这些复杂语法单元转化为独立的最小命题序列。这种数据驱动的建模方式彻底改变了传统基于手工规则的简化系统，为句法简化任务提供了可扩展的解决方案。

衍生相关工作

基于MINWIKISPLIT数据集，研究者们开展了多项经典衍生工作。在模型架构方面，该数据集推动了序列到序列模型在句子拆分任务上的创新应用，特别是基于Transformer的神经架构能够有效学习复杂句到最小命题序列的映射关系。评估方法上，研究者开发了专门针对句法简化的自动度量标准，如SAMSA和SAMSAabl分数，这些指标能够更准确地衡量输出句子的结构简单性和语义完整性。数据集还催生了新的多任务学习框架，将句子拆分与语义角色标注、依存解析等任务相结合。此外，基于该数据集的预训练语言模型微调方法，为低资源语言的句法简化提供了迁移学习范式。

数据集最近研究