PWKP, C&K1, C&K-2, LexMTurk, EW-SEW, sscorpus, TurkCorpus, NNSEval, BenchLS, WikiLarge, WikiSmall, WikiSplit, Hsplit, ASSET

github2024-04-26 更新2024-05-31 收录

下载链接：

https://github.com/jantrienes/text-simplification-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一系列文本简化数据集，专注于句子/段落/文档级别的简化。数据集包括不同语言、领域和简化类型的实例，如平行和可比较的数据集，涵盖词汇、句子和段落级别的简化。

A series of text simplification datasets focusing on sentence/paragraph/document-level simplification. The datasets include instances from various languages, domains, and simplification types, such as parallel and comparable datasets, covering lexical, sentence, and paragraph-level simplifications.

创建时间：

2023-02-17

原始信息汇总

数据集概述

数据集列表

数据集	语言	领域	类型	级别	实例数量及描述	参考数量	链接
PWKP	EN	Wikipedia	Comparable	Sent	108,016 paired sentences extracted from 65,133 articles	1	Link
C&K1	EN	Wikipedia	Comparable	Sent	137,000 paired sentences from 10,588 articles	1	Link
C&K-2	EN	Wikipedia	Comparable	Sent	167,000 paired sentences	1	Link
LexMTurk	EN	Wikipedia	Parallel	Lex	500	multiple	Link
EW-SEW	EN	Wikipedia	Comparable	Sent	150,000 full and 130,000 partial matches	1	Link
sscorpus	EN	Wikipedia	Comparable	Sent	492,993 aligned sentences from 126K article pairs	1	Link
TurkCorpus	EN	Wikipedia	Parallel	Sent	2359 sentences (2000 dev, 359 test)	8	Link
NNSEval	EN	Wikipedia	Comparable	Lex	239	multiple	Link
BenchLS	EN	Wikipedia	Comparable	Lex	929	multiple	Link
WikiLarge	EN	Wikipedia	Comparable	Sent	296,402 sentence pairs (WikiLarge)	1	Link
WikiSmall	EN	Wikipedia	Comparable	Sent	89,042 sentence pairs	1	Link
WikiSplit	EN	Wikipedia	Parallel	Sent	1 million sentences	1	Link
Hsplit	EN	Wikipedia	Parallel	Sent	359 sentences (test set of turk corpus)	4	Link
ASSET	EN	Wikipedia	Parallel	Sent	2359 sentences (2000 train, 359 test)	10	Link
Wiki-AUTO	EN	Wikipedia	Comparable	Sent	488,332 train sentences from 138,095 article pairs	1	Link
Wikipedia (with context)	EN	Wikipedia	Comparable	Sent	116,020 sentences with context	1	Link
D-Wikipedia	EN	Wikipedia	Comparable	Doc	143,546 article pairs	1	Link
Klexikon	DE	Wikipedia	Comparable	Doc	2898 article pairs	1	Link
SWiPE	EN	Wikipedia	Comparable	Doc	145,161 article revision pairs	1	Link
Dsim	DA	News	Parallel	Doc	3,701 articles with 48,186 aligned sentences	1	n/a
Newsela	EN	News	Parallel	Doc	1130 articles (original); 1911 articles (v2016-01-29); at 5 levels	1	Link
Newsela-ES	ES	News	Parallel	Doc	243 articles (v2016-01-29) at 5 levels	1	Link
OneStopEnglish	EN	News	Parallel	Doc	189 articles at three levels	1	Link
Newsela-AUTO	EN	News	Parallel	Sent	666,645 sentence pairs from 1932 articles at 5 levels	1	Link
20 minutes	DE	News	Parallel	Doc	18,305 articles with simplified summaries	1	Link
SNIML	DE, EN, FI, FR, IT, SV	News	Simplified only	Doc	13,447 documents	n/a	Link
DEplain	DE	News	Parallel	Doc	500 document pairs in News domain	1	Link
SimpleGerman	DE	Web	Comparable	Sent	7000 sentences from 256 articles	1	n/a (Available on request)
SimPA	EN	Web	Parallel	Sent	1100 sentences with 3 lexical, and one 1 syntactic simplification each	3, 1	Link
SimpleGerman V2.0	DE	Web	Comparable	Doc	5461 simple, unaligned documents and 378 aligned documents	1	n/a (Scraping code)
Simple German V3.0	DE	Web	Comparable	Doc	708 documents	1	n/a (Scraping code)
PPDB	EN	Mixed	Comparable	Sent	221 million sentences	1	Link
Simple-PPDB	EN	Mixed	Comparable	Sent	4.5 million sentences	1	Link
WebSplit	EN	Mixed	Comparable	Sent	1 million sentences	1	Link
EASIER	ES	Mixed	Parallel	Lex	5153	1-3	Link
RuAdapt	RU	Books	Parallel	Doc	457 documents		Link
CEFR	EN	Education	Comparable	Lex	414	2.4(avg)	Link
SIMPLEX-PB-3.0	PT (BR)	Education	Parallel	Lex	1582	7,3(avg)	Link
PSAT	EN	Education	Parallel	Doc	112 documents, with total of 1883 aligned sentences	1	Link
Vikidia	EN / FR	Education	Parallel	Doc	6165 (for each language)	1	Link
CEFR-SP	EN	Education	CEFR-level	Sent	17000 sentences from Newsela-Auto, Wiki-Auto, and SCoRE dataset	1	Link
CLEAR	FR	Medical	Comparable	Doc	16190 documents	1	Link
myTomorrows-Wiki	EN	Medical	Comparable	Sent	5415 (manually aligned); 3797 (automatically aligned)	1	Link
MSD-Manuals	EN	Medical	Comparable	Sent	2551 linked paragraphs with average of 10.4 and 11.3 sentences each	1	Link
PharmMT	EN	Medical	Parallel	Sent	380,000K aligned sentences	1	n/a
AutoMeTS	EN	Medical	Comparable	Sent	3300 aligned sentences	1	Link
Cochrane	EN	Medical	Comparable	Par	4459 paragraph pairs (<1024 tokens)	1	Link
CLARA-MeD	ES	Medical	Comparable	Doc	24298 comparable documents and 3800 parallel sentences		Link
BioLaySumm	EN	Medical	Parallel	Doc	32353 document-plain abstract pairs	1	Link
CELLS	EN	Medical	Comparable	Par	63000	1	Link
PLABA	EN	Medical	Parallel	Doc	750 documents with 7643 sentence pairs	1	Link
MultiCochrane	EN, ES, FR, FA	Medical	Comparable	Sent	Cross-lingual pairs; 5K pairs (clean, semi-automatically aligned), 100K pairs (noisy)	1	Link
CLARA-MeD-simp-sent	ES	Medical	Parallel	Sent	1200 manually-simplified sentences	1	Link
SimpMedLexSp	ES	Medical	Parallel	Lex	>14000 pairs of medical terms and the corresponding simplified synonym/definition.	1	Link
MedLane	EN	Clinical	Parallel	Sent	12,801/1,015/1,016 train/valid/test sentences	1	Link
MTSamples	EN	Clinical	Parallel	Sent	1250 sentence pairs.	1	Link
SimplePatho	DE	Clinical	Parallel	Doc	851 documents	1	n/a
FestAbility	EN	Talks	Parallel	Sent	321 sentence pairs	1	Link

数据集详情

类型（Kind）: 分为两种类型，平行（Parallel）和可比（Comparable）。平行数据集通常通过手动简化获得，遵循特定指南；可比数据集则是通过自动挖掘大型文本语料库中的复杂/简单句子对来获得。
级别（Level）: 包括词汇（lex）、句子（sent）、段落（para）和文档（doc）四个级别。
参考数量（Refs）: 指每个实例的参考数量，即黄金简化版本的数量。

搜集汇总

数据集介绍

构建方式

该数据集系列主要通过两种方式构建：平行（Parallel）和可比（Comparable）。平行数据集通常通过人工简化的方式，根据特定指南生成复杂与简单句对。可比数据集则通过自动挖掘大型文本语料库中的相似意义句对来构建。例如，PWKP数据集通过从65,133篇文章中提取108,016对句子，形成可比数据集。而LexMTurk数据集则通过人工简化500个句子，形成平行数据集。

特点

这些数据集的主要特点在于其多样性和规模。从句子级别到文档级别的简化，涵盖了广泛的文本类型和领域，如Wikipedia、新闻、教育和医学等。每个数据集的实例数量从几百到数百万不等，且大多数数据集提供了多个参考简化版本，增强了数据集的多样性和实用性。此外，部分数据集还包含了上下文信息，使得简化任务更加复杂和真实。

使用方法

这些数据集主要用于文本简化任务的研究和模型训练。研究者可以通过下载相应的数据集链接，使用Python或其他编程语言进行数据预处理和模型训练。例如，可以使用TensorFlow或PyTorch框架，结合这些数据集进行神经网络模型的训练和评估。此外，数据集的多样性也使得它们适用于多任务学习和跨领域研究，为文本简化技术的发展提供了丰富的资源。

背景与挑战

背景概述

文本简化数据集是一系列专注于句子、段落或文档级别简化的数据集集合，旨在通过提供复杂与简化文本的对比，推动自然语言处理领域中简化技术的研究。这些数据集主要由学术机构和研究团队创建，涵盖了从2010年至今的多项研究成果。例如，PWKP数据集由Zhu等人于2010年发布，包含108,016对从维基百科提取的句子，用于句子级别的简化研究。其他数据集如C&K1、C&K-2、LexMTurk等，也分别由不同研究团队在随后的几年中发布，进一步丰富了文本简化领域的研究资源。这些数据集的创建不仅为文本简化算法的研究提供了丰富的训练和测试数据，还为评估简化效果提供了标准化的基准。

当前挑战

文本简化数据集的构建面临多重挑战。首先，如何从大规模文本中自动挖掘具有相似语义的复杂与简化句子对，是一个技术难题。例如，PWKP和C&K1等数据集通过自动挖掘方法获取句子对，但这种方法可能引入噪声或不准确的匹配。其次，手动标注简化文本需要大量的人力和时间成本，如LexMTurk数据集通过众包平台获取标注，但标注质量的控制也是一个挑战。此外，不同数据集在简化级别、领域和语言上的差异，使得跨数据集的比较和泛化变得复杂。最后，随着简化技术的发展，如何设计新的评估指标和数据集以适应更复杂的简化任务，也是一个亟待解决的问题。

常用场景

经典使用场景

这些文本简化数据集的经典使用场景主要集中在自然语言处理领域，特别是在句子、段落或文档级别的简化任务中。例如，PWKP数据集通过比较复杂的原始句子和简化后的句子，为研究者提供了一个大规模的平行语料库，用于训练和评估文本简化模型。类似地，WikiLarge和WikiSmall数据集也广泛用于句子级别的简化任务，帮助模型学习如何将复杂的句子转换为更简单、更易理解的表达形式。

实际应用

在实际应用中，这些文本简化数据集被广泛用于开发和优化各种文本简化工具和系统。例如，在教育领域，这些数据集可以帮助开发针对不同阅读水平的简化文本，以提高学生的阅读理解能力。在新闻和媒体领域，这些工具可以生成更易读的新闻摘要，使普通读者更容易理解复杂的新闻内容。此外，在医疗和法律等专业领域，文本简化工具可以帮助非专业人士更好地理解专业术语和复杂文档。

衍生相关工作

这些数据集不仅为文本简化研究提供了基础，还衍生了许多相关的经典工作。例如，基于PWKP和WikiLarge数据集的研究推动了神经网络在文本简化中的应用，产生了诸如Seq2Seq模型和Transformer模型等创新方法。此外，ASSET数据集的引入促进了多参考简化评估方法的发展，使得简化模型的评估更加全面和准确。这些衍生工作不仅丰富了文本简化的理论基础，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成