PWKP, C&K1, C&K-2, LexMTurk, EW-SEW, sscorpus, TurkCorpus, NNSEval, BenchLS, WikiLarge, WikiSmall, WikiSplit, Hsplit, ASSET
收藏github2024-04-26 更新2024-05-31 收录
下载链接:
https://github.com/jantrienes/text-simplification-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一系列文本简化数据集,专注于句子/段落/文档级别的简化。数据集包括不同语言、领域和简化类型的实例,如平行和可比较的数据集,涵盖词汇、句子和段落级别的简化。
A series of text simplification datasets focusing on sentence/paragraph/document-level simplification. The datasets include instances from various languages, domains, and simplification types, such as parallel and comparable datasets, covering lexical, sentence, and paragraph-level simplifications.
创建时间:
2023-02-17
原始信息汇总
数据集概述
数据集列表
| 数据集 | 语言 | 领域 | 类型 | 级别 | 实例数量及描述 | 参考数量 | 链接 |
|---|---|---|---|---|---|---|---|
| PWKP | EN | Wikipedia | Comparable | Sent | 108,016 paired sentences extracted from 65,133 articles | 1 | Link |
| C&K1 | EN | Wikipedia | Comparable | Sent | 137,000 paired sentences from 10,588 articles | 1 | Link |
| C&K-2 | EN | Wikipedia | Comparable | Sent | 167,000 paired sentences | 1 | Link |
| LexMTurk | EN | Wikipedia | Parallel | Lex | 500 | multiple | Link |
| EW-SEW | EN | Wikipedia | Comparable | Sent | 150,000 full and 130,000 partial matches | 1 | Link |
| sscorpus | EN | Wikipedia | Comparable | Sent | 492,993 aligned sentences from 126K article pairs | 1 | Link |
| TurkCorpus | EN | Wikipedia | Parallel | Sent | 2359 sentences (2000 dev, 359 test) | 8 | Link |
| NNSEval | EN | Wikipedia | Comparable | Lex | 239 | multiple | Link |
| BenchLS | EN | Wikipedia | Comparable | Lex | 929 | multiple | Link |
| WikiLarge | EN | Wikipedia | Comparable | Sent | 296,402 sentence pairs (WikiLarge) | 1 | Link |
| WikiSmall | EN | Wikipedia | Comparable | Sent | 89,042 sentence pairs | 1 | Link |
| WikiSplit | EN | Wikipedia | Parallel | Sent | 1 million sentences | 1 | Link |
| Hsplit | EN | Wikipedia | Parallel | Sent | 359 sentences (test set of turk corpus) | 4 | Link |
| ASSET | EN | Wikipedia | Parallel | Sent | 2359 sentences (2000 train, 359 test) | 10 | Link |
| Wiki-AUTO | EN | Wikipedia | Comparable | Sent | 488,332 train sentences from 138,095 article pairs | 1 | Link |
| Wikipedia (with context) | EN | Wikipedia | Comparable | Sent | 116,020 sentences with context | 1 | Link |
| D-Wikipedia | EN | Wikipedia | Comparable | Doc | 143,546 article pairs | 1 | Link |
| Klexikon | DE | Wikipedia | Comparable | Doc | 2898 article pairs | 1 | Link |
| SWiPE | EN | Wikipedia | Comparable | Doc | 145,161 article revision pairs | 1 | Link |
| Dsim | DA | News | Parallel | Doc | 3,701 articles with 48,186 aligned sentences | 1 | n/a |
| Newsela | EN | News | Parallel | Doc | 1130 articles (original); 1911 articles (v2016-01-29); at 5 levels | 1 | Link |
| Newsela-ES | ES | News | Parallel | Doc | 243 articles (v2016-01-29) at 5 levels | 1 | Link |
| OneStopEnglish | EN | News | Parallel | Doc | 189 articles at three levels | 1 | Link |
| Newsela-AUTO | EN | News | Parallel | Sent | 666,645 sentence pairs from 1932 articles at 5 levels | 1 | Link |
| 20 minutes | DE | News | Parallel | Doc | 18,305 articles with simplified summaries | 1 | Link |
| SNIML | DE, EN, FI, FR, IT, SV | News | Simplified only | Doc | 13,447 documents | n/a | Link |
| DEplain | DE | News | Parallel | Doc | 500 document pairs in News domain | 1 | Link |
| SimpleGerman | DE | Web | Comparable | Sent | 7000 sentences from 256 articles | 1 | n/a (Available on request) |
| SimPA | EN | Web | Parallel | Sent | 1100 sentences with 3 lexical, and one 1 syntactic simplification each | 3, 1 | Link |
| SimpleGerman V2.0 | DE | Web | Comparable | Doc | 5461 simple, unaligned documents and 378 aligned documents | 1 | n/a (Scraping code) |
| Simple German V3.0 | DE | Web | Comparable | Doc | 708 documents | 1 | n/a (Scraping code) |
| PPDB | EN | Mixed | Comparable | Sent | 221 million sentences | 1 | Link |
| Simple-PPDB | EN | Mixed | Comparable | Sent | 4.5 million sentences | 1 | Link |
| WebSplit | EN | Mixed | Comparable | Sent | 1 million sentences | 1 | Link |
| EASIER | ES | Mixed | Parallel | Lex | 5153 | 1-3 | Link |
| RuAdapt | RU | Books | Parallel | Doc | 457 documents | Link | |
| CEFR | EN | Education | Comparable | Lex | 414 | 2.4(avg) | Link |
| SIMPLEX-PB-3.0 | PT (BR) | Education | Parallel | Lex | 1582 | 7,3(avg) | Link |
| PSAT | EN | Education | Parallel | Doc | 112 documents, with total of 1883 aligned sentences | 1 | Link |
| Vikidia | EN / FR | Education | Parallel | Doc | 6165 (for each language) | 1 | Link |
| CEFR-SP | EN | Education | CEFR-level | Sent | 17000 sentences from Newsela-Auto, Wiki-Auto, and SCoRE dataset | 1 | Link |
| CLEAR | FR | Medical | Comparable | Doc | 16190 documents | 1 | Link |
| myTomorrows-Wiki | EN | Medical | Comparable | Sent | 5415 (manually aligned); 3797 (automatically aligned) | 1 | Link |
| MSD-Manuals | EN | Medical | Comparable | Sent | 2551 linked paragraphs with average of 10.4 and 11.3 sentences each | 1 | Link |
| PharmMT | EN | Medical | Parallel | Sent | 380,000K aligned sentences | 1 | n/a |
| AutoMeTS | EN | Medical | Comparable | Sent | 3300 aligned sentences | 1 | Link |
| Cochrane | EN | Medical | Comparable | Par | 4459 paragraph pairs (<1024 tokens) | 1 | Link |
| CLARA-MeD | ES | Medical | Comparable | Doc | 24298 comparable documents and 3800 parallel sentences | Link | |
| BioLaySumm | EN | Medical | Parallel | Doc | 32353 document-plain abstract pairs | 1 | Link |
| CELLS | EN | Medical | Comparable | Par | 63000 | 1 | Link |
| PLABA | EN | Medical | Parallel | Doc | 750 documents with 7643 sentence pairs | 1 | Link |
| MultiCochrane | EN, ES, FR, FA | Medical | Comparable | Sent | Cross-lingual pairs; 5K pairs (clean, semi-automatically aligned), 100K pairs (noisy) | 1 | Link |
| CLARA-MeD-simp-sent | ES | Medical | Parallel | Sent | 1200 manually-simplified sentences | 1 | Link |
| SimpMedLexSp | ES | Medical | Parallel | Lex | >14000 pairs of medical terms and the corresponding simplified synonym/definition. | 1 | Link |
| MedLane | EN | Clinical | Parallel | Sent | 12,801/1,015/1,016 train/valid/test sentences | 1 | Link |
| MTSamples | EN | Clinical | Parallel | Sent | 1250 sentence pairs. | 1 | Link |
| SimplePatho | DE | Clinical | Parallel | Doc | 851 documents | 1 | n/a |
| FestAbility | EN | Talks | Parallel | Sent | 321 sentence pairs | 1 | Link |
数据集详情
- 类型(Kind): 分为两种类型,平行(Parallel)和可比(Comparable)。平行数据集通常通过手动简化获得,遵循特定指南;可比数据集则是通过自动挖掘大型文本语料库中的复杂/简单句子对来获得。
- 级别(Level): 包括词汇(lex)、句子(sent)、段落(para)和文档(doc)四个级别。
- 参考数量(Refs): 指每个实例的参考数量,即黄金简化版本的数量。
搜集汇总
数据集介绍

构建方式
该数据集系列主要通过两种方式构建:平行(Parallel)和可比(Comparable)。平行数据集通常通过人工简化的方式,根据特定指南生成复杂与简单句对。可比数据集则通过自动挖掘大型文本语料库中的相似意义句对来构建。例如,PWKP数据集通过从65,133篇文章中提取108,016对句子,形成可比数据集。而LexMTurk数据集则通过人工简化500个句子,形成平行数据集。
特点
这些数据集的主要特点在于其多样性和规模。从句子级别到文档级别的简化,涵盖了广泛的文本类型和领域,如Wikipedia、新闻、教育和医学等。每个数据集的实例数量从几百到数百万不等,且大多数数据集提供了多个参考简化版本,增强了数据集的多样性和实用性。此外,部分数据集还包含了上下文信息,使得简化任务更加复杂和真实。
使用方法
这些数据集主要用于文本简化任务的研究和模型训练。研究者可以通过下载相应的数据集链接,使用Python或其他编程语言进行数据预处理和模型训练。例如,可以使用TensorFlow或PyTorch框架,结合这些数据集进行神经网络模型的训练和评估。此外,数据集的多样性也使得它们适用于多任务学习和跨领域研究,为文本简化技术的发展提供了丰富的资源。
背景与挑战
背景概述
文本简化数据集是一系列专注于句子、段落或文档级别简化的数据集集合,旨在通过提供复杂与简化文本的对比,推动自然语言处理领域中简化技术的研究。这些数据集主要由学术机构和研究团队创建,涵盖了从2010年至今的多项研究成果。例如,PWKP数据集由Zhu等人于2010年发布,包含108,016对从维基百科提取的句子,用于句子级别的简化研究。其他数据集如C&K1、C&K-2、LexMTurk等,也分别由不同研究团队在随后的几年中发布,进一步丰富了文本简化领域的研究资源。这些数据集的创建不仅为文本简化算法的研究提供了丰富的训练和测试数据,还为评估简化效果提供了标准化的基准。
当前挑战
文本简化数据集的构建面临多重挑战。首先,如何从大规模文本中自动挖掘具有相似语义的复杂与简化句子对,是一个技术难题。例如,PWKP和C&K1等数据集通过自动挖掘方法获取句子对,但这种方法可能引入噪声或不准确的匹配。其次,手动标注简化文本需要大量的人力和时间成本,如LexMTurk数据集通过众包平台获取标注,但标注质量的控制也是一个挑战。此外,不同数据集在简化级别、领域和语言上的差异,使得跨数据集的比较和泛化变得复杂。最后,随着简化技术的发展,如何设计新的评估指标和数据集以适应更复杂的简化任务,也是一个亟待解决的问题。
常用场景
经典使用场景
这些文本简化数据集的经典使用场景主要集中在自然语言处理领域,特别是在句子、段落或文档级别的简化任务中。例如,PWKP数据集通过比较复杂的原始句子和简化后的句子,为研究者提供了一个大规模的平行语料库,用于训练和评估文本简化模型。类似地,WikiLarge和WikiSmall数据集也广泛用于句子级别的简化任务,帮助模型学习如何将复杂的句子转换为更简单、更易理解的表达形式。
实际应用
在实际应用中,这些文本简化数据集被广泛用于开发和优化各种文本简化工具和系统。例如,在教育领域,这些数据集可以帮助开发针对不同阅读水平的简化文本,以提高学生的阅读理解能力。在新闻和媒体领域,这些工具可以生成更易读的新闻摘要,使普通读者更容易理解复杂的新闻内容。此外,在医疗和法律等专业领域,文本简化工具可以帮助非专业人士更好地理解专业术语和复杂文档。
衍生相关工作
这些数据集不仅为文本简化研究提供了基础,还衍生了许多相关的经典工作。例如,基于PWKP和WikiLarge数据集的研究推动了神经网络在文本简化中的应用,产生了诸如Seq2Seq模型和Transformer模型等创新方法。此外,ASSET数据集的引入促进了多参考简化评估方法的发展,使得简化模型的评估更加全面和准确。这些衍生工作不仅丰富了文本简化的理论基础,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



