five

PWKP, C&K1, C&K-2, LexMTurk, EW-SEW, sscorpus, TurkCorpus, NNSEval, BenchLS, WikiLarge, WikiSmall, WikiSplit, Hsplit, ASSET

收藏
github2024-04-26 更新2024-05-31 收录
下载链接:
https://github.com/jantrienes/text-simplification-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一系列文本简化数据集,专注于句子/段落/文档级别的简化。数据集包括不同语言、领域和简化类型的实例,如平行和可比较的数据集,涵盖词汇、句子和段落级别的简化。

A series of text simplification datasets focusing on sentence/paragraph/document-level simplification. The datasets include instances from various languages, domains, and simplification types, such as parallel and comparable datasets, covering lexical, sentence, and paragraph-level simplifications.
创建时间:
2023-02-17
原始信息汇总

数据集概述

数据集列表

数据集 语言 领域 类型 级别 实例数量及描述 参考数量 链接
PWKP EN Wikipedia Comparable Sent 108,016 paired sentences extracted from 65,133 articles 1 Link
C&K1 EN Wikipedia Comparable Sent 137,000 paired sentences from 10,588 articles 1 Link
C&K-2 EN Wikipedia Comparable Sent 167,000 paired sentences 1 Link
LexMTurk EN Wikipedia Parallel Lex 500 multiple Link
EW-SEW EN Wikipedia Comparable Sent 150,000 full and 130,000 partial matches 1 Link
sscorpus EN Wikipedia Comparable Sent 492,993 aligned sentences from 126K article pairs 1 Link
TurkCorpus EN Wikipedia Parallel Sent 2359 sentences (2000 dev, 359 test) 8 Link
NNSEval EN Wikipedia Comparable Lex 239 multiple Link
BenchLS EN Wikipedia Comparable Lex 929 multiple Link
WikiLarge EN Wikipedia Comparable Sent 296,402 sentence pairs (WikiLarge) 1 Link
WikiSmall EN Wikipedia Comparable Sent 89,042 sentence pairs 1 Link
WikiSplit EN Wikipedia Parallel Sent 1 million sentences 1 Link
Hsplit EN Wikipedia Parallel Sent 359 sentences (test set of turk corpus) 4 Link
ASSET EN Wikipedia Parallel Sent 2359 sentences (2000 train, 359 test) 10 Link
Wiki-AUTO EN Wikipedia Comparable Sent 488,332 train sentences from 138,095 article pairs 1 Link
Wikipedia (with context) EN Wikipedia Comparable Sent 116,020 sentences with context 1 Link
D-Wikipedia EN Wikipedia Comparable Doc 143,546 article pairs 1 Link
Klexikon DE Wikipedia Comparable Doc 2898 article pairs 1 Link
SWiPE EN Wikipedia Comparable Doc 145,161 article revision pairs 1 Link
Dsim DA News Parallel Doc 3,701 articles with 48,186 aligned sentences 1 n/a
Newsela EN News Parallel Doc 1130 articles (original); 1911 articles (v2016-01-29); at 5 levels 1 Link
Newsela-ES ES News Parallel Doc 243 articles (v2016-01-29) at 5 levels 1 Link
OneStopEnglish EN News Parallel Doc 189 articles at three levels 1 Link
Newsela-AUTO EN News Parallel Sent 666,645 sentence pairs from 1932 articles at 5 levels 1 Link
20 minutes DE News Parallel Doc 18,305 articles with simplified summaries 1 Link
SNIML DE, EN, FI, FR, IT, SV News Simplified only Doc 13,447 documents n/a Link
DEplain DE News Parallel Doc 500 document pairs in News domain 1 Link
SimpleGerman DE Web Comparable Sent 7000 sentences from 256 articles 1 n/a (Available on request)
SimPA EN Web Parallel Sent 1100 sentences with 3 lexical, and one 1 syntactic simplification each 3, 1 Link
SimpleGerman V2.0 DE Web Comparable Doc 5461 simple, unaligned documents and 378 aligned documents 1 n/a (Scraping code)
Simple German V3.0 DE Web Comparable Doc 708 documents 1 n/a (Scraping code)
PPDB EN Mixed Comparable Sent 221 million sentences 1 Link
Simple-PPDB EN Mixed Comparable Sent 4.5 million sentences 1 Link
WebSplit EN Mixed Comparable Sent 1 million sentences 1 Link
EASIER ES Mixed Parallel Lex 5153 1-3 Link
RuAdapt RU Books Parallel Doc 457 documents Link
CEFR EN Education Comparable Lex 414 2.4(avg) Link
SIMPLEX-PB-3.0 PT (BR) Education Parallel Lex 1582 7,3(avg) Link
PSAT EN Education Parallel Doc 112 documents, with total of 1883 aligned sentences 1 Link
Vikidia EN / FR Education Parallel Doc 6165 (for each language) 1 Link
CEFR-SP EN Education CEFR-level Sent 17000 sentences from Newsela-Auto, Wiki-Auto, and SCoRE dataset 1 Link
CLEAR FR Medical Comparable Doc 16190 documents 1 Link
myTomorrows-Wiki EN Medical Comparable Sent 5415 (manually aligned); 3797 (automatically aligned) 1 Link
MSD-Manuals EN Medical Comparable Sent 2551 linked paragraphs with average of 10.4 and 11.3 sentences each 1 Link
PharmMT EN Medical Parallel Sent 380,000K aligned sentences 1 n/a
AutoMeTS EN Medical Comparable Sent 3300 aligned sentences 1 Link
Cochrane EN Medical Comparable Par 4459 paragraph pairs (<1024 tokens) 1 Link
CLARA-MeD ES Medical Comparable Doc 24298 comparable documents and 3800 parallel sentences Link
BioLaySumm EN Medical Parallel Doc 32353 document-plain abstract pairs 1 Link
CELLS EN Medical Comparable Par 63000 1 Link
PLABA EN Medical Parallel Doc 750 documents with 7643 sentence pairs 1 Link
MultiCochrane EN, ES, FR, FA Medical Comparable Sent Cross-lingual pairs; 5K pairs (clean, semi-automatically aligned), 100K pairs (noisy) 1 Link
CLARA-MeD-simp-sent ES Medical Parallel Sent 1200 manually-simplified sentences 1 Link
SimpMedLexSp ES Medical Parallel Lex >14000 pairs of medical terms and the corresponding simplified synonym/definition. 1 Link
MedLane EN Clinical Parallel Sent 12,801/1,015/1,016 train/valid/test sentences 1 Link
MTSamples EN Clinical Parallel Sent 1250 sentence pairs. 1 Link
SimplePatho DE Clinical Parallel Doc 851 documents 1 n/a
FestAbility EN Talks Parallel Sent 321 sentence pairs 1 Link

数据集详情

  • 类型(Kind): 分为两种类型,平行(Parallel)可比(Comparable)。平行数据集通常通过手动简化获得,遵循特定指南;可比数据集则是通过自动挖掘大型文本语料库中的复杂/简单句子对来获得。
  • 级别(Level): 包括词汇(lex)、句子(sent)、段落(para)和文档(doc)四个级别。
  • 参考数量(Refs): 指每个实例的参考数量,即黄金简化版本的数量。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集系列主要通过两种方式构建:平行(Parallel)和可比(Comparable)。平行数据集通常通过人工简化的方式,根据特定指南生成复杂与简单句对。可比数据集则通过自动挖掘大型文本语料库中的相似意义句对来构建。例如,PWKP数据集通过从65,133篇文章中提取108,016对句子,形成可比数据集。而LexMTurk数据集则通过人工简化500个句子,形成平行数据集。
特点
这些数据集的主要特点在于其多样性和规模。从句子级别到文档级别的简化,涵盖了广泛的文本类型和领域,如Wikipedia、新闻、教育和医学等。每个数据集的实例数量从几百到数百万不等,且大多数数据集提供了多个参考简化版本,增强了数据集的多样性和实用性。此外,部分数据集还包含了上下文信息,使得简化任务更加复杂和真实。
使用方法
这些数据集主要用于文本简化任务的研究和模型训练。研究者可以通过下载相应的数据集链接,使用Python或其他编程语言进行数据预处理和模型训练。例如,可以使用TensorFlow或PyTorch框架,结合这些数据集进行神经网络模型的训练和评估。此外,数据集的多样性也使得它们适用于多任务学习和跨领域研究,为文本简化技术的发展提供了丰富的资源。
背景与挑战
背景概述
文本简化数据集是一系列专注于句子、段落或文档级别简化的数据集集合,旨在通过提供复杂与简化文本的对比,推动自然语言处理领域中简化技术的研究。这些数据集主要由学术机构和研究团队创建,涵盖了从2010年至今的多项研究成果。例如,PWKP数据集由Zhu等人于2010年发布,包含108,016对从维基百科提取的句子,用于句子级别的简化研究。其他数据集如C&K1、C&K-2、LexMTurk等,也分别由不同研究团队在随后的几年中发布,进一步丰富了文本简化领域的研究资源。这些数据集的创建不仅为文本简化算法的研究提供了丰富的训练和测试数据,还为评估简化效果提供了标准化的基准。
当前挑战
文本简化数据集的构建面临多重挑战。首先,如何从大规模文本中自动挖掘具有相似语义的复杂与简化句子对,是一个技术难题。例如,PWKP和C&K1等数据集通过自动挖掘方法获取句子对,但这种方法可能引入噪声或不准确的匹配。其次,手动标注简化文本需要大量的人力和时间成本,如LexMTurk数据集通过众包平台获取标注,但标注质量的控制也是一个挑战。此外,不同数据集在简化级别、领域和语言上的差异,使得跨数据集的比较和泛化变得复杂。最后,随着简化技术的发展,如何设计新的评估指标和数据集以适应更复杂的简化任务,也是一个亟待解决的问题。
常用场景
经典使用场景
这些文本简化数据集的经典使用场景主要集中在自然语言处理领域,特别是在句子、段落或文档级别的简化任务中。例如,PWKP数据集通过比较复杂的原始句子和简化后的句子,为研究者提供了一个大规模的平行语料库,用于训练和评估文本简化模型。类似地,WikiLarge和WikiSmall数据集也广泛用于句子级别的简化任务,帮助模型学习如何将复杂的句子转换为更简单、更易理解的表达形式。
实际应用
在实际应用中,这些文本简化数据集被广泛用于开发和优化各种文本简化工具和系统。例如,在教育领域,这些数据集可以帮助开发针对不同阅读水平的简化文本,以提高学生的阅读理解能力。在新闻和媒体领域,这些工具可以生成更易读的新闻摘要,使普通读者更容易理解复杂的新闻内容。此外,在医疗和法律等专业领域,文本简化工具可以帮助非专业人士更好地理解专业术语和复杂文档。
衍生相关工作
这些数据集不仅为文本简化研究提供了基础,还衍生了许多相关的经典工作。例如,基于PWKP和WikiLarge数据集的研究推动了神经网络在文本简化中的应用,产生了诸如Seq2Seq模型和Transformer模型等创新方法。此外,ASSET数据集的引入促进了多参考简化评估方法的发展,使得简化模型的评估更加全面和准确。这些衍生工作不仅丰富了文本简化的理论基础,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务