SWIPE
收藏arXiv2023-05-31 更新2024-06-21 收录
下载链接:
https://github.com/Salesforce/simplification
下载链接
链接失效反馈官方服务:
资源简介:
SWIPE数据集是基于文档级别的文本简化研究而创建的大型资源,通过对英文维基百科和简单英文维基百科页面的修订历史进行匹配,构建了超过145,000对文档。该数据集标注了超过40,000个编辑操作,并将其分类为19种类型,为文本简化模型的开发和评估提供了丰富的资源。数据集的创建过程涉及与维基百科编辑的合作,确保了编辑操作的准确性和多样性。SWIPE数据集的应用领域包括提高文本可读性,帮助非母语读者、儿童和技术领域初学者更好地理解复杂文档。
The SWIPE dataset is a large-scale resource developed for document-level text simplification research. It contains over 145,000 document pairs constructed by matching the revision histories of English Wikipedia and Simple English Wikipedia pages. More than 40,000 edit operations are annotated and categorized into 19 types, providing abundant resources for the development and evaluation of text simplification models. The creation of the SWIPE dataset involved collaboration with Wikipedia editors, ensuring the accuracy and diversity of the annotated edit operations. Application scenarios of the SWIPE dataset include improving text readability, helping non-native readers, children and beginners in technical fields to better understand complex documents.
提供机构:
Salesforce AI
创建时间:
2023-05-31
搜集汇总
数据集介绍

背景与挑战
背景概述
SWiPE是一个用于维基百科页面文档级简化的数据集,包含约140k文档对,其中手动注释部分约5k样本。该数据集支持生成简化文本和编辑识别任务,并提供了预训练模型和代码示例,适用于自然语言处理中的文本简化研究。
以上内容由遇见数据集搜集并总结生成



