five

SWIPE

收藏
arXiv2023-05-31 更新2024-06-21 收录
下载链接:
https://github.com/Salesforce/simplification
下载链接
链接失效反馈
官方服务:
资源简介:
SWIPE数据集是基于文档级别的文本简化研究而创建的大型资源,通过对英文维基百科和简单英文维基百科页面的修订历史进行匹配,构建了超过145,000对文档。该数据集标注了超过40,000个编辑操作,并将其分类为19种类型,为文本简化模型的开发和评估提供了丰富的资源。数据集的创建过程涉及与维基百科编辑的合作,确保了编辑操作的准确性和多样性。SWIPE数据集的应用领域包括提高文本可读性,帮助非母语读者、儿童和技术领域初学者更好地理解复杂文档。
提供机构:
Salesforce AI
创建时间:
2023-05-31
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SWiPE是一个用于维基百科页面文档级简化的数据集,包含约140k文档对,其中手动注释部分约5k样本。该数据集支持生成简化文本和编辑识别任务,并提供了预训练模型和代码示例,适用于自然语言处理中的文本简化研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作