facebook/asset
收藏Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/facebook/asset
下载链接
链接失效反馈官方服务:
资源简介:
ASSET是一个用于评估英语句子简化的多参考数据集。该数据集使用了与TurkCorpus相同的2,359个句子,每个句子关联了10个众包简化版本。与之前的简化数据集不同,ASSET中的简化版本包含了多种重写转换,如词汇改写、句子分割和压缩等。数据集支持的任务是文本简化,通常使用SARI和FKBLEU指标进行评估。数据集包含两个配置:simplification和ratings,分别用于提供原始句子及其简化版本,以及自动化系统生成的简化句子的质量评估。
提供机构:
facebook
原始信息汇总
数据集概述
名称: ASSET
语言: 英语 (en)
许可证: CC-BY-SA-4.0
多语言性: 单语
大小: 1K<n<10K
来源: 原始数据集和扩展自TurkCorpus
任务类别: 文本分类, 文本到文本生成
任务ID: 文本简化
配置名称: ratings, simplification
数据集结构
配置: ratings
- 特征:
original: 字符串simplification: 字符串original_sentence_id: int32aspect: 分类标签(meaning, fluency, simplicity)worker_id: int32rating: int32
- 分割:
full: 4500个示例, 1036845字节
配置: simplification
- 特征:
original: 字符串simplifications: 字符串序列
- 分割:
validation: 2000个示例, 2303484字节test: 359个示例, 411019字节
数据集创建
- 目的: 改进句子简化评估
- 输入句子来源: TurkCorpus的2,359个句子
- 简化类型: 包含多种重写转换,如分割、压缩和改写
数据集使用注意事项
- 社会影响: 可能包含基于Wikipedia的性别和种族偏见
- 使用限制: 仅供研究使用,需遵守数据集许可证



