five

facebook/asset

收藏
Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/facebook/asset
下载链接
链接失效反馈
官方服务:
资源简介:
ASSET是一个用于评估英语句子简化的多参考数据集。该数据集使用了与TurkCorpus相同的2,359个句子,每个句子关联了10个众包简化版本。与之前的简化数据集不同,ASSET中的简化版本包含了多种重写转换,如词汇改写、句子分割和压缩等。数据集支持的任务是文本简化,通常使用SARI和FKBLEU指标进行评估。数据集包含两个配置:simplification和ratings,分别用于提供原始句子及其简化版本,以及自动化系统生成的简化句子的质量评估。
提供机构:
facebook
原始信息汇总

数据集概述

名称: ASSET

语言: 英语 (en)

许可证: CC-BY-SA-4.0

多语言性: 单语

大小: 1K<n<10K

来源: 原始数据集和扩展自TurkCorpus

任务类别: 文本分类, 文本到文本生成

任务ID: 文本简化

配置名称: ratings, simplification

数据集结构

配置: ratings

  • 特征:
    • original: 字符串
    • simplification: 字符串
    • original_sentence_id: int32
    • aspect: 分类标签(meaning, fluency, simplicity)
    • worker_id: int32
    • rating: int32
  • 分割:
    • full: 4500个示例, 1036845字节

配置: simplification

  • 特征:
    • original: 字符串
    • simplifications: 字符串序列
  • 分割:
    • validation: 2000个示例, 2303484字节
    • test: 359个示例, 411019字节

数据集创建

  • 目的: 改进句子简化评估
  • 输入句子来源: TurkCorpus的2,359个句子
  • 简化类型: 包含多种重写转换,如分割、压缩和改写

数据集使用注意事项

  • 社会影响: 可能包含基于Wikipedia的性别和种族偏见
  • 使用限制: 仅供研究使用,需遵守数据集许可证
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作