five

davebulaval/CSMD

收藏
Hugging Face2024-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davebulaval/CSMD
下载链接
链接失效反馈
官方服务:
资源简介:
CSMD数据集是为评估句子之间的意义保留而创建的,包含1,355个英文文本简化意义保留注释。数据集结构包括多个配置,如`Meaning`、`meaning_with_data_augmentation`、`meaning_holdout_identical`和`meaning_holdout_unrelated`,每个配置都有不同的数据实例和字段。数据字段包括原始句子、简化句子和意义保留评分。数据集还包含数据增强子集和两个保留子集,用于验证和测试。
提供机构:
davebulaval
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 多语言性: 单语种和对齐
  • 任务类别: 文本分类和文本生成
  • 源数据集: 原始数据集和扩展数据集(包括turkcorpus, asset, questeval, simplicity_da, simp_da)
  • 语言: 英语
  • 标签: 简化评估和意义评估
  • 数据集名称: CSMD
  • 大小类别: 1K<n<10K

数据集配置

配置名称: meaning

  • 特征:
    • original: 字符串
    • simplification: 字符串
    • label: float64
  • 分割:
    • train: 853个样本, 251558字节
    • dev: 95个样本, 27794字节
    • test: 407个样本, 117686字节
  • 下载大小: 397038字节
  • 数据集大小: 1355字节

配置名称: meaning_with_data_augmentation

  • 特征:
    • original: 字符串
    • simplification: 字符串
    • label: float64
  • 分割:
    • train: 4267个样本, 1242540字节
    • dev: 475个样本, 134726字节
    • test: 2033个样本, 592052字节
  • 下载大小: 1969318字节
  • 数据集大小: 6775字节

配置名称: meaning_holdout_identical

  • 特征:
    • original: 字符串
    • simplification: 字符串
    • label: float64
  • 分割:
    • test: 359个样本, 89866字节
  • 下载大小: 89866字节
  • 数据集大小: 359字节

配置名称: meaning_holdout_unrelated

  • 特征:
    • original: 字符串
    • simplification: 字符串
    • label: float64
  • 分割:
    • test: 359个样本, 247835字节
  • 下载大小: 247835字节
  • 数据集大小: 359字节

数据文件

配置名称: meaning

  • 数据文件:
    • train: "train.tsv"
    • dev: "dev.tsv"
    • test: "test.tsv"

配置名称: meaning_with_data_augmentation

  • 数据文件:
    • train: "train_da.tsv"
    • dev: "dev_da.tsv"
    • test: "test_da.tsv"

配置名称: meaning_holdout_identical

  • 数据文件:
    • test: "identical.tsv"

配置名称: meaning_holdout_unrelated

  • 数据文件:
    • test: "unrelated.tsv"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作