davebulaval/CSMD
收藏Hugging Face2024-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davebulaval/CSMD
下载链接
链接失效反馈官方服务:
资源简介:
CSMD数据集是为评估句子之间的意义保留而创建的,包含1,355个英文文本简化意义保留注释。数据集结构包括多个配置,如`Meaning`、`meaning_with_data_augmentation`、`meaning_holdout_identical`和`meaning_holdout_unrelated`,每个配置都有不同的数据实例和字段。数据字段包括原始句子、简化句子和意义保留评分。数据集还包含数据增强子集和两个保留子集,用于验证和测试。
提供机构:
davebulaval
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-4.0
- 多语言性: 单语种和对齐
- 任务类别: 文本分类和文本生成
- 源数据集: 原始数据集和扩展数据集(包括turkcorpus, asset, questeval, simplicity_da, simp_da)
- 语言: 英语
- 标签: 简化评估和意义评估
- 数据集名称: CSMD
- 大小类别: 1K<n<10K
数据集配置
配置名称: meaning
- 特征:
original: 字符串simplification: 字符串label: float64
- 分割:
train: 853个样本, 251558字节dev: 95个样本, 27794字节test: 407个样本, 117686字节
- 下载大小: 397038字节
- 数据集大小: 1355字节
配置名称: meaning_with_data_augmentation
- 特征:
original: 字符串simplification: 字符串label: float64
- 分割:
train: 4267个样本, 1242540字节dev: 475个样本, 134726字节test: 2033个样本, 592052字节
- 下载大小: 1969318字节
- 数据集大小: 6775字节
配置名称: meaning_holdout_identical
- 特征:
original: 字符串simplification: 字符串label: float64
- 分割:
test: 359个样本, 89866字节
- 下载大小: 89866字节
- 数据集大小: 359字节
配置名称: meaning_holdout_unrelated
- 特征:
original: 字符串simplification: 字符串label: float64
- 分割:
test: 359个样本, 247835字节
- 下载大小: 247835字节
- 数据集大小: 359字节
数据文件
配置名称: meaning
- 数据文件:
train: "train.tsv"dev: "dev.tsv"test: "test.tsv"
配置名称: meaning_with_data_augmentation
- 数据文件:
train: "train_da.tsv"dev: "dev_da.tsv"test: "test_da.tsv"
配置名称: meaning_holdout_identical
- 数据文件:
test: "identical.tsv"
配置名称: meaning_holdout_unrelated
- 数据文件:
test: "unrelated.tsv"



