ando55/WikiSQE_experiment
收藏数据集概述
基本信息
- 数据集名称: WikiSQE
- 语言: 英语
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语种
- 数据来源: 原始数据
- 任务类别: 文本分类
- 数据集大小: 1M<n<10M
数据集结构
配置详情
数据集包含多个配置,每个配置对应不同的数据文件和路径:
-
配置名称: citation
- 数据文件:
- 训练集: citation/train*
- 验证集: citation/val*
- 测试集: citation/test*
- 数据文件:
-
配置名称: information addition
- 数据文件:
- 训练集: information addition/train*
- 验证集: information addition/val*
- 测试集: information addition/test*
- 数据文件:
-
配置名称: syntactic or semantic revision
- 数据文件:
- 训练集: syntactic or semantic revision/train*
- 验证集: syntactic or semantic revision/val*
- 测试集: syntactic or semantic revision/test*
- 数据文件:
-
配置名称: sac
- 数据文件:
- 训练集: sac/train*
- 验证集: sac/val*
- 测试集: sac/test*
- 数据文件:
-
配置名称: other
- 数据文件:
- 训练集: other/train*
- 验证集: other/val*
- 测试集: other/test*
- 数据文件:
-
配置名称: all
- 数据文件:
- 训练集: all/train*
- 验证集: all/val*
- 测试集: all/test*
- 数据文件:
-
配置名称: disputed claim
- 数据文件:
- 训练集: disputed claim/train*
- 验证集: disputed claim/val*
- 测试集: disputed claim/test*
- 数据文件:
-
配置名称: disambiguation needed
- 数据文件:
- 训练集: disambiguation needed/train*
- 验证集: disambiguation needed/val*
- 测试集: disambiguation needed/test*
- 数据文件:
-
配置名称: dubious
- 数据文件:
- 训练集: dubious/train*
- 验证集: dubious/val*
- 测试集: dubious/test*
- 数据文件:
-
配置名称: unreliable source
- 数据文件:
- 训练集: unreliable source/train*
- 验证集: unreliable source/val*
- 测试集: unreliable source/test*
- 数据文件:
-
配置名称: when
- 数据文件:
- 训练集: when/train*
- 验证集: when/val*
- 测试集: when/test*
- 数据文件:
-
配置名称: neutrality disputed
- 数据文件:
- 训练集: neutrality disputed/train*
- 验证集: neutrality disputed/val*
- 测试集: neutrality disputed/test*
- 数据文件:
-
配置名称: verification needed
- 数据文件:
- 训练集: verification needed/train*
- 验证集: verification needed/val*
- 测试集: verification needed/test*
- 数据文件:
-
配置名称: dead link
- 数据文件:
- 训练集: dead link/train*
- 验证集: dead link/val*
- 测试集: dead link/test*
- 数据文件:
-
配置名称: not in citation given
- 数据文件:
- 训练集: not in citation given/train*
- 验证集: not in citation given/val*
- 测试集: not in citation given/test*
- 数据文件:
-
配置名称: needs update
- 数据文件:
- 训练集: needs update/train*
- 验证集: needs update/val*
- 测试集: needs update/test*
- 数据文件:
-
配置名称: according to whom
- 数据文件:
- 训练集: according to whom/train*
- 验证集: according to whom/val*
- 测试集: according to whom/test*
- 数据文件:
-
配置名称: original research
- 数据文件:
- 训练集: original research/train*
- 验证集: original research/val*
- 测试集: original research/test*
- 数据文件:
-
配置名称: pronunciation
- 数据文件:
- 训练集: pronunciation/train*
- 验证集: pronunciation/val*
- 测试集: pronunciation/test*
- 数据文件:
-
配置名称: by whom
- 数据文件:
- 训练集: by whom/train*
- 验证集: by whom/val*
- 测试集: by whom/test*
- 数据文件:
-
配置名称: vague
- 数据文件:
- 训练集: vague/train*
- 验证集: vague/val*
- 测试集: vague/test*
- 数据文件:
-
配置名称: citation needed
- 数据文件:
- 训练集: citation needed/train*
- 验证集: citation needed/val*
- 测试集: citation needed/test*
- 数据文件:
-
配置名称: who
- 数据文件:
- 训练集: who/train*
- 验证集: who/val*
- 测试集: who/test*
- 数据文件:
-
配置名称: attribution needed
- 数据文件:
- 训练集: attribution needed/train*
- 验证集: attribution needed/val*
- 测试集: attribution needed/test*
- 数据文件:
-
配置名称: sic
- 数据文件:
- 训练集: sic/train*
- 验证集: sic/val*
- 测试集: sic/test*
- 数据文件:
-
配置名称: which
- 数据文件:
- 训练集: which/train*
- 验证集: which/val*
- 测试集: which/test*
- 数据文件:
-
配置名称: clarification needed
- 数据文件:
- 训练集: clarification needed/train*
- 验证集: clarification needed/val*
- 测试集: clarification needed/test*
- 数据文件:
数据字段
- text: 字符串类型,文本内容。
- label: 分类标签,1表示标注的句子,0表示未标注的句子。
引用信息
@inproceedings{ando-etal-2024-wikisqe, title = "WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia", author = "Ando, Kenichiro and Sekine, Satoshi and Komachi, Mamoru", booktitle = "Proceedings of the AAAI Conference on Artificial Intelligence", volume= "38", number= "16", pages= "17656--17663", year= "2024", address = "Vancouver, Canada", publisher = "Association for the Advancement of Artificial Intelligence", }



