five

ando55/WikiSQE_experiment

收藏
Hugging Face2024-06-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ando55/WikiSQE_experiment
下载链接
链接失效反馈
官方服务:
资源简介:
WikiSQE数据集是一个包含超过340万条维基百科句子的英语数据集,这些句子被维基百科编辑标记为在某些方面质量较差。数据集将这些质量较差的方面分为153个标签,并提供了实验用的子集,包含5个类别和20个最频繁的标签。每个子集包含标记和未标记的句子,比例为1:1。数据集的主要字段包括文本和标签,标签用于区分标记和未标记的句子。

WikiSQE数据集是一个包含超过340万条维基百科句子的英语数据集,这些句子被维基百科编辑标记为在某些方面质量较差。数据集将这些质量较差的方面分为153个标签,并提供了实验用的子集,包含5个类别和20个最频繁的标签。每个子集包含标记和未标记的句子,比例为1:1。数据集的主要字段包括文本和标签,标签用于区分标记和未标记的句子。
提供机构:
ando55
原始信息汇总

数据集概述

基本信息

  • 数据集名称: WikiSQE
  • 语言: 英语
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语种
  • 数据来源: 原始数据
  • 任务类别: 文本分类
  • 数据集大小: 1M<n<10M

数据集结构

配置详情

数据集包含多个配置,每个配置对应不同的数据文件和路径:

  • 配置名称: citation

    • 数据文件:
      • 训练集: citation/train*
      • 验证集: citation/val*
      • 测试集: citation/test*
  • 配置名称: information addition

    • 数据文件:
      • 训练集: information addition/train*
      • 验证集: information addition/val*
      • 测试集: information addition/test*
  • 配置名称: syntactic or semantic revision

    • 数据文件:
      • 训练集: syntactic or semantic revision/train*
      • 验证集: syntactic or semantic revision/val*
      • 测试集: syntactic or semantic revision/test*
  • 配置名称: sac

    • 数据文件:
      • 训练集: sac/train*
      • 验证集: sac/val*
      • 测试集: sac/test*
  • 配置名称: other

    • 数据文件:
      • 训练集: other/train*
      • 验证集: other/val*
      • 测试集: other/test*
  • 配置名称: all

    • 数据文件:
      • 训练集: all/train*
      • 验证集: all/val*
      • 测试集: all/test*
  • 配置名称: disputed claim

    • 数据文件:
      • 训练集: disputed claim/train*
      • 验证集: disputed claim/val*
      • 测试集: disputed claim/test*
  • 配置名称: disambiguation needed

    • 数据文件:
      • 训练集: disambiguation needed/train*
      • 验证集: disambiguation needed/val*
      • 测试集: disambiguation needed/test*
  • 配置名称: dubious

    • 数据文件:
      • 训练集: dubious/train*
      • 验证集: dubious/val*
      • 测试集: dubious/test*
  • 配置名称: unreliable source

    • 数据文件:
      • 训练集: unreliable source/train*
      • 验证集: unreliable source/val*
      • 测试集: unreliable source/test*
  • 配置名称: when

    • 数据文件:
      • 训练集: when/train*
      • 验证集: when/val*
      • 测试集: when/test*
  • 配置名称: neutrality disputed

    • 数据文件:
      • 训练集: neutrality disputed/train*
      • 验证集: neutrality disputed/val*
      • 测试集: neutrality disputed/test*
  • 配置名称: verification needed

    • 数据文件:
      • 训练集: verification needed/train*
      • 验证集: verification needed/val*
      • 测试集: verification needed/test*
  • 配置名称: dead link

    • 数据文件:
      • 训练集: dead link/train*
      • 验证集: dead link/val*
      • 测试集: dead link/test*
  • 配置名称: not in citation given

    • 数据文件:
      • 训练集: not in citation given/train*
      • 验证集: not in citation given/val*
      • 测试集: not in citation given/test*
  • 配置名称: needs update

    • 数据文件:
      • 训练集: needs update/train*
      • 验证集: needs update/val*
      • 测试集: needs update/test*
  • 配置名称: according to whom

    • 数据文件:
      • 训练集: according to whom/train*
      • 验证集: according to whom/val*
      • 测试集: according to whom/test*
  • 配置名称: original research

    • 数据文件:
      • 训练集: original research/train*
      • 验证集: original research/val*
      • 测试集: original research/test*
  • 配置名称: pronunciation

    • 数据文件:
      • 训练集: pronunciation/train*
      • 验证集: pronunciation/val*
      • 测试集: pronunciation/test*
  • 配置名称: by whom

    • 数据文件:
      • 训练集: by whom/train*
      • 验证集: by whom/val*
      • 测试集: by whom/test*
  • 配置名称: vague

    • 数据文件:
      • 训练集: vague/train*
      • 验证集: vague/val*
      • 测试集: vague/test*
  • 配置名称: citation needed

    • 数据文件:
      • 训练集: citation needed/train*
      • 验证集: citation needed/val*
      • 测试集: citation needed/test*
  • 配置名称: who

    • 数据文件:
      • 训练集: who/train*
      • 验证集: who/val*
      • 测试集: who/test*
  • 配置名称: attribution needed

    • 数据文件:
      • 训练集: attribution needed/train*
      • 验证集: attribution needed/val*
      • 测试集: attribution needed/test*
  • 配置名称: sic

    • 数据文件:
      • 训练集: sic/train*
      • 验证集: sic/val*
      • 测试集: sic/test*
  • 配置名称: which

    • 数据文件:
      • 训练集: which/train*
      • 验证集: which/val*
      • 测试集: which/test*
  • 配置名称: clarification needed

    • 数据文件:
      • 训练集: clarification needed/train*
      • 验证集: clarification needed/val*
      • 测试集: clarification needed/test*

数据字段

  • text: 字符串类型,文本内容。
  • label: 分类标签,1表示标注的句子,0表示未标注的句子。

引用信息

@inproceedings{ando-etal-2024-wikisqe, title = "WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia", author = "Ando, Kenichiro and Sekine, Satoshi and Komachi, Mamoru", booktitle = "Proceedings of the AAAI Conference on Artificial Intelligence", volume= "38", number= "16", pages= "17656--17663", year= "2024", address = "Vancouver, Canada", publisher = "Association for the Advancement of Artificial Intelligence", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作