ando55/WikiSQE
收藏Hugging Face2024-06-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ando55/WikiSQE
下载链接
链接失效反馈官方服务:
资源简介:
WikiSQE数据集是一个包含超过340万条来自维基百科的句子的英语数据集。这些句子被维基百科编辑标记为在某些方面质量较差,并被分类为153种标签。该数据集用于句子质量估计的研究。
The WikiSQE dataset is an English-language dataset containing over 3.4 million sentences sourced from Wikipedia. These sentences have been flagged by Wikipedia editors as being of poor quality in certain aspects and categorized into 153 labels. This dataset is utilized for research on sentence quality estimation.
提供机构:
ando55
原始信息汇总
数据集概述
基本信息
- 名称: WikiSQE
- 语言: 英语
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语种
- 数据来源: 原始数据
- 任务类别: 文本分类
数据集详情
- 描述: WikiSQE是一个包含超过340万句子的英语数据集,这些句子被维基百科编辑标记为在某些方面质量较差。数据集中的句子被分类为153个不同的标签,用于指示句子质量问题的不同方面。
- 数据字段:
text: 字符串类型,包含句子内容。
标签详情
- 标签数量: 153个
- 标签示例:
- a fact or an opinion
- according to whom
- additional citation needed
- ...
- year needed
数据集大小
- 规模: 1M<n<10M
引用信息
@inproceedings{ando-etal-2024-wikisqe, title = "WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia", author = "Ando, Kenichiro and Sekine, Satoshi and Komachi, Mamoru", booktitle = "Proceedings of the AAAI Conference on Artificial Intelligence", volume= "38", number= "16", pages= "17656--17663", year= "2024", address = "Vancouver, Canada", publisher = "Association for the Advancement of Artificial Intelligence", }



