WikiSQE
收藏arXiv2023-12-30 更新2024-06-21 收录
下载链接:
https://github.com/ken-ando/WikiSQE
下载链接
链接失效反馈官方服务:
资源简介:
WikiSQE是一个大规模的数据集,专门用于评估维基百科中句子的质量。该数据集由理化学研究所人工智能和大数据创新研究中心创建,包含了从英文维基百科全历史修订中提取的约340万条句子,每条句子都附有153种质量标签。数据集的创建过程涉及从维基百科的清理模板中手工挑选目标标签,并过滤掉噪声句子。WikiSQE的应用领域广泛,主要用于自然语言处理中的句子质量估计,旨在通过机器学习模型自动检测和分类句子中的质量问题,如引用缺失、语法或语义错误等。
提供机构:
理化学研究所人工智能和大数据创新研究中心
创建时间:
2023-05-10



