five

WikiSQE

收藏
arXiv2023-12-30 更新2024-06-21 收录
下载链接:
https://github.com/ken-ando/WikiSQE
下载链接
链接失效反馈
官方服务:
资源简介:
WikiSQE是一个大规模的数据集,专门用于评估维基百科中句子的质量。该数据集由理化学研究所人工智能和大数据创新研究中心创建,包含了从英文维基百科全历史修订中提取的约340万条句子,每条句子都附有153种质量标签。数据集的创建过程涉及从维基百科的清理模板中手工挑选目标标签,并过滤掉噪声句子。WikiSQE的应用领域广泛,主要用于自然语言处理中的句子质量估计,旨在通过机器学习模型自动检测和分类句子中的质量问题,如引用缺失、语法或语义错误等。
提供机构:
理化学研究所人工智能和大数据创新研究中心
创建时间:
2023-05-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作