five

CWEB

收藏
arXiv2020-10-15 更新2024-06-21 收录
下载链接:
https://github.com/SimonHFL/CWEB
下载链接
链接失效反馈
官方服务:
资源简介:
CWEB数据集由亚历山大研究所创建,专注于收集和纠正网站文本中的语法错误,以形成一个适用于评估语法错误纠正系统的基准。该数据集包含从CommonCrawl随机抽样的网站文本,涵盖了广泛的数据类型,如博客、杂志、企业或教育网站,适用于不同水平的英语使用者。创建过程中,数据经过严格的筛选和过滤,确保了数据的质量和多样性。CWEB数据集的应用领域主要集中在提高开放领域GEC模型的性能,解决现有系统在低错误密度文本中表现不佳的问题,从而推动语法错误纠正技术的发展。
提供机构:
亚历山大研究所
创建时间:
2020-10-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作