five

中文文本纠错数据集汇总

收藏
阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/138195
下载链接
链接失效反馈
官方服务:
资源简介:
本文汇总了中文文本纠错领域(Chinese Text Correction, CTC)近年来业界主要使用的数据集,包括训练数据以及测试数据。其中,由苏州大学、阿里达摩院推出的 MuCGEC数据集已在天池数据集平台长期开放,支持后续的语法纠错相关研究(https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328)。

This paper compiles and summarizes the main datasets widely adopted in the industry for Chinese Text Correction (CTC) over recent years, covering both training and test datasets. Among these datasets, the MuCGEC dataset, jointly launched by Soochow University and Alibaba DAMO Academy, has been permanently available on the Tianchi Dataset Platform for long-term access, supporting follow-up research on grammatical error correction (https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328).
提供机构:
阿里云天池
创建时间:
2022-09-29
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个文档汇总,系统整理了中文文本纠错领域的主要数据集,涵盖中文拼写纠错和中文语法纠错两个子任务。它提供了多个数据集的详细信息,包括来源、论文链接和下载地址,旨在为相关研究提供数据索引和参考,但本身不包含原始纠错数据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务