Weaxs/csc|中文纠错数据集|自然语言处理数据集
收藏hugging_face2024-01-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Weaxs/csc
下载链接
链接失效反馈资源简介:
中文拼写纠错(CSC)数据集,用于检测和纠正中文文本中的拼写错误。数据集共计120万条数据,来源于多个公开数据集,包括SIGHAN+Wang271K、ECSpell、CGED、NLPCC和pycorrector等,涵盖了法律、医疗、金融等多个领域。数据集中的语言为中文,数据格式为JSON,包含对话形式的纠错示例。
中文拼写纠错(CSC)数据集,用于检测和纠正中文文本中的拼写错误。数据集共计120万条数据,来源于多个公开数据集,包括SIGHAN+Wang271K、ECSpell、CGED、NLPCC和pycorrector等,涵盖了法律、医疗、金融等多个领域。数据集中的语言为中文,数据格式为JSON,包含对话形式的纠错示例。
提供机构:
Weaxs
原始信息汇总
中文纠错数据集
数据集描述
中文纠错数据集(Chinese Spelling Correction, CSC)用于检测和纠正中文文本中的拼写错误。该数据集包含120万条数据,涵盖多个领域的纠错任务。
数据来源
| 数据集 | 语料 | 链接 |
|---|---|---|
| SIGHAN+Wang271K 拼写纠错数据集 | SIGHAN+Wang271K(27万条) | https://huggingface.co/datasets/shibing624/CSC |
| ECSpell 拼写纠错数据集 | 包含法律、医疗、金融等领域 | https://github.com/Aopolin-Lv/ECSpell |
| CGED 语法纠错数据集 | 仅包含2016和2021年的数据集 | https://github.com/wdimmy/Automatic-Corpus-Generation?spm=a2c22.12282016.0.0.5f3e7398w7SL4P |
| NLPCC 纠错数据集 | 包含语法纠错和拼写纠错 | https://github.com/Arvid-pku/NLPCC2023_Shared_Task8 <br/>http://tcci.ccf.org.cn/conference/2023/dldoc/nacgec_training.zip<br/>http://tcci.ccf.org.cn/conference/2018/dldoc/trainingdata02.tar.gz |
| pycorrector 语法纠错集 | 中文语法纠错数据集 | https://github.com/shibing624/pycorrector/tree/llm/examples/data/grammar |
语言
数据集中的文本均为中文。
数据结构
训练集示例如下: json { "conversations": [ {"from":"human","value":"对这个句子纠错
以后,我一直以来自学汉语了。"}, {"from":"gpt","value":"从此以后,我就一直自学汉语了。"} ] }
贡献者
数据集由 Weaxs 整理并上传。
AI搜集汇总
数据集介绍

构建方式
该数据集的构建基于多种来源的语料,涵盖了不同领域的纠错需求。具体而言,数据集整合了SIGHAN+Wang271K拼写纠错数据集、ECSpell拼写纠错数据集、CGED语法纠错数据集、NLPCC纠错数据集以及pycorrector语法纠错集等。这些数据集分别来自学术研究、法律、医疗、金融等多个领域,确保了数据的多样性和广泛性。通过整合这些资源,数据集构建了一个包含120万条数据的庞大语料库,旨在为中文拼写和语法纠错任务提供丰富的训练和测试材料。
特点
该数据集的主要特点在于其广泛的数据来源和多样化的语料类型。数据集不仅包含了拼写纠错的内容,还涵盖了语法纠错的实例,使得其在处理复杂的中文文本纠错任务时具有显著优势。此外,数据集的规模庞大,达到了120万条,能够为模型提供充足的训练数据,从而提升纠错效果。数据集的结构设计也便于模型直接使用,提供了清晰的人机对话格式,便于模型理解和处理。
使用方法
该数据集适用于中文拼写和语法纠错任务,尤其适合用于训练和评估文本生成模型。使用时,可以直接加载数据集,并根据提供的对话格式进行模型训练。数据集的结构清晰,包含了原始文本和纠错后的文本,便于模型学习如何进行有效的纠错。此外,数据集的多样性使得其在不同领域的应用中都能展现出良好的适应性。通过使用该数据集,研究者和开发者可以有效提升中文文本纠错模型的性能。
背景与挑战
背景概述
中文纠错数据集(CSC)是由Weaxs整理并上传的,旨在解决中文文本中的拼写和语法错误问题。该数据集汇集了多个来源的语料,包括SIGHAN+Wang271K、ECSpell、CGED、NLPCC和pycorrector等,总计超过120万条数据。这些数据涵盖了法律、医疗、金融等多个领域,为中文纠错任务提供了丰富的训练和测试资源。CSC数据集的创建不仅推动了中文自然语言处理技术的发展,也为相关研究提供了宝贵的数据支持。
当前挑战
中文纠错数据集面临的挑战主要体现在数据多样性和错误类型的复杂性上。首先,中文语言的特殊性使得拼写和语法错误的形式多样,包括同音字、近音字以及语法结构错误等,这增加了模型识别和纠正的难度。其次,数据集的构建过程中,如何从不同领域和来源中有效整合和标注数据,确保数据的准确性和代表性,也是一个重要的挑战。此外,随着语言使用环境的变化,如何持续更新和扩展数据集以适应新的语言现象,也是未来需要解决的问题。
常用场景
经典使用场景
Weaxs/csc数据集在中文文本纠错领域具有广泛的应用,尤其在自动检测和纠正中文文本中的拼写错误方面表现突出。该数据集通过整合多个领域的语料,如法律、医疗和金融,为模型训练提供了丰富的上下文信息,从而显著提升了中文拼写纠错系统的准确性和鲁棒性。
解决学术问题
该数据集有效解决了中文文本处理中的拼写错误检测与纠正问题,填补了中文自然语言处理领域在纠错技术上的空白。通过提供大规模、多样化的纠错样本,Weaxs/csc数据集为研究者提供了一个标准化的测试平台,推动了中文纠错技术的快速发展和学术研究的深入。
衍生相关工作
基于Weaxs/csc数据集,研究者们开发了多种中文纠错模型和算法,如基于深度学习的拼写纠错模型和结合规则与统计方法的混合纠错系统。此外,该数据集还激发了在多语言纠错、上下文感知纠错等前沿领域的研究,推动了中文自然语言处理技术的整体进步。
以上内容由AI搜集并总结生成
