CSC-gpt4

Hugging Face2024-08-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/shibing624/CSC-gpt4

下载链接

链接失效反馈

官方服务：

资源简介：

中文拼写纠错数据集，共6千条，整合了原始SIGHAN13、14、15年数据集和Wang271k数据集的拼写纠错数据集（抽样得到了4.5k），和语法纠错样本集（抽样了1.5k），使用gpt4的api逐条生成得到，jsonl格式，带错误字符信息。

Chinese Spelling Error Correction Dataset contains a total of 6,000 entries. It includes 4.5k sampled spelling error correction samples sourced from the original SIGHAN 2013, 2014, 2015 datasets and the Wang271k dataset, plus 1.5k sampled grammar error correction entries. All samples were generated one by one using the GPT-4 API. The dataset is stored in JSON Lines format and includes error character information.

创建时间：

2024-08-28

原始信息汇总

中文拼写纠错数据集（gpt4修正版）

数据集描述

中文拼写纠错数据集（CSC）是一个用于检测和纠正中文文本中拼写错误的任务。由于许多中文字符在视觉或语音上相似但具有完全不同的语义，因此这一任务具有挑战性。

该数据集共包含6千条数据，整合了原始SIGHAN13、14、15年数据集和Wang271k数据集的拼写纠错数据（抽样得到4.5k条），以及语法纠错样本集（抽样得到1.5k条）。这些数据是通过gpt4的API逐条生成得到的，格式为jsonl，并包含错误字符信息。

数据文件

csc_gpt4o.jsonl：从CSC数据集抽样得到，包括SIGHAN13、14、15和Wang271k数据，文件大小为2MB，包含4.5千条数据。
grammar_gpt4o.jsonl：从pycorrector/grammar数据集抽样得到，包括语法纠错数据，文件大小为577KB，包含1.5k条数据。

数据格式

数据样例：

json { "id": "-", "original_text": "可是在从原棉制成纱线的过程，就不像穿着光滑舒适的衣服那样让人愉快了：纱厂工人终日面临着音响，尘埃和湿气的。", "errors": [{original_error: 音响, type: wrong_word, correct: 噪音}, {original_error: 的, type: extra_word, correct: }], "correct_text": "可是在从原棉制成纱线的过程，就不像穿着光滑舒适的衣服那样让人愉快了：纱厂工人终日面临着噪音，尘埃和湿气。" }

字段解释：

id：唯一标识符，无意义。
original_text：原始错误文本。
errors：错误列表，包含原始错误文本片段（original_error）、错误类型（type）和正确的文本（correct）。错误类型包括拼写错误（spelling_error）、语法错误（grammar_error）、缺少单词（missing_word）、多余单词（extra_word）等。
correct_text：纠正后的文本。

支持的任务和排行榜

该数据集设计用于中文拼写纠错任务的预训练语言模型训练。

语言

数据集中的数据为中文。

许可信息

该数据集在Apache 2.0许可下发布。

引用信息

latex @misc{Xu_Pycorrector_Text_error, title={Pycorrector: Text error correction tool}, author={Xu Ming}, year={2024}, howpublished={url{https://github.com/shibing624/pycorrector}}, }

贡献者

shibing624 整理并上传。

搜集汇总

数据集介绍

构建方式

CSC-gpt4数据集的构建基于多个经典的中文拼写纠错数据集，包括SIGHAN13、14、15以及Wang271k数据集。通过抽样方法，从这些数据集中提取了4.5千条拼写纠错样本，并额外从语法纠错数据集中抽取了1.5千条样本。所有样本均通过GPT-4 API逐条生成，确保了数据的准确性和多样性。最终，数据集以jsonl格式存储，每条数据包含原始文本、错误信息及纠正后的文本。

使用方法

CSC-gpt4数据集适用于中文拼写纠错任务的模型训练与评估。用户可以通过加载jsonl文件，获取原始文本、错误信息及纠正后的文本。每条数据的错误信息以数组形式呈现，便于模型识别和处理不同类型的错误。数据集可直接用于预训练语言模型的微调，或作为基准数据集用于评估模型的纠错性能。

背景与挑战

背景概述

CSC-gpt4数据集是一个专注于中文拼写纠错任务的数据集，由shibing624团队于2024年整理并发布。该数据集整合了SIGHAN13、SIGHAN14、SIGHAN15以及Wang271k等多个经典中文拼写纠错数据集，并通过GPT-4 API生成纠错样本，最终形成了包含6千条数据的集合。中文拼写纠错任务因其复杂性而备受关注，许多汉字在视觉或语音上相似，但语义却大相径庭，这使得自动纠错系统面临巨大挑战。CSC-gpt4数据集的发布为中文自然语言处理领域提供了高质量的训练数据，推动了预训练语言模型在拼写纠错任务中的应用。

当前挑战

CSC-gpt4数据集在解决中文拼写纠错任务时面临多重挑战。首先，中文拼写错误的多样性使得模型需要具备强大的语义理解能力，以区分视觉或语音相似但语义不同的汉字。其次，数据集的构建过程中，如何确保纠错样本的准确性和多样性是一个关键问题。尽管GPT-4 API提供了高质量的纠错生成能力，但仍需人工验证和筛选，以避免引入新的错误。此外，数据集的规模相对较小，可能限制了模型在更广泛场景下的泛化能力。如何在有限的数据基础上提升模型的鲁棒性和适应性，是未来研究的重要方向。

常用场景

经典使用场景

在自然语言处理领域，CSC-gpt4数据集主要用于中文拼写和语法纠错任务。该数据集通过整合SIGHAN和Wang271k等经典数据集，并利用GPT-4 API生成纠错样本，为研究人员提供了一个高质量的基准测试平台。通过该数据集，研究者可以训练和评估各种预训练语言模型在中文文本纠错任务中的表现。

解决学术问题

CSC-gpt4数据集有效解决了中文拼写和语法纠错任务中的关键问题。由于中文中存在大量形近或音近但意义不同的字符，传统的纠错方法往往难以准确识别和修正错误。该数据集通过提供丰富的错误类型和纠错样本，帮助研究人员开发更精确的纠错模型，推动了中文自然语言处理技术的发展。

实际应用

在实际应用中，CSC-gpt4数据集可广泛应用于中文文本的自动校对和编辑系统。例如，在新闻出版、教育评估和办公自动化等领域，该数据集可以帮助开发出高效的拼写和语法检查工具，提升文本质量和工作效率。此外，该数据集还可用于智能客服和聊天机器人等场景，提升人机交互的准确性和流畅性。

数据集最近研究