chinese_text_correction

Hugging Face2024-09-29 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/shibing624/chinese_text_correction

下载链接

链接失效反馈

官方服务：

资源简介：

中文真实场景文本纠错数据集，包括拼写纠错、语法纠错、校对数据。拼写纠错数据集包括多个领域的数据，如汽车、医疗、新闻、游戏等，来源不同。语法纠错数据集包括约1500条数据，已经用gpt4o生成改写后的结果，还有来自百度智能文本校对大赛的初赛数据集。数据集结构包括原始文本、纠错后的文本和类别（positive或negative）。数据集的贡献者是shibing624。

Chinese real-world scenario text correction dataset covering spelling correction, grammar correction and text proofreading data. The spelling correction subset includes multi-domain data from diverse sources, covering automotive, medical, news, gaming and other fields. The grammar correction subset contains approximately 1,500 samples, with rewritten outputs generated by GPT-4o, as well as the preliminary round dataset from the Baidu Intelligent Text Proofreading Competition. Each sample in the dataset consists of original text, corrected text and category label (positive or negative). The contributor of this dataset is shibing624.

创建时间：

2024-09-29

原始信息汇总

中文真实场景文本纠错数据集

数据集概述

该数据集包含中文真实场景下的文本纠错数据，包括拼写纠错和语法纠错。数据集涵盖多个领域，如汽车、医疗、新闻、游戏、法律、政府等。

数据集内容

拼写纠错数据

lemon_*.tsv：各领域拼写纠错数据集，包括汽车、医疗、新闻、游戏等领域。
ec_*.tsv：法律、医学、政府领域拼写纠错数据集。
medical_csc.tsv：医学领域拼写纠错数据集。

语法纠错数据

grammar.tsv：语法纠错数据集，约1500条，已经用gpt4o生成改写后的结果。
TextProofreadingCompetition.tsv：真实场景下验证集约2000条，包括约1000条正样本和1000条负样本。

数据集结构

数据字段

source：原始文本。
target：纠错后的文本。
type：类别，positive表示原始文本和纠错文本相同，negative表示不同，需要纠错的。

数据分割

数据集包含多个文件，总计约73328条数据。

贡献者

shibing624 添加了此数据集。

搜集汇总

数据集介绍

构建方式

中文真实场景文本纠错数据集的构建基于多个领域的实际应用场景，涵盖了拼写纠错和语法纠错两大类别。拼写纠错数据来源于多个公开数据集，如lemon、ECSpell和MCSCSet等，涵盖了汽车、医疗、新闻、法律等多个领域。语法纠错数据则通过GPT-4生成改写结果，并结合百度智能文本校对大赛的真实场景验证集。数据集的构建过程注重多样性和真实性，确保了数据的广泛覆盖和高质量。

使用方法

该数据集的使用方法较为灵活，适用于多种自然语言处理任务，尤其是文本纠错任务。研究人员可以通过加载数据集，获取原始文本和纠错后的文本，进行模型的训练和评估。数据集的结构设计使得用户能够轻松区分正样本和负样本，便于进行有监督学习。此外，数据集的分割方式清晰，用户可以根据需求选择特定领域的数据进行实验，或结合多个领域的数据进行跨领域研究。数据集的使用不仅限于拼写纠错，还可用于语法纠错、文本校对等相关任务。

背景与挑战

背景概述

中文真实场景文本纠错数据集（chinese_text_correction）由shibing624等人于近年创建，旨在解决中文文本中的拼写和语法错误问题。该数据集汇集了来自多个领域的真实场景数据，包括法律、医学、新闻、游戏等，涵盖了广泛的文本类型和错误模式。数据来源多样，包括公开的学术数据集、社交媒体数据以及专业领域的文本。该数据集的构建不仅为中文自然语言处理领域提供了宝贵的资源，还推动了文本纠错技术的发展，尤其是在拼写纠错和语法纠错任务中，为相关研究提供了重要的基准和参考。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题的解决上，中文文本纠错任务本身具有较高的复杂性，尤其是语法纠错，需要模型具备深层次的语言理解能力，而拼写纠错则要求模型能够准确识别和纠正多种类型的错误。其次，在数据集的构建过程中，如何确保数据的多样性和代表性是一个关键挑战。由于中文文本的多样性和复杂性，数据收集和标注过程中需要处理大量噪声数据，并确保标注的准确性和一致性。此外，不同领域之间的文本差异较大，如何平衡各领域的数据分布也是一个需要解决的问题。

常用场景

经典使用场景

中文真实场景文本纠错数据集广泛应用于自然语言处理领域，特别是在中文文本的拼写和语法纠错任务中。该数据集通过提供多领域的拼写纠错数据和语法纠错数据，为研究人员和开发者提供了一个全面的基准测试平台。经典的使用场景包括在智能输入法、自动校对系统和教育辅助工具中的应用，帮助用户识别和纠正文本中的错误。

解决学术问题

该数据集有效解决了中文文本纠错中的多个学术研究问题，特别是在拼写和语法错误的自动检测与纠正方面。通过提供大量真实场景下的纠错数据，研究人员能够训练和评估更精确的纠错模型，从而提升模型的泛化能力和鲁棒性。此外，该数据集还为跨领域纠错研究提供了丰富的数据支持，推动了中文自然语言处理技术的发展。

实际应用

在实际应用中，中文真实场景文本纠错数据集被广泛应用于智能输入法、自动校对系统和教育辅助工具中。例如，微信输入法团队利用该数据集中的微博语料拼写纠错数据，提升了输入法的纠错能力。此外，该数据集还被用于开发智能客服系统，帮助自动识别和纠正用户输入中的错误，提升用户体验。

数据集最近研究