chinese_text_correction|文本纠错数据集|中文处理数据集

huggingface2024-09-29 更新2024-12-12 收录

文本纠错

中文处理

下载链接：

https://huggingface.co/datasets/shibing624/chinese_text_correction

下载链接

链接失效反馈

资源简介：

中文真实场景文本纠错数据集，包括拼写纠错、语法纠错、校对数据。拼写纠错数据集包括多个领域的数据，如汽车、医疗、新闻、游戏等，来源不同。语法纠错数据集包括约1500条数据，已经用gpt4o生成改写后的结果，还有来自百度智能文本校对大赛的初赛数据集。数据集结构包括原始文本、纠错后的文本和类别（positive或negative）。数据集的贡献者是shibing624。

创建时间：

2024-09-29

原始信息汇总

中文真实场景文本纠错数据集

数据集概述

该数据集包含中文真实场景下的文本纠错数据，包括拼写纠错和语法纠错。数据集涵盖多个领域，如汽车、医疗、新闻、游戏、法律、政府等。

数据集内容

拼写纠错数据

lemon_*.tsv：各领域拼写纠错数据集，包括汽车、医疗、新闻、游戏等领域。
ec_*.tsv：法律、医学、政府领域拼写纠错数据集。
medical_csc.tsv：医学领域拼写纠错数据集。

语法纠错数据

grammar.tsv：语法纠错数据集，约1500条，已经用gpt4o生成改写后的结果。
TextProofreadingCompetition.tsv：真实场景下验证集约2000条，包括约1000条正样本和1000条负样本。

数据集结构

数据字段

source：原始文本。
target：纠错后的文本。
type：类别，positive表示原始文本和纠错文本相同，negative表示不同，需要纠错的。

数据分割

数据集包含多个文件，总计约73328条数据。

贡献者

shibing624 添加了此数据集。

AI搜集汇总

数据集介绍

构建方式

中文真实场景文本纠错数据集的构建基于多个领域的实际应用场景，涵盖了拼写纠错和语法纠错两大类别。拼写纠错数据来源于多个公开数据集，如lemon、ECSpell和MCSCSet等，涵盖了汽车、医疗、新闻、法律等多个领域。语法纠错数据则通过GPT-4生成改写结果，并结合百度智能文本校对大赛的真实场景验证集。数据集的构建过程注重多样性和真实性，确保了数据的广泛覆盖和高质量。

使用方法

该数据集的使用方法较为灵活，适用于多种自然语言处理任务，尤其是文本纠错任务。研究人员可以通过加载数据集，获取原始文本和纠错后的文本，进行模型的训练和评估。数据集的结构设计使得用户能够轻松区分正样本和负样本，便于进行有监督学习。此外，数据集的分割方式清晰，用户可以根据需求选择特定领域的数据进行实验，或结合多个领域的数据进行跨领域研究。数据集的使用不仅限于拼写纠错，还可用于语法纠错、文本校对等相关任务。

背景与挑战

背景概述

中文真实场景文本纠错数据集（chinese_text_correction）由shibing624等人于近年创建，旨在解决中文文本中的拼写和语法错误问题。该数据集汇集了来自多个领域的真实场景数据，包括法律、医学、新闻、游戏等，涵盖了广泛的文本类型和错误模式。数据来源多样，包括公开的学术数据集、社交媒体数据以及专业领域的文本。该数据集的构建不仅为中文自然语言处理领域提供了宝贵的资源，还推动了文本纠错技术的发展，尤其是在拼写纠错和语法纠错任务中，为相关研究提供了重要的基准和参考。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题的解决上，中文文本纠错任务本身具有较高的复杂性，尤其是语法纠错，需要模型具备深层次的语言理解能力，而拼写纠错则要求模型能够准确识别和纠正多种类型的错误。其次，在数据集的构建过程中，如何确保数据的多样性和代表性是一个关键挑战。由于中文文本的多样性和复杂性，数据收集和标注过程中需要处理大量噪声数据，并确保标注的准确性和一致性。此外，不同领域之间的文本差异较大，如何平衡各领域的数据分布也是一个需要解决的问题。

常用场景

经典使用场景

中文真实场景文本纠错数据集广泛应用于自然语言处理领域，特别是在中文文本的拼写和语法纠错任务中。该数据集通过提供多领域的拼写纠错数据和语法纠错数据，为研究人员和开发者提供了一个全面的基准测试平台。经典的使用场景包括在智能输入法、自动校对系统和教育辅助工具中的应用，帮助用户识别和纠正文本中的错误。

解决学术问题

该数据集有效解决了中文文本纠错中的多个学术研究问题，特别是在拼写和语法错误的自动检测与纠正方面。通过提供大量真实场景下的纠错数据，研究人员能够训练和评估更精确的纠错模型，从而提升模型的泛化能力和鲁棒性。此外，该数据集还为跨领域纠错研究提供了丰富的数据支持，推动了中文自然语言处理技术的发展。

实际应用

在实际应用中，中文真实场景文本纠错数据集被广泛应用于智能输入法、自动校对系统和教育辅助工具中。例如，微信输入法团队利用该数据集中的微博语料拼写纠错数据，提升了输入法的纠错能力。此外，该数据集还被用于开发智能客服系统，帮助自动识别和纠正用户输入中的错误，提升用户体验。

数据集最近研究

最新研究方向

近年来，中文文本纠错领域的研究逐渐聚焦于多领域、多场景下的文本纠错任务。随着自然语言处理技术的进步，特别是预训练语言模型的应用，研究者们开始探索如何在不同领域的文本数据中实现更精准的纠错。例如，法律、医学、新闻等领域的拼写纠错数据集，如ec_law.tsv和medical_csc.tsv，为模型提供了丰富的领域特定错误样本，有助于提升模型在特定领域的纠错能力。此外，语法纠错数据集如grammar.tsv的引入，进一步推动了模型在复杂语法结构上的纠错性能。这些数据集不仅为学术界提供了宝贵的研究资源，也为工业界的实际应用，如智能输入法和文本校对系统，提供了强有力的支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

The Stack v2

The Stack v2 dataset is a collection of source code in over 600 programming languages.

huggingface 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建，是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像，包括来自地球观测一号（EO-1）Hyperion和高分五号（GF-5B）两种传感器的图像，光谱范围从可见光到短波及中波红外，具有从紫外到长波红外的330个光谱波段，空间分辨率为30米。每幅图像经过精心处理，去除了无效波段和水汽吸收波段，保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究，还能够用于开发和测试各种高光谱图像处理方法，比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录