five

CSC-gpt4|中文拼写纠错数据集|自然语言处理数据集

收藏
huggingface2024-08-28 更新2024-12-12 收录
中文拼写纠错
自然语言处理
下载链接:
https://huggingface.co/datasets/shibing624/CSC-gpt4
下载链接
链接失效反馈
资源简介:
中文拼写纠错数据集,共6千条,整合了原始SIGHAN13、14、15年数据集和Wang271k数据集的拼写纠错数据集(抽样得到了4.5k),和语法纠错样本集(抽样了1.5k),使用gpt4的api逐条生成得到,jsonl格式,带错误字符信息。
创建时间:
2024-08-28
原始信息汇总

中文拼写纠错数据集(gpt4修正版)

数据集描述

中文拼写纠错数据集(CSC)是一个用于检测和纠正中文文本中拼写错误的任务。由于许多中文字符在视觉或语音上相似但具有完全不同的语义,因此这一任务具有挑战性。

该数据集共包含6千条数据,整合了原始SIGHAN13、14、15年数据集和Wang271k数据集的拼写纠错数据(抽样得到4.5k条),以及语法纠错样本集(抽样得到1.5k条)。这些数据是通过gpt4的API逐条生成得到的,格式为jsonl,并包含错误字符信息。

数据文件

  • csc_gpt4o.jsonl:从CSC数据集抽样得到,包括SIGHAN13、14、15和Wang271k数据,文件大小为2MB,包含4.5千条数据。
  • grammar_gpt4o.jsonl:从pycorrector/grammar数据集抽样得到,包括语法纠错数据,文件大小为577KB,包含1.5k条数据。

数据格式

数据样例:

json { "id": "-", "original_text": "可是在从原棉制成纱线的过程,就不像穿着光滑舒适的衣服那样让人愉快了:纱厂工人终日面临着音响,尘埃和湿气的。", "errors": [{original_error: 音响, type: wrong_word, correct: 噪音}, {original_error: 的, type: extra_word, correct: }], "correct_text": "可是在从原棉制成纱线的过程,就不像穿着光滑舒适的衣服那样让人愉快了:纱厂工人终日面临着噪音,尘埃和湿气。" }

字段解释:

  • id:唯一标识符,无意义。
  • original_text:原始错误文本。
  • errors:错误列表,包含原始错误文本片段(original_error)、错误类型(type)和正确的文本(correct)。错误类型包括拼写错误(spelling_error)、语法错误(grammar_error)、缺少单词(missing_word)、多余单词(extra_word)等。
  • correct_text:纠正后的文本。

支持的任务和排行榜

该数据集设计用于中文拼写纠错任务的预训练语言模型训练。

语言

数据集中的数据为中文。

许可信息

该数据集在Apache 2.0许可下发布。

引用信息

latex @misc{Xu_Pycorrector_Text_error, title={Pycorrector: Text error correction tool}, author={Xu Ming}, year={2024}, howpublished={url{https://github.com/shibing624/pycorrector}}, }

贡献者

shibing624 整理并上传。

AI搜集汇总
数据集介绍
main_image_url
构建方式
CSC-gpt4数据集的构建基于多个经典的中文拼写纠错数据集,包括SIGHAN13、14、15以及Wang271k数据集。通过抽样方法,从这些数据集中提取了4.5千条拼写纠错样本,并额外从语法纠错数据集中抽取了1.5千条样本。所有样本均通过GPT-4 API逐条生成,确保了数据的准确性和多样性。最终,数据集以jsonl格式存储,每条数据包含原始文本、错误信息及纠正后的文本。
使用方法
CSC-gpt4数据集适用于中文拼写纠错任务的模型训练与评估。用户可以通过加载jsonl文件,获取原始文本、错误信息及纠正后的文本。每条数据的错误信息以数组形式呈现,便于模型识别和处理不同类型的错误。数据集可直接用于预训练语言模型的微调,或作为基准数据集用于评估模型的纠错性能。
背景与挑战
背景概述
CSC-gpt4数据集是一个专注于中文拼写纠错任务的数据集,由shibing624团队于2024年整理并发布。该数据集整合了SIGHAN13、SIGHAN14、SIGHAN15以及Wang271k等多个经典中文拼写纠错数据集,并通过GPT-4 API生成纠错样本,最终形成了包含6千条数据的集合。中文拼写纠错任务因其复杂性而备受关注,许多汉字在视觉或语音上相似,但语义却大相径庭,这使得自动纠错系统面临巨大挑战。CSC-gpt4数据集的发布为中文自然语言处理领域提供了高质量的训练数据,推动了预训练语言模型在拼写纠错任务中的应用。
当前挑战
CSC-gpt4数据集在解决中文拼写纠错任务时面临多重挑战。首先,中文拼写错误的多样性使得模型需要具备强大的语义理解能力,以区分视觉或语音相似但语义不同的汉字。其次,数据集的构建过程中,如何确保纠错样本的准确性和多样性是一个关键问题。尽管GPT-4 API提供了高质量的纠错生成能力,但仍需人工验证和筛选,以避免引入新的错误。此外,数据集的规模相对较小,可能限制了模型在更广泛场景下的泛化能力。如何在有限的数据基础上提升模型的鲁棒性和适应性,是未来研究的重要方向。
常用场景
经典使用场景
在自然语言处理领域,CSC-gpt4数据集主要用于中文拼写和语法纠错任务。该数据集通过整合SIGHAN和Wang271k等经典数据集,并利用GPT-4 API生成纠错样本,为研究人员提供了一个高质量的基准测试平台。通过该数据集,研究者可以训练和评估各种预训练语言模型在中文文本纠错任务中的表现。
解决学术问题
CSC-gpt4数据集有效解决了中文拼写和语法纠错任务中的关键问题。由于中文中存在大量形近或音近但意义不同的字符,传统的纠错方法往往难以准确识别和修正错误。该数据集通过提供丰富的错误类型和纠错样本,帮助研究人员开发更精确的纠错模型,推动了中文自然语言处理技术的发展。
实际应用
在实际应用中,CSC-gpt4数据集可广泛应用于中文文本的自动校对和编辑系统。例如,在新闻出版、教育评估和办公自动化等领域,该数据集可以帮助开发出高效的拼写和语法检查工具,提升文本质量和工作效率。此外,该数据集还可用于智能客服和聊天机器人等场景,提升人机交互的准确性和流畅性。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,中文拼写纠错(CSC)任务在学术界和工业界均受到了广泛关注。CSC-gpt4数据集作为一项基于GPT-4生成的高质量中文拼写纠错数据集,整合了SIGHAN13、14、15以及Wang271k等多个经典数据集,并通过GPT-4 API逐条生成纠错结果,显著提升了数据集的准确性和多样性。该数据集不仅为中文拼写纠错任务提供了丰富的训练资源,还为语法纠错任务提供了支持,推动了预训练语言模型在中文文本纠错领域的应用。当前,基于该数据集的研究方向主要集中在如何进一步提升模型的纠错能力,尤其是在处理视觉或语音相似但语义不同的汉字时,如何通过多模态融合或上下文感知技术提高纠错精度。此外,该数据集也为中文自然语言处理领域的其他任务,如机器翻译、文本生成等,提供了重要的数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录