five

CSCD-NS|中文拼写检查数据集|自然语言处理数据集

收藏
arXiv2024-05-23 更新2024-06-21 收录
中文拼写检查
自然语言处理
下载链接:
https://github.com/nghuyong/cscd-ns
下载链接
链接失效反馈
资源简介:
CSCD-NS是首个专为中文母语者设计的中文拼写检查数据集,由腾讯微信人工智能团队创建。该数据集包含40,000个样本,源自中文社交媒体平台,具有大规模和高质量的特点。创建过程中,研究团队采用了一种新颖的方法,通过模拟输入法输入过程生成伪数据,以更真实地反映实际错误分布。CSCD-NS主要用于提升中文母语者的拼写检查技术,解决现有数据集在规模和错误类型上的不足。
提供机构:
腾讯微信人工智能
创建时间:
2022-11-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
CSCD-NS数据集的构建基于中国社交媒体平台微博的真实帖子,这些帖子包含了母语者在输入过程中产生的真实拼写错误。数据集通过从LCSTS数据集中提取句子,并使用错误检测模型过滤出可能包含拼写错误的句子,随后由母语者进行人工标注。最终,数据集包含40,000个标注样本,分为训练集、开发集和测试集,分别包含30,000、5,000和5,000个样本。为了增强数据资源,研究者还提出了一种基于中文输入法(IME)的伪数据生成方法,模拟实际输入过程中的错误分布,生成高质量的伪数据。
特点
CSCD-NS数据集的显著特点是其规模和错误分布。与现有的面向中文学习者的拼写检查数据集相比,CSCD-NS的样本量是其十倍,且包含更多的词级别错误。数据集中的错误主要集中在同音或近音错误,且词级别错误的占比显著高于字级别错误。此外,数据集还提供了详细的音韵和语义标签,便于对错误类型进行深入分析。
使用方法
CSCD-NS数据集可用于训练和评估中文拼写检查模型。研究者可以使用该数据集进行模型训练,并通过开发集和测试集评估模型的性能。数据集的错误分布和标签系统为研究者提供了丰富的信息,帮助他们设计更有效的模型。此外,数据集还支持伪数据的生成,研究者可以通过基于IME的伪数据生成方法,进一步扩充训练数据,提升模型的泛化能力。
背景与挑战
背景概述
随着中文自然语言处理技术的快速发展,中文拼写检查(CSC)任务在学术界和工业界引起了广泛关注。然而,现有的CSC数据集主要面向中文学习者,而针对母语使用者的数据集却极为匮乏。为此,腾讯微信AI团队的研究人员于2024年提出了CSCD-NS数据集,这是首个专门为中文母语者设计的中文拼写检查数据集。该数据集包含40,000个样本,来源于中国社交媒体平台微博,具有显著的错误分布特征,尤其是词级别错误的占比显著高于现有数据集。CSCD-NS的推出填补了这一领域的空白,为中文母语者的拼写检查任务提供了宝贵的资源,推动了相关研究的发展。
当前挑战
CSCD-NS数据集的构建面临多重挑战。首先,中文母语者在输入过程中产生的错误类型与中文学习者有显著差异,尤其是在词级别错误的占比上,这使得现有的拼写检查模型难以直接迁移应用。其次,数据集的构建过程中,研究人员需要模拟输入法的使用场景,生成高质量的伪数据,以弥补标注数据的不足。此外,现有的生成式模型(如ChatGPT)在处理中文拼写检查任务时,由于严格的字数和发音约束,表现不如BERT等分类模型。这些挑战表明,中文拼写检查任务在母语者场景下仍然存在巨大的改进空间,尤其是在处理词级别错误和复杂上下文理解方面。
常用场景
经典使用场景
CSCD-NS数据集的经典使用场景主要集中在汉语拼写检查(CSC)任务中,尤其是针对母语为汉语的用户。该数据集通过从中国社交媒体平台微博中提取的真实文本,捕捉了母语者在输入过程中常见的拼写错误。这些错误包括同音字错误、词级错误等,为模型提供了丰富的训练样本,使其能够更好地识别和纠正汉语母语者的拼写错误。
实际应用
CSCD-NS数据集在实际应用中具有广泛的前景,特别是在中文输入法、文本编辑器和自动校对系统中。通过训练基于该数据集的拼写检查模型,可以显著提高中文输入法的纠错能力,减少用户在输入过程中的拼写错误。此外,该数据集还可用于开发智能写作辅助工具,帮助用户在撰写文档时自动检测和纠正拼写错误,提升文本质量。
衍生相关工作
CSCD-NS数据集的发布激发了大量相关研究工作,尤其是在汉语拼写检查模型的改进和优化方面。许多研究者基于该数据集提出了新的模型和方法,例如通过输入法模拟生成高质量伪数据的方法,以及针对词级错误的专门处理技术。此外,该数据集还推动了对大语言模型(如ChatGPT和GPT-4)在拼写检查任务中表现的研究,揭示了生成模型在处理拼写错误时的局限性,并为未来的研究指明了方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录