CSCD-NS|中文拼写检查数据集|自然语言处理数据集

arXiv2024-05-23 更新2024-06-21 收录

中文拼写检查

自然语言处理

下载链接：

https://github.com/nghuyong/cscd-ns

下载链接

链接失效反馈

资源简介：

CSCD-NS是首个专为中文母语者设计的中文拼写检查数据集，由腾讯微信人工智能团队创建。该数据集包含40,000个样本，源自中文社交媒体平台，具有大规模和高质量的特点。创建过程中，研究团队采用了一种新颖的方法，通过模拟输入法输入过程生成伪数据，以更真实地反映实际错误分布。CSCD-NS主要用于提升中文母语者的拼写检查技术，解决现有数据集在规模和错误类型上的不足。

提供机构：

腾讯微信人工智能

创建时间：

2022-11-16

AI搜集汇总

数据集介绍

构建方式

CSCD-NS数据集的构建基于中国社交媒体平台微博的真实帖子，这些帖子包含了母语者在输入过程中产生的真实拼写错误。数据集通过从LCSTS数据集中提取句子，并使用错误检测模型过滤出可能包含拼写错误的句子，随后由母语者进行人工标注。最终，数据集包含40,000个标注样本，分为训练集、开发集和测试集，分别包含30,000、5,000和5,000个样本。为了增强数据资源，研究者还提出了一种基于中文输入法（IME）的伪数据生成方法，模拟实际输入过程中的错误分布，生成高质量的伪数据。

特点

CSCD-NS数据集的显著特点是其规模和错误分布。与现有的面向中文学习者的拼写检查数据集相比，CSCD-NS的样本量是其十倍，且包含更多的词级别错误。数据集中的错误主要集中在同音或近音错误，且词级别错误的占比显著高于字级别错误。此外，数据集还提供了详细的音韵和语义标签，便于对错误类型进行深入分析。

使用方法

CSCD-NS数据集可用于训练和评估中文拼写检查模型。研究者可以使用该数据集进行模型训练，并通过开发集和测试集评估模型的性能。数据集的错误分布和标签系统为研究者提供了丰富的信息，帮助他们设计更有效的模型。此外，数据集还支持伪数据的生成，研究者可以通过基于IME的伪数据生成方法，进一步扩充训练数据，提升模型的泛化能力。

背景与挑战

背景概述

随着中文自然语言处理技术的快速发展，中文拼写检查（CSC）任务在学术界和工业界引起了广泛关注。然而，现有的CSC数据集主要面向中文学习者，而针对母语使用者的数据集却极为匮乏。为此，腾讯微信AI团队的研究人员于2024年提出了CSCD-NS数据集，这是首个专门为中文母语者设计的中文拼写检查数据集。该数据集包含40,000个样本，来源于中国社交媒体平台微博，具有显著的错误分布特征，尤其是词级别错误的占比显著高于现有数据集。CSCD-NS的推出填补了这一领域的空白，为中文母语者的拼写检查任务提供了宝贵的资源，推动了相关研究的发展。

当前挑战

CSCD-NS数据集的构建面临多重挑战。首先，中文母语者在输入过程中产生的错误类型与中文学习者有显著差异，尤其是在词级别错误的占比上，这使得现有的拼写检查模型难以直接迁移应用。其次，数据集的构建过程中，研究人员需要模拟输入法的使用场景，生成高质量的伪数据，以弥补标注数据的不足。此外，现有的生成式模型（如ChatGPT）在处理中文拼写检查任务时，由于严格的字数和发音约束，表现不如BERT等分类模型。这些挑战表明，中文拼写检查任务在母语者场景下仍然存在巨大的改进空间，尤其是在处理词级别错误和复杂上下文理解方面。

常用场景

经典使用场景

CSCD-NS数据集的经典使用场景主要集中在汉语拼写检查（CSC）任务中，尤其是针对母语为汉语的用户。该数据集通过从中国社交媒体平台微博中提取的真实文本，捕捉了母语者在输入过程中常见的拼写错误。这些错误包括同音字错误、词级错误等，为模型提供了丰富的训练样本，使其能够更好地识别和纠正汉语母语者的拼写错误。

实际应用

CSCD-NS数据集在实际应用中具有广泛的前景，特别是在中文输入法、文本编辑器和自动校对系统中。通过训练基于该数据集的拼写检查模型，可以显著提高中文输入法的纠错能力，减少用户在输入过程中的拼写错误。此外，该数据集还可用于开发智能写作辅助工具，帮助用户在撰写文档时自动检测和纠正拼写错误，提升文本质量。

衍生相关工作

CSCD-NS数据集的发布激发了大量相关研究工作，尤其是在汉语拼写检查模型的改进和优化方面。许多研究者基于该数据集提出了新的模型和方法，例如通过输入法模拟生成高质量伪数据的方法，以及针对词级错误的专门处理技术。此外，该数据集还推动了对大语言模型（如ChatGPT和GPT-4）在拼写检查任务中表现的研究，揭示了生成模型在处理拼写错误时的局限性，并为未来的研究指明了方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部，位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望，最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明，马达加斯加岛面积591,128.68平方千米，其中马达加斯加本岛面积589,015.06平方千米，周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛，是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形，南北向长1,572千米；南北窄，中部宽，最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米，周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区，119个县。22个区分别为：阿那拉芒加区，第亚那区，上马齐亚特拉区，博爱尼区，阿齐那那那区，阿齐莫-安德列发那区，萨瓦区，伊达西区，法基南卡拉塔区，邦古拉法区，索非亚区，贝齐博卡区，梅拉基区，阿拉奥特拉-曼古罗区，阿那拉兰基罗富区，阿莫罗尼马尼亚区，法土法韦-非图韦那尼区，阿齐莫-阿齐那那那区，伊霍罗贝区，美那贝区，安德罗伊区和阿诺西区。首都安塔那那利佛（Antananarivo）位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山，其主峰马鲁穆库特鲁山（Maromokotro）海拔2,876米，是全国最高峰。马达加斯加自然景观垂直地带性分异显著，是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物，其中包括马达加斯加特有物种狐猴（Lemur catta）、马达加斯加国树猴面包树（Adansonia digitata L.）等。

国家对地观测科学数据中心收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center，格式包括Fortran (.DAT)和JSON，数据集大小为81MB（压缩）和450MB（未压缩），记录数约750,000条，每日更新。

github 收录

UCM-Captions, Sydney-Captions, RSICD, RSITMD, NWPU-Captions, RS5M, SkyScript

UCM-Captions: 包含613张图像，分辨率为256×256。Sydney-Captions: 包含2,100张图像，分辨率为500×500。RSICD: 包含10,921张图像，分辨率为224×224。RSITMD: 包含4,743张图像，分辨率为256×256。NWPU-Captions: 包含31,500张图像，分辨率为256×256。RS5M: 包含超过500万张图像，分辨率为所有可能的分辨率。SkyScript: 包含520万张图像，分辨率为所有可能的分辨率。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像，这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景，如学校、停车场、道路和游乐场，在不同的光照条件下，包括白天和夜晚。

github 收录