chinese_text_correction|文本纠错数据集|中文处理数据集
收藏中文真实场景文本纠错数据集
数据集概述
该数据集包含中文真实场景下的文本纠错数据,包括拼写纠错和语法纠错。数据集涵盖多个领域,如汽车、医疗、新闻、游戏、法律、政府等。
数据集内容
拼写纠错数据
- lemon_*.tsv:各领域拼写纠错数据集,包括汽车、医疗、新闻、游戏等领域。
- ec_*.tsv:法律、医学、政府领域拼写纠错数据集。
- medical_csc.tsv:医学领域拼写纠错数据集。
语法纠错数据
- grammar.tsv:语法纠错数据集,约1500条,已经用gpt4o生成改写后的结果。
- TextProofreadingCompetition.tsv:真实场景下验证集约2000条,包括约1000条正样本和1000条负样本。
数据集结构
数据字段
source
:原始文本。target
:纠错后的文本。type
:类别,positive
表示原始文本和纠错文本相同,negative
表示不同,需要纠错的。
数据分割
数据集包含多个文件,总计约73328条数据。
贡献者
- shibing624 添加了此数据集。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
The Stack v2
The Stack v2 dataset is a collection of source code in over 600 programming languages.
huggingface 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录