中文人名语料库(Chinese-Names-Corpus)|自然语言处理数据集|人名识别数据集
收藏中文人名语料库(Chinese-Names-Corpus)
数据集概述
- 用途:可用于中文分词、人名识别。
- 更新策略:不定期更新,只删词,不加词。
数据集组成
中文常见人名(Chinese_Names_Corpus)
- 规模:120万
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
- 状态:清洗后仍存有少量badcase
中文古代人名(Ancient_Names_Corpus)
- 规模:25万
- 来源:多个人名词典汇总
- 处理:删除了罕见姓氏、带生僻字的人名
- 状态:清洗后仍存有少量badcase
日文人名(Japanese_Names_Corpus)
- 规模:18万
- 来源:从维基百科中提取
- 处理:删除了罕见姓氏、带生僻字的人名
- 状态:清洗后仍存有少量badcase
翻译人名(English_Cn_Name_Corpus)
- 规模:48万
- 来源:多个人名词典汇总
- 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
- 状态:清洗后仍存有少量badcase,尤其是英文地名
中文姓氏(Chinese_Family_Name)
- 规模:1千
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏,复姓只保留了“欧阳”
中文称呼(Chinese_Relationship)
- 规模:5千(称呼词根),18万(中文称呼)
- 来源:多个人名词典汇总
- 处理:删除了部分带贬义的称呼
- 状态:清洗后仍存有大量badcase
成语词典(ChengYu_Corpus)
- 规模:5万
- 来源:多个成语词典汇总
- 状态:清洗后仍存有少量badcase
更新历史
- 删除了1000余非人名。 -2017.08.08
- 删除了5000余非人名。 -2017.11.25
- 新增了18万日文人名。 -2017.12.17
- 删除了1500余非人名(主要是日文地名)。 -2017.12.30

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录