qgyd2021/chinese_ner_sft|自然语言处理数据集|实体识别数据集
收藏中文实体识别指令数据集概述
数据集基本信息
- 任务类别:
- 实体识别(NER)
- 问答
- 文本生成
- 文本到文本生成
- 语言: 中文
- 标签: NER
- 大小类别: 100M<n<1B
- 许可证: Apache-2.0
数据集内容
- 数据集构成:
{dataset_name}
: 原始实体识别数据集。{dataset_name}_template
: 针对不同数据集主题编写的prompt模板。{dataset_name}_prompt
: 根据原始数据集和模板合成的prompt数据集。
数据示例
- 示例内容:
- 包含多个场景下的实体识别示例,如手机智能助手场景,涉及的实体类型包括联系人姓名、场景、主旋律等。
- 示例展示了如何从用户话语中识别并输出关键实体。
数据集来源
- 数据集列表:
数据集名称 原始数据/项目地址 样本个数 实体类型 CMeEE CBLUE 20000 儿科疾病, 身体部位, 临床表现, 医疗程序, 等 9 大类医学实体 CCKS2019_task1 Yidu-S4K 1379 解剖部位, 手术, 疾病和诊断, 药物, 实验室检验, 影像检查 CLUENER2020 CLUE 12091 游戏, 组织, 政府, 电影, 人名, 书籍, 公司, 场景, 职位, 地址 MSRA MSRA 48442 地址, 组织, 人名 NLPCC2018_task4 NLPCC2018 21352 歌手, 歌曲, 主题, 情感, 风格, 目的地, 电话号码, 乐器, 聊系人, 年龄, 热门列表, 自定义目的地, 语种, 场景, 出发地 CCFBDCI CCFBDCI填写申请表后可下载 15723 LOC、GPE、ORG和PER MMC MMC 3498 实体类型 WeiBo WeiBo 1890 LOC.NAM、LOC.NOM、PER.NAM、ORG.NOM、ORG.NAM、GPE.NAM和PER.NOM ECommerce ECommerce 7998 MISC、XH、HPPX和HCCX YouKu YouKu MISC、XH、HPPX和HCCX FinanceSina FinanceSina 1579 LOC、GPE、ORG和PER Resume Resume 4761 NAME、EDU、LOC、ORG、PRO、TITLE、CONT和RACE Bank Bank 10000 BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT DLNER DLNER 28897 Location、Thing、Abstract、Organization、Metric、Time、Physical、Person和Term
参考数据来源
- 参考数据集:
- 包括多个中文NER相关的数据集,如ttxy/cn_ner等。

ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录