qgyd2021/chinese_ner_sft|自然语言处理数据集|实体识别数据集

hugging_face2024-12-05 更新2024-03-04 收录

自然语言处理

实体识别

下载链接：

https://hf-mirror.com/datasets/qgyd2021/chinese_ner_sft

下载链接

链接失效反馈

资源简介：

该数据集是一个中文实体识别指令数据集，收集了多个开源的实体识别数据集，并将其制作为sft数据集用于LLM微调。数据集的目的是构建通用实体识别的LLM研究。数据集分为三大类：`{dataset_name}`、`{dataset_name}_template`、`{dataset_name}_prompt`，分别对应实体识别数据集、prompt模板和合成的prompt数据集。数据集涵盖了多种实体类型，如联系人姓名、场景、主旋律、乐器名称、曲风、手机号码、语言、时代、目的地、流行榜单、情绪、出发地点、曲名等。数据集从多个来源收集整理，包括CMeEE、CCKS2019_task1、CLUENER2020、MSRA、NLPCC2018_task4、CCFBDCI、MMC、WeiBo、ECommerce、YouKu、FinanceSina、Resume、Bank、DLNER等。

提供机构：

qgyd2021

原始信息汇总

中文实体识别指令数据集概述

数据集基本信息

任务类别:
- 实体识别（NER）
- 问答
- 文本生成
- 文本到文本生成
语言: 中文
标签: NER
大小类别: 100M<n<1B
许可证: Apache-2.0

数据集内容

数据集构成:
- {dataset_name}: 原始实体识别数据集。
- {dataset_name}_template: 针对不同数据集主题编写的prompt模板。
- {dataset_name}_prompt: 根据原始数据集和模板合成的prompt数据集。

数据示例

示例内容:
- 包含多个场景下的实体识别示例，如手机智能助手场景，涉及的实体类型包括联系人姓名、场景、主旋律等。
- 示例展示了如何从用户话语中识别并输出关键实体。

数据集来源

数据集列表:

数据集名称	原始数据/项目地址	样本个数	实体类型
CMeEE	CBLUE	20000	儿科疾病, 身体部位, 临床表现, 医疗程序, 等 9 大类医学实体
CCKS2019_task1	Yidu-S4K	1379	解剖部位, 手术, 疾病和诊断, 药物, 实验室检验, 影像检查
CLUENER2020	CLUE	12091	游戏, 组织, 政府, 电影, 人名, 书籍, 公司, 场景, 职位, 地址
MSRA	MSRA	48442	地址, 组织, 人名
NLPCC2018_task4	NLPCC2018	21352	歌手, 歌曲, 主题, 情感, 风格, 目的地, 电话号码, 乐器, 聊系人, 年龄, 热门列表, 自定义目的地, 语种, 场景, 出发地
CCFBDCI	CCFBDCI填写申请表后可下载	15723	LOC、GPE、ORG和PER
MMC	MMC	3498	实体类型
WeiBo	WeiBo	1890	LOC.NAM、LOC.NOM、PER.NAM、ORG.NOM、ORG.NAM、GPE.NAM和PER.NOM
ECommerce	ECommerce	7998	MISC、XH、HPPX和HCCX
YouKu	YouKu		MISC、XH、HPPX和HCCX
FinanceSina	FinanceSina	1579	LOC、GPE、ORG和PER
Resume	Resume	4761	NAME、EDU、LOC、ORG、PRO、TITLE、CONT和RACE
Bank	Bank	10000	BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT
DLNER	DLNER	28897	Location、Thing、Abstract、Organization、Metric、Time、Physical、Person和Term

参考数据来源

参考数据集:
- 包括多个中文NER相关的数据集，如ttxy/cn_ner等。

AI搜集汇总

数据集介绍

构建方式

该数据集通过整合多个开源实体识别数据集，精心构建而成。具体而言，数据集分为三大类：原始实体识别数据集、针对各数据集编写的prompt模板，以及根据原始数据集和模板合成的prompt数据集。这种结构化的构建方式旨在为大型语言模型（LLM）的微调提供丰富且多样化的训练材料，从而提升模型在通用实体识别任务中的表现。

特点

该数据集的显著特点在于其多样性和针对性。首先，数据集涵盖了多个领域的实体类型，包括医学、社交媒体、电商等，确保了训练数据的广泛覆盖。其次，每个数据集都配有专门的prompt模板，这些模板根据数据集的主题和特点定制，提高了模型的识别准确性。此外，动态生成的prompt数据集进一步增强了训练数据的灵活性和实用性。

使用方法

使用该数据集进行模型训练时，首先需加载相应的原始数据集和prompt模板。随后，根据训练需求，可以选择性地生成和使用prompt数据集。在训练过程中，建议结合具体的任务需求，调整prompt的生成策略，以最大化模型的学习效果。此外，数据集的多样性使得其适用于多种实体识别任务，用户可根据实际应用场景进行选择和配置。

背景与挑战

背景概述

随着自然语言处理（NLP）技术的快速发展，中文实体识别（NER）在信息抽取、问答系统和智能助手等领域扮演着至关重要的角色。qgyd2021/chinese_ner_sft数据集由qgyd2021团队创建，旨在为大型语言模型（LLM）的微调提供高质量的中文NER数据。该数据集整合了多个开源数据集，涵盖了医学、金融、社交媒体等多个领域，旨在构建一个通用的中文实体识别模型。通过精心设计的prompt模板和动态生成的prompt数据，该数据集不仅丰富了实体类型的多样性，还提高了模型的泛化能力，对推动中文NER研究具有重要意义。

当前挑战

尽管qgyd2021/chinese_ner_sft数据集在丰富性和多样性方面表现出色，但其构建过程中仍面临诸多挑战。首先，不同领域的实体类型和标注标准差异较大，如何统一这些标准并确保数据质量是一个重要问题。其次，动态生成prompt数据虽然增加了数据的多样性，但也带来了数据一致性和准确性的挑战。此外，数据集的规模和复杂性使得数据管理和预处理变得尤为复杂，尤其是在处理大量子集和多样的实体类型时。最后，如何有效地利用该数据集进行模型训练，以实现高效且准确的实体识别，仍是研究人员需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，qgyd2021/chinese_ner_sft数据集被广泛应用于中文命名实体识别（NER）任务的模型微调。该数据集通过整合多个开源实体识别数据集，提供了丰富的实体类型和样本，使得研究人员能够训练出更为精准的实体识别模型。其经典使用场景包括但不限于：在智能助手、信息抽取、文本分析等应用中，识别并分类文本中的关键实体，如人名、地名、组织机构名等。

实际应用

在实际应用中，qgyd2021/chinese_ner_sft数据集被用于开发和优化各种智能系统，如智能客服、舆情监控、法律文书分析等。通过识别和分类文本中的实体，这些系统能够更有效地理解和处理用户需求，提升服务质量和决策效率。此外，该数据集还支持企业级应用，如金融领域的风险评估、医疗领域的病历分析等，极大地增强了系统的智能化水平。

衍生相关工作

基于qgyd2021/chinese_ner_sft数据集，研究者们开展了一系列相关工作，包括但不限于：开发新的实体识别算法、优化现有模型的性能、探索跨语言实体识别技术等。例如，有研究利用该数据集进行多任务学习，提升了模型在不同实体类型上的识别能力；还有研究通过对比学习方法，增强了模型在少样本情况下的表现。这些工作不仅丰富了中文NER的研究内容，也为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局（NASA）发布的卫星数据集，主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据，用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

12306车次数据库

本数据库包含12306车次相关的详细信息，如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理，并提供多种格式的数据文件，方便用户根据实际需求调用。

github 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

全国 1∶200 000 数字地质图（公开版）空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录