qgyd2021/chinese_ner_sft

Name: qgyd2021/chinese_ner_sft
Creator: qgyd2021
Published: 2024-12-05 07:13:04
License: 暂无描述

Hugging Face2024-12-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/qgyd2021/chinese_ner_sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个中文实体识别指令数据集，收集了多个开源的实体识别数据集，并将其制作为sft数据集用于LLM微调。数据集的目的是构建通用实体识别的LLM研究。数据集分为三大类：`{dataset_name}`、`{dataset_name}_template`、`{dataset_name}_prompt`，分别对应实体识别数据集、prompt模板和合成的prompt数据集。数据集涵盖了多种实体类型，如联系人姓名、场景、主旋律、乐器名称、曲风、手机号码、语言、时代、目的地、流行榜单、情绪、出发地点、曲名等。数据集从多个来源收集整理，包括CMeEE、CCKS2019_task1、CLUENER2020、MSRA、NLPCC2018_task4、CCFBDCI、MMC、WeiBo、ECommerce、YouKu、FinanceSina、Resume、Bank、DLNER等。

This dataset is a Chinese named entity recognition (NER) instruction dataset. It collects multiple open-source entity recognition datasets and formats them into an SFT (Supervised Fine-Tuning) dataset for LLM fine-tuning. The purpose of this dataset is to support research on general-purpose entity recognition for large language models (LLMs). The dataset is divided into three categories: `{dataset_name}`, `{dataset_name}_template`, and `{dataset_name}_prompt`, which respectively correspond to the raw entity recognition dataset, prompt templates, and synthesized prompt datasets. It covers a wide range of entity types, including contact names, scenarios, main themes, musical instrument names, musical genres, mobile phone numbers, languages, eras, destinations, popular charts, emotions, departure locations, song titles, etc. The dataset is collected and organized from multiple sources, including CMeEE, CCKS2019_task1, CLUENER2020, MSRA, NLPCC2018_task4, CCFBDCI, MMC, WeiBo, ECommerce, YouKu, FinanceSina, Resume, Bank, DLNER.

提供机构：

qgyd2021

原始信息汇总

中文实体识别指令数据集概述

数据集基本信息

任务类别:
- 实体识别（NER）
- 问答
- 文本生成
- 文本到文本生成
语言: 中文
标签: NER
大小类别: 100M<n<1B
许可证: Apache-2.0

数据集内容

数据集构成:
- {dataset_name}: 原始实体识别数据集。
- {dataset_name}_template: 针对不同数据集主题编写的prompt模板。
- {dataset_name}_prompt: 根据原始数据集和模板合成的prompt数据集。

数据示例

示例内容:
- 包含多个场景下的实体识别示例，如手机智能助手场景，涉及的实体类型包括联系人姓名、场景、主旋律等。
- 示例展示了如何从用户话语中识别并输出关键实体。

数据集来源

数据集列表:

数据集名称	原始数据/项目地址	样本个数	实体类型
CMeEE	CBLUE	20000	儿科疾病, 身体部位, 临床表现, 医疗程序, 等 9 大类医学实体
CCKS2019_task1	Yidu-S4K	1379	解剖部位, 手术, 疾病和诊断, 药物, 实验室检验, 影像检查
CLUENER2020	CLUE	12091	游戏, 组织, 政府, 电影, 人名, 书籍, 公司, 场景, 职位, 地址
MSRA	MSRA	48442	地址, 组织, 人名
NLPCC2018_task4	NLPCC2018	21352	歌手, 歌曲, 主题, 情感, 风格, 目的地, 电话号码, 乐器, 聊系人, 年龄, 热门列表, 自定义目的地, 语种, 场景, 出发地
CCFBDCI	CCFBDCI填写申请表后可下载	15723	LOC、GPE、ORG和PER
MMC	MMC	3498	实体类型
WeiBo	WeiBo	1890	LOC.NAM、LOC.NOM、PER.NAM、ORG.NOM、ORG.NAM、GPE.NAM和PER.NOM
ECommerce	ECommerce	7998	MISC、XH、HPPX和HCCX
YouKu	YouKu		MISC、XH、HPPX和HCCX
FinanceSina	FinanceSina	1579	LOC、GPE、ORG和PER
Resume	Resume	4761	NAME、EDU、LOC、ORG、PRO、TITLE、CONT和RACE
Bank	Bank	10000	BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT
DLNER	DLNER	28897	Location、Thing、Abstract、Organization、Metric、Time、Physical、Person和Term

参考数据来源

参考数据集:
- 包括多个中文NER相关的数据集，如ttxy/cn_ner等。

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个开源实体识别数据集，精心构建而成。具体而言，数据集分为三大类：原始实体识别数据集、针对各数据集编写的prompt模板，以及根据原始数据集和模板合成的prompt数据集。这种结构化的构建方式旨在为大型语言模型（LLM）的微调提供丰富且多样化的训练材料，从而提升模型在通用实体识别任务中的表现。

特点

该数据集的显著特点在于其多样性和针对性。首先，数据集涵盖了多个领域的实体类型，包括医学、社交媒体、电商等，确保了训练数据的广泛覆盖。其次，每个数据集都配有专门的prompt模板，这些模板根据数据集的主题和特点定制，提高了模型的识别准确性。此外，动态生成的prompt数据集进一步增强了训练数据的灵活性和实用性。

使用方法

使用该数据集进行模型训练时，首先需加载相应的原始数据集和prompt模板。随后，根据训练需求，可以选择性地生成和使用prompt数据集。在训练过程中，建议结合具体的任务需求，调整prompt的生成策略，以最大化模型的学习效果。此外，数据集的多样性使得其适用于多种实体识别任务，用户可根据实际应用场景进行选择和配置。

背景与挑战

背景概述

随着自然语言处理（NLP）技术的快速发展，中文实体识别（NER）在信息抽取、问答系统和智能助手等领域扮演着至关重要的角色。qgyd2021/chinese_ner_sft数据集由qgyd2021团队创建，旨在为大型语言模型（LLM）的微调提供高质量的中文NER数据。该数据集整合了多个开源数据集，涵盖了医学、金融、社交媒体等多个领域，旨在构建一个通用的中文实体识别模型。通过精心设计的prompt模板和动态生成的prompt数据，该数据集不仅丰富了实体类型的多样性，还提高了模型的泛化能力，对推动中文NER研究具有重要意义。

当前挑战

尽管qgyd2021/chinese_ner_sft数据集在丰富性和多样性方面表现出色，但其构建过程中仍面临诸多挑战。首先，不同领域的实体类型和标注标准差异较大，如何统一这些标准并确保数据质量是一个重要问题。其次，动态生成prompt数据虽然增加了数据的多样性，但也带来了数据一致性和准确性的挑战。此外，数据集的规模和复杂性使得数据管理和预处理变得尤为复杂，尤其是在处理大量子集和多样的实体类型时。最后，如何有效地利用该数据集进行模型训练，以实现高效且准确的实体识别，仍是研究人员需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，qgyd2021/chinese_ner_sft数据集被广泛应用于中文命名实体识别（NER）任务的模型微调。该数据集通过整合多个开源实体识别数据集，提供了丰富的实体类型和样本，使得研究人员能够训练出更为精准的实体识别模型。其经典使用场景包括但不限于：在智能助手、信息抽取、文本分析等应用中，识别并分类文本中的关键实体，如人名、地名、组织机构名等。

实际应用

在实际应用中，qgyd2021/chinese_ner_sft数据集被用于开发和优化各种智能系统，如智能客服、舆情监控、法律文书分析等。通过识别和分类文本中的实体，这些系统能够更有效地理解和处理用户需求，提升服务质量和决策效率。此外，该数据集还支持企业级应用，如金融领域的风险评估、医疗领域的病历分析等，极大地增强了系统的智能化水平。

衍生相关工作

基于qgyd2021/chinese_ner_sft数据集，研究者们开展了一系列相关工作，包括但不限于：开发新的实体识别算法、优化现有模型的性能、探索跨语言实体识别技术等。例如，有研究利用该数据集进行多任务学习，提升了模型在不同实体类型上的识别能力；还有研究通过对比学习方法，增强了模型在少样本情况下的表现。这些工作不仅丰富了中文NER的研究内容，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集