qgyd2021/few_shot_ner_sft

Name: qgyd2021/few_shot_ner_sft
Creator: qgyd2021
Published: 2023-12-27 02:25:23
License: 暂无描述

Hugging Face2023-12-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/qgyd2021/few_shot_ner_sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于小样本实体识别的数据集，通过将实体识别任务整理成prompt-response的形式，适用于指令语言模型训练和数据集创建。数据集包含三种实体标注格式：句子重写、json格式和实体类型-实体原始字符串。数据集来源包括多个公开的中文和英文实体识别数据集，如CMeEE、CCKS2019_task1、CLUENER2020等，涵盖了医学、社交媒体、电商等多个领域。

提供机构：

qgyd2021

原始信息汇总

数据集概述

汉语实体识别

数据集名称	样本个数	实体类型	描述	替代数据下载地址
CMeEE	20000	儿科疾病, 身体部位, 临床表现, 医疗程序, 等 9 大类医学实体	医学实体识别任务	nlhappy/CMeEE, Rosenberg/CMeEE-V2
CCKS2019_task1	1379	解剖部位, 手术, 疾病和诊断, 药物, 实验室检验, 影像检查	CCKS2019面向中文电子病历的命名实体识别数据集
CLUENER2020	12091	游戏, 组织, 政府, 电影, 人名, 书籍, 公司, 场景, 职位, 地址	CLUENER2020数据集
MSRA	48442	地址, 组织, 人名	MSRA微软亚洲研究院开源命名实体识别数据集	doushabao4766/msra_ner_k_V3_wc_bioes, msra_ner
NLPCC2018_task4	21352	歌手, 歌曲, 主题, 情感, 风格, 目的地, 电话号码, 乐器, 联系人, 年龄, 热门列表, 自定义目的地, 语种, 场景, 出发地	任务型对话系统数据数据集
CCFBDCI	15723	LOC、GPE、ORG和PER	中文命名实体识别算法鲁棒性评测数据集
MMC	3498	实体类型	瑞金医院MMC人工智能辅助构建知识图谱大赛数据集
WeiBo	1890	LOC.NAM、LOC.NOM、PER.NAM、ORG.NOM、ORG.NAM、GPE.NAM和PER.NOM	社交媒体中文命名实体识别数据集
ECommerce	7998	MISC、XH、HPPX和HCCX	面向电商的命名实体识别数据集
YouKu		TELEVISION、PER、MISC	优酷视频
FinanceSina	1579	LOC、GPE、ORG和PER	新浪财经爬取中文命名实体识别数据集
Resume	4761	NAME、EDU、LOC、ORG、PRO、TITLE、CONT和RACE	中国股市上市公司高管的简历
Bank	10000	BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT	银行借贷数据数据集
DLNER	28897	Location、Thing、Abstract、Organization、Metric、Time、Physical、Person和Term	语篇级命名实体识别数据集
people_daily	train: 20864; valid: 2318; test: 4636;	LOC; ORG; PER;	1998人民日报序列标注	xusenlin/people-daily-ner, peoples_daily_ner, Chinese-NLP-Corpus
conll2012_ontonotesv5_chinese_v4	train: 1.39K, valid: 172; test: 166;	18类: PERSON, NORP, FAC, ORG, GPE, LOC, PRODUCT, DATE, TIME, PERCENT, MONEY, QUANTITY, ORDINAL, CARDINAL, EVENT, WORK_OF_ART, LAW, LANGUAGE,	OntoNotes v5.0是OntoNotes语料库的最终版本	conll2012_ontonotesv5

英语实体识别

数据集名称	样本个数	实体类型	描述	替代数据下载地址
limit	train: 23559; valid: 1000	无实体类型	motion 识别是许多生命形式的基本认知能力之一	limit
conll2003	train: 14K; valid: 3.25K; test: 3.45K	PER, ORG, LOC, MISC	CoNLL-2003	conll2003, conllpp
ncbi_disease	train: 5.43K; valid: 924; test: 941	Disease	该数据集包含 NCBI 疾病语料库的疾病名称和概念注释	ncbi_disease
xglue			XGLUE 是一个新的基准数据集	xglue
plod	train: 1.06M; test: 118K	long; short;	从非结构化文本中检测和提取缩写	batterydata/abbreviation_detection, surrey-nlp/PLOD-filtered
acronym_identification	train: 14K; valid: 1.72K; test: 1.75K;	long; short;	SDU@AAAI-21 的首字母缩写词识别任务	acronym_identification
conll2012_ontonotesv5_english_v4	train: 1.94K, valid: 222; test: 222;	18类: PERSON, NORP, FAC, ORG, GPE, LOC, PRODUCT, DATE, TIME, PERCENT, MONEY, QUANTITY, ORDINAL, CARDINAL, EVENT, WORK_OF_ART, LAW, LANGUAGE,	OntoNotes v5.0是OntoNotes语料库的最终版本	conll2012_ontonotesv5
conll2012_ontonotesv5_english_v12	train: 10.5K, valid: 1.37K; test: 1.2K;	18类: PERSON, NORP, FAC, ORG, GPE, LOC, PRODUCT, DATE, TIME, PERCENT, MONEY, QUANTITY, ORDINAL, CARDINAL, EVENT, WORK_OF_ART, LAW, LANGUAGE,	OntoNotes v5.0是OntoNotes语料库的最终版本	conll2012_ontonotesv5
wnut_17	train: 3.39K, valid: 1.01K, test: 1.29K,	corporation, creative-work, group, location, person, product	WNUT 17：新兴和稀有实体识别	wnut_17, tner/wnut2017
few_nerd	train: 132K; valid: 18.8K; test: 37.6K;	(art, building, event, location, organization, other, person, product); (art-broadcastprogram, art-film, ...)	Few-NERD 是一个大规模、细粒度手动注释的命名实体识别数据集	DFKI-SLT/few-nerd
BLURB			BLURB 是生物医学自然语言处理资源的集合	EMBO/BLURB
bc2gm	train: 12.5K; valid: 2.5K; test: 5K;	gene	基因提及检测	bc2gm_corpus
bc4chemd_ner	10K	Chemical	它是 10,000 条 PubMed 摘要的集合	drAbreu/bc4chemd_ner
pet	500	Actor; Activity; Activity Data; Further Specification; XOR Gateway; Condition Specification; AND Gateway;	PET：用于从自然语言文本中提取过程的新数据集	patriziobellan/PET
ipm_nel			数据

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，命名实体识别任务常面临标注数据稀缺的挑战。本数据集通过整合多个公开实体识别语料，如CMeEE、CCKS2019_task1、CLUENER2020等，将其统一转化为指令微调格式。构建过程中，原始标注数据被重新组织为prompt-response对，并精心设计了多种实体标注格式，包括句子重写、JSON输出及类型-文本列表，以适应不同模型的需求。为确保小样本学习效果，每个prompt均融入了n-way n-shot示例，模拟了真实场景下模型需依据有限示例进行推理的情境。

特点

该数据集的核心特征在于其面向小样本学习的指令微调设计。它涵盖了医学、新闻、电商、对话系统等多个垂直领域，实体类型丰富且粒度多样，从粗粒度的疾病、组织到细粒度的产品型号、音乐风格均有涉及。数据呈现形式灵活，支持三种结构化输出，便于不同架构的语言模型进行解析与学习。其prompt构建强调上下文示例的引导作用，旨在提升模型在有限标注数据下的泛化与迁移能力，为跨领域实体识别研究提供了标准化基准。

使用方法

研究人员可将本数据集直接用于指令微调语言模型，以提升其在少样本条件下的实体识别性能。使用前，需根据任务需求选择合适的实体标注格式（如句子重写适用于需定位实体的任务，JSON格式便于程序化处理）。实践时，通常将数据划分为训练集与验证集，通过有监督微调使模型学习从含示例的prompt到结构化响应的映射。对于特定领域，可将少量自有标注数据与本数据集混合训练，再利用微调后的模型进行数据增强，以生成更多标注样本，从而构建更完善的领域专用数据集。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别作为信息抽取的核心任务，旨在从非结构化文本中识别并分类实体，如人名、地名、组织名等。随着深度学习技术的演进，特别是预训练语言模型的兴起，小样本学习成为解决标注数据稀缺问题的关键方向。qgyd2021/few_shot_ner_sft数据集应运而生，由研究者qgyd于2021年构建，专注于将多领域实体识别数据转化为提示-响应格式，以支持基于语言模型的小样本实体识别。该数据集整合了CMeEE、CCKS2019、CLUENER2020等多个知名中文NER数据集，涵盖医学、新闻、电商等多样领域，其核心研究问题在于探索如何通过结构化提示与少量示例，有效引导模型在低资源场景下实现精准实体抽取。这一工作不仅推动了指令微调技术在NER任务中的应用，也为跨领域自适应与数据生成提供了重要基础。

当前挑战

该数据集旨在解决小样本场景下的命名实体识别问题，其核心挑战在于如何通过有限示例让模型准确泛化到未见过的实体类型与领域。具体而言，领域问题的挑战包括实体边界的模糊性、嵌套实体的识别困难，以及细粒度类别间的语义重叠，例如医学文本中疾病与症状的区分。在构建过程中，挑战主要体现在多源数据整合与格式统一上：原始数据集标注规范各异，需转化为一致的提示-响应结构，同时保持实体信息的完整性；提示设计需平衡示例的多样性与控制性，以确保n-way n-shot设置的有效性；此外，不同输出格式如重写、JSON或列表的生成，要求模型具备结构化文本生成能力，这增加了数据构造的复杂性。

常用场景

经典使用场景

在自然语言处理领域，小样本实体识别任务常面临标注数据稀缺的挑战。该数据集通过将多个实体识别数据集统一转化为提示-响应对的形式，为基于语言模型的小样本实体识别提供了标准化的训练资源。其经典使用场景在于，研究者可利用这些结构化的提示示例，指导模型在仅有少量标注样本的新领域或新实体类型上快速适应，实现高效的少样本迁移学习。

实际应用

在实际应用层面，该数据集为构建特定领域的智能信息处理系统提供了有力支持。例如，在医疗健康领域，可借助其包含的医学实体标注示例，快速构建用于抽取电子病历中疾病、药物、手术等关键信息的模型。在电商与金融领域，其提供的商品、品牌等实体识别能力，可直接应用于商品自动分类、舆情监控与风险识别等业务场景，显著降低领域数据标注的成本与周期。

衍生相关工作

围绕该数据集所构建的小样本实体识别范式，已衍生出一系列经典研究工作。这些工作主要集中于探索更高效的提示构建策略、研究不同指令格式对模型性能的影响，以及开发能够融合多源、多格式标注信息的统一学习框架。此外，基于该数据集进行的基准测试也催生了众多针对少样本场景的模型适配与优化算法，持续推动着低资源自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集