five

synthetic-uner-ner

收藏
Hugging Face2025-11-25 更新2025-11-26 收录
下载链接:
https://huggingface.co/datasets/BramVanroy/synthetic-uner-ner
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含不同数量样本的训练数据集,用于命名实体识别任务,包含人名、组织名和地名三种实体类型,每种类型有开始、继续和其他三种标记。数据集分为多个配置,包括100、1000、10000、1400、200、2000、20000、400、5000、600、800和默认配置。
创建时间:
2025-11-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称: synthetic-uner-ner
  • 存储位置: https://huggingface.co/datasets/BramVanroy/synthetic-uner-ner
  • 任务类型: 命名实体识别(NER)

配置版本

数据集包含12个不同规模的配置版本:

  • 100样本
  • 200样本
  • 400样本
  • 600样本
  • 800样本
  • 1000样本
  • 1400样本
  • 2000样本
  • 5000样本
  • 10000样本
  • 20000样本
  • default(默认配置,对应20000样本)

数据结构

特征字段

  • tokens: 字符串列表,表示文本序列
  • ner_tags: 整数列表,表示对应的命名实体标签

标签体系

采用BIO标注格式,包含7类标签:

  • 0: O(非实体)
  • 1: B-PER(人名开始)
  • 2: I-PER(人名内部)
  • 3: B-ORG(组织机构开始)
  • 4: I-ORG(组织机构内部)
  • 5: B-LOC(地点开始)
  • 6: I-LOC(地点内部)

数据规模

各配置版本的具体数据量:

配置版本 样本数量 数据集大小(字节) 下载大小(字节)
100 100 23,809 8,001
200 200 47,618 12,421
400 400 95,196 19,547
600 600 142,181 27,113
800 800 190,472 33,610
1000 1,000 237,446 39,927
1400 1,400 333,327 51,837
2000 2,000 476,181 67,371
5000 5,000 1,190,454 138,609
10000 10,000 2,380,908 254,217
20000 20,000 4,761,817 580,713
default 20,000 4,761,817 580,713

数据分割

所有配置版本仅包含训练集(train split)

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,命名实体识别任务对标注数据的质量与规模有着严格要求。synthetic-uner-ner数据集通过系统化生成流程构建,采用人工合成文本与自动标注相结合的方式,确保实体标注的准确性与一致性。该数据集涵盖多种实体类型,包括人物、组织与地点,每个样本均经过结构化处理形成标准化的序列标注格式,为模型训练提供可靠基础。
特点
该数据集最显著的特点在于其多尺度配置设计,提供从100到20000条样本的十余种不同规模子集,适应各类计算资源与实验需求。所有子集均采用统一的标注体系,实体标签遵循BIO标注规范,涵盖PER、ORG、LOC三类核心实体。数据以token序列与对应ner_tags的配对形式存储,保证数据结构的高度一致性,便于跨规模比较与迁移学习研究。
使用方法
研究人员可通过HuggingFace数据集库直接加载指定规模的配置,如选择'1000'配置即载入千条训练样本。数据集采用标准特征结构,包含tokens字符串列表与ner_tags标签序列,可直接接入主流深度学习框架进行序列标注模型训练。各规模子集均设有独立下载路径,用户可根据实验需求灵活选择适当数据量,实现从原型验证到大规模训练的无缝过渡。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别作为信息抽取的基础任务,长期面临标注数据稀缺的瓶颈。synthetic-uner-ner数据集通过生成式方法构建,其核心研究问题聚焦于解决低资源场景下的实体标注需求,采用BIO标注体系对人物、组织、地点三类实体进行细粒度标记。该数据集通过规模可配置的合成数据生成机制,为跨领域实体识别模型提供了可扩展的训练资源,显著降低了标注成本对研究进展的制约。
当前挑战
命名实体识别任务需应对实体边界模糊与嵌套结构的固有难题,同时需克服领域专业术语的语义歧义。数据集构建过程中面临合成数据真实性不足的挑战,自动生成的文本可能缺乏自然语言的语言学特征。规模扩展时还需保持标注质量的一致性,避免噪声标注对模型性能产生负面影响,这对数据生成算法的鲁棒性提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,命名实体识别作为信息抽取的核心任务,synthetic-uner-ner数据集通过提供多规模标注语料,成为模型训练与评估的基准工具。其采用BIO标注体系,涵盖人物、组织、地点三类实体,支持从百条到两万条不同数据量的实验需求,常用于序列标注模型的性能验证与比较研究。
衍生相关工作
基于该数据集规模可调的特性,催生了系列数据效率研究,如《Neural Architectures for NER with Limited Training Data》等论文系统探讨了模型架构与数据量的适配关系。其在跨语言迁移学习中的拓展应用,推动了《Zero-Shot Cross-Lingual NER with Transferable Attention》等创新方法的诞生。
数据集最近研究
最新研究方向
在自然语言处理领域,命名实体识别作为信息抽取的核心任务,持续推动着智能系统的语义理解能力发展。synthetic-uner-ner数据集凭借其多尺度配置特性,为低资源场景下的实体标注研究提供了关键实验基础。当前前沿探索聚焦于合成数据与真实语料的融合策略,通过对抗生成网络与迁移学习技术,显著提升模型对人物、机构及地点等实体的泛化识别性能。这一方向不仅呼应了工业界对标注效率的迫切需求,更在跨领域知识迁移与少样本学习等热点议题中展现出深远影响,为构建轻量化、高适应性的实体识别系统奠定了理论与实践基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作