nbroad/company_names
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nbroad/company_names
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-ORG
'2': I-ORG
splits:
- name: train
num_bytes: 38290753.896397285
num_examples: 102018
- name: validation
num_bytes: 4119595.5165972123
num_examples: 14160
- name: test
num_bytes: 8265189.976605416
num_examples: 25514
download_size: 14225607
dataset_size: 50675539.38959991
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征:
- 名称:tokens,类型为字符串序列
- 名称:ner_tags(命名实体识别标签序列),类型为类别标签,其类别映射关系如下:
'0': O(非实体标记)
'1': B-ORG(组织实体起始标记)
'2': I-ORG(组织实体内部延续标记)
数据集划分:
- 划分名称:train(训练集),数据字节数:38290753.896397285,样本数量:102018
- 划分名称:validation(验证集),数据字节数:4119595.5165972123,样本数量:14160
- 划分名称:test(测试集),数据字节数:8265189.976605416,样本数量:25514
下载总大小:14225607
数据集总大小:50675539.38959991
配置项:
- 配置名称:default(默认配置),对应数据文件:
- 划分train:数据路径为data/train-*
- 划分validation:数据路径为data/validation-*
- 划分test:数据路径为data/test-*
提供机构:
nbroad
原始信息汇总
数据集概述
特征
- tokens: 序列类型,字符串。
- ner_tags: 序列类型,包含类别标签,标签名称如下:
- 0: O
- 1: B-ORG
- 2: I-ORG
数据分割
- train:
- 字节数: 38290753.896397285
- 样本数: 102018
- validation:
- 字节数: 4119595.5165972123
- 样本数: 14160
- test:
- 字节数: 8265189.976605416
- 样本数: 25514
数据大小
- 下载大小: 14225607 字节
- 数据集大小: 50675539.38959991 字节
配置
- 默认配置:
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
- 测试数据路径: data/test-*
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,公司名称识别是实体识别任务的重要分支。该数据集通过系统化的数据收集与标注流程构建而成,涵盖了超过十万条公司名称实例。原始文本经过分词处理,形成连续的词元序列,并由专业标注人员依据命名实体识别标准进行标注,区分了机构实体的起始与内部位置。数据集被划分为训练、验证与测试三个子集,确保了模型开发与评估的完整性。
使用方法
研究人员可利用该数据集训练命名实体识别模型,特别是针对机构名称的抽取任务。通过加载标准化的数据分割,用户能够直接进行模型训练、验证与测试。数据集兼容常见的深度学习库,如Hugging Face Transformers,支持序列标注任务的端到端流程。在实际应用中,它可用于增强信息提取系统,提升对公司实体的识别准确率。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别(NER)作为信息抽取的关键任务,长期以来致力于从非结构化文本中精准定位并分类实体。公司名称识别作为NER的重要分支,对金融分析、商业智能和知识图谱构建具有显著价值。数据集nbroad/company_names由独立研究者nbroad于近年创建,其核心研究问题聚焦于从多样化文本语料中准确识别公司实体,旨在提升模型对商业实体的辨识能力,为下游应用提供高质量标注数据,推动了领域内实体识别技术的实用化进程。
当前挑战
公司名称识别面临多重挑战:在领域问题层面,公司名称常呈现高度多样性,包含缩写、别名、多语言混合及复杂结构,易与普通名词混淆,且上下文依赖性强,要求模型具备深层语义理解能力;在构建过程中,数据标注需应对实体边界模糊、嵌套实体及标注一致性维护等难题,同时确保数据覆盖不同行业和地域以增强泛化性,这对标注规范设计与质量控制提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,命名实体识别是信息抽取的基础任务之一,而公司名称识别作为其重要分支,对金融、法律和商业智能等应用至关重要。nbroad/company_names数据集专门针对公司名称实体标注,提供了大量标注样本,其经典使用场景在于训练和评估命名实体识别模型,特别是针对组织机构实体的精确识别。该数据集通过BIO标注方案,将公司名称区分为开始和内部部分,帮助模型学习实体边界和内部结构,从而提升识别准确率。
解决学术问题
该数据集解决了命名实体识别中组织机构实体识别精度不足的学术研究问题。传统模型在处理复杂公司名称时,常因实体边界模糊或上下文依赖性强而表现不佳。通过提供大规模、高质量的公司名称标注数据,研究者能够开发更先进的序列标注算法,优化实体边界检测和上下文建模,推动自然语言处理技术在实体识别领域的理论进展。
实际应用
在实际应用中,nbroad/company_names数据集被广泛用于构建自动化信息提取系统,例如在金融新闻分析中自动识别提及的公司实体,或在法律文档处理中提取相关企业信息。这些系统能够支持商业智能分析、风险管理和合规检查,提高数据处理效率并减少人工干预,为企业和机构提供可靠的数据支持。
数据集最近研究
最新研究方向
在自然语言处理领域,公司名称识别作为命名实体识别的重要分支,正日益受到学术界与工业界的关注。该数据集聚焦于公司实体标注,为模型训练提供了丰富资源。当前前沿研究围绕多语言跨域适应、低资源场景下的少样本学习以及结合大语言模型的零样本泛化能力展开。热点事件包括全球企业并购浪潮与新兴科技公司涌现,这些动态变化要求识别系统具备实时更新与领域迁移的鲁棒性。其影响深远,不仅提升了金融舆情分析、合规监控的自动化水平,还为知识图谱构建与商业智能决策提供了核心支撑,推动着信息抽取技术向更精准、更智能的方向演进。
以上内容由遇见数据集搜集并总结生成



