nbroad/company_names

Name: nbroad/company_names
Creator: nbroad
Published: 2024-01-13 02:13:13
License: 暂无描述

Hugging Face2024-01-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nbroad/company_names

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': O '1': B-ORG '2': I-ORG splits: - name: train num_bytes: 38290753.896397285 num_examples: 102018 - name: validation num_bytes: 4119595.5165972123 num_examples: 14160 - name: test num_bytes: 8265189.976605416 num_examples: 25514 download_size: 14225607 dataset_size: 50675539.38959991 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

数据集信息：特征： - 名称：tokens，类型为字符串序列 - 名称：ner_tags（命名实体识别标签序列），类型为类别标签，其类别映射关系如下： '0': O（非实体标记） '1': B-ORG（组织实体起始标记） '2': I-ORG（组织实体内部延续标记）数据集划分： - 划分名称：train（训练集），数据字节数：38290753.896397285，样本数量：102018 - 划分名称：validation（验证集），数据字节数：4119595.5165972123，样本数量：14160 - 划分名称：test（测试集），数据字节数：8265189.976605416，样本数量：25514 下载总大小：14225607 数据集总大小：50675539.38959991 配置项： - 配置名称：default（默认配置），对应数据文件： - 划分train：数据路径为data/train-* - 划分validation：数据路径为data/validation-* - 划分test：数据路径为data/test-*

提供机构：

nbroad

原始信息汇总

数据集概述

特征

tokens: 序列类型，字符串。
ner_tags: 序列类型，包含类别标签，标签名称如下：
- 0: O
- 1: B-ORG
- 2: I-ORG

数据分割

train:
- 字节数: 38290753.896397285
- 样本数: 102018
validation:
- 字节数: 4119595.5165972123
- 样本数: 14160
test:
- 字节数: 8265189.976605416
- 样本数: 25514

数据大小

下载大小: 14225607 字节
数据集大小: 50675539.38959991 字节

配置

默认配置:
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
- 测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，公司名称识别是实体识别任务的重要分支。该数据集通过系统化的数据收集与标注流程构建而成，涵盖了超过十万条公司名称实例。原始文本经过分词处理，形成连续的词元序列，并由专业标注人员依据命名实体识别标准进行标注，区分了机构实体的起始与内部位置。数据集被划分为训练、验证与测试三个子集，确保了模型开发与评估的完整性。

使用方法

研究人员可利用该数据集训练命名实体识别模型，特别是针对机构名称的抽取任务。通过加载标准化的数据分割，用户能够直接进行模型训练、验证与测试。数据集兼容常见的深度学习库，如Hugging Face Transformers，支持序列标注任务的端到端流程。在实际应用中，它可用于增强信息提取系统，提升对公司实体的识别准确率。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（NER）作为信息抽取的关键任务，长期以来致力于从非结构化文本中精准定位并分类实体。公司名称识别作为NER的重要分支，对金融分析、商业智能和知识图谱构建具有显著价值。数据集nbroad/company_names由独立研究者nbroad于近年创建，其核心研究问题聚焦于从多样化文本语料中准确识别公司实体，旨在提升模型对商业实体的辨识能力，为下游应用提供高质量标注数据，推动了领域内实体识别技术的实用化进程。

当前挑战

公司名称识别面临多重挑战：在领域问题层面，公司名称常呈现高度多样性，包含缩写、别名、多语言混合及复杂结构，易与普通名词混淆，且上下文依赖性强，要求模型具备深层语义理解能力；在构建过程中，数据标注需应对实体边界模糊、嵌套实体及标注一致性维护等难题，同时确保数据覆盖不同行业和地域以增强泛化性，这对标注规范设计与质量控制提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，命名实体识别是信息抽取的基础任务之一，而公司名称识别作为其重要分支，对金融、法律和商业智能等应用至关重要。nbroad/company_names数据集专门针对公司名称实体标注，提供了大量标注样本，其经典使用场景在于训练和评估命名实体识别模型，特别是针对组织机构实体的精确识别。该数据集通过BIO标注方案，将公司名称区分为开始和内部部分，帮助模型学习实体边界和内部结构，从而提升识别准确率。

解决学术问题

该数据集解决了命名实体识别中组织机构实体识别精度不足的学术研究问题。传统模型在处理复杂公司名称时，常因实体边界模糊或上下文依赖性强而表现不佳。通过提供大规模、高质量的公司名称标注数据，研究者能够开发更先进的序列标注算法，优化实体边界检测和上下文建模，推动自然语言处理技术在实体识别领域的理论进展。

实际应用

在实际应用中，nbroad/company_names数据集被广泛用于构建自动化信息提取系统，例如在金融新闻分析中自动识别提及的公司实体，或在法律文档处理中提取相关企业信息。这些系统能够支持商业智能分析、风险管理和合规检查，提高数据处理效率并减少人工干预，为企业和机构提供可靠的数据支持。

数据集最近研究