company-entities

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/sondalex/company-entities

下载链接

链接失效反馈

官方服务：

资源简介：

公司实体数据集是一个包含公司和同名实体的数据集，用于训练命名实体链接系统。该数据集提供了公司的名称、股票代码、Wikidata QIDs和维基百科描述等信息。

创建时间：

2025-10-25

原始信息汇总

公司实体数据集概述

数据集基本信息

用途：用于命名实体链接系统训练
核心内容：包含公司及同音异义实体（如"Apple"作为公司名称与水果名称的对比）
数据来源：维基百科和维基数据
标签分类：
- named-entity-linking
- wikipedia
- wikidata
- natural-language-processing
- disambiguation
- cc-by-sa-4.0
- cc0-1.0
- mit

文件组成

主要数据文件

company-entity.parquet：包含QID、维基数据简短描述、维基百科描述、来源URL和许可证的增强文件
assets/aliases.parquet：公司别名的parquet格式文件

辅助文件

assets/companies.csv：包含公司名称、股票代码（公共领域股票代码）和QID
assets/homonyms.csv：包含替代含义的同音异义实体
assets/aliases.csv：公司别名
assets/licences.csv：将QID映射到许可证（主要是CC BY-SA 4.0）

许可证信息

company-entity.parquet：采用CC BY-SA 4.0许可证
assets/homonyms.csv、assets/licenses.csv、assets/aliases.csv、aliases.parquet和assets/companies.csv：均采用CC0 1.0许可证
代码：采用MIT许可证

数据更新时间

描述信息下载时间：2025-10-29 UTC+1

搜集汇总

数据集介绍

构建方式

在命名实体链接研究领域，该数据集通过系统化整合维基百科与维基数据资源构建而成。其核心数据来源于公开的维基百科描述文本，采用自动化流程提取企业实体及其同名词条，并关联对应的 Wikidata QID 标识符。构建过程中严格遵循知识共享许可协议，原始企业数据与同名词表采用 CC0 许可，而包含维基百科描述的增强文件则遵循 CC BY-SA 4.0 协议，确保了数据来源的合法性与可追溯性。

特点

该数据集最显著的特征在于其精心设计的实体消歧架构，专门针对企业名称与同义实体间的语义混淆问题。数据集不仅涵盖标准企业名称和股票代码，还系统收录了具有多重含义的实体别称，例如将科技公司“苹果”与水果名称进行明确区分。每个实体均配备完整的元数据体系，包括维基数据简短描述、详细维基百科摘要及来源链接，为实体消歧任务提供了丰富的语义上下文。

使用方法

对于命名实体链接系统的开发与应用，该数据集提供了即用型的数据支持。研究人员可直接加载标准化的 Parquet 格式文件，利用预构建的企业实体表与别名映射表进行模型训练。数据集支持完整的复现流程，用户可通过指定工具链重新下载最新维基百科描述，并利用内置验证机制确保数据一致性。这种设计使得该数据集既能满足实验复现需求，又能适应持续更新的知识库环境。

背景与挑战

背景概述

随着自然语言处理技术的深入发展，命名实体链接作为信息抽取的关键环节，在知识图谱构建和智能问答系统中具有重要地位。Company-Entities数据集由研究团队于2025年创建，整合了维基百科和维基数据的结构化信息，专注于解决企业实体与同名实体的消歧问题。该数据集通过标注企业名称、股票代码及对应知识库标识符，为实体链接模型提供了高质量的标注数据，显著提升了金融、新闻等领域实体识别的准确率。

当前挑战

在实体链接领域，企业名称常存在多义性挑战，如“苹果”既指向科技公司又指向水果类别。该数据集构建过程中面临实体对齐复杂性的难题，需要精确匹配维基数据标识符与实体描述。数据采集环节需处理不同版权协议的兼容性问题，同时要确保维基百科描述的实时性与准确性，这对数据集的完整性和可靠性提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，命名实体链接任务常面临实体歧义性挑战，Company-Entities数据集通过整合公司实体及其同名词汇的维基数据标识与描述，为构建精准的实体消歧模型提供了结构化训练资源。该数据集典型应用于训练神经网络模型识别文本中如“苹果”这类多义词的具体指代对象，有效支撑实体链接系统在真实语料中的性能优化。

衍生相关工作

基于该数据集衍生的经典研究包括跨模态实体链接框架的构建，如结合文本与知识图谱嵌入的联合学习方法。多项工作通过引入该数据集的同义实体映射，发展了面向低资源语言的零样本实体消歧技术，相关成果已延伸至维基百科实体语义检索、多语言知识图谱融合等创新方向，持续拓展着命名实体理解的技术边界。

数据集最近研究