five

company-entities

收藏
Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/sondalex/company-entities
下载链接
链接失效反馈
官方服务:
资源简介:
公司实体数据集是一个包含公司和同名实体的数据集,用于训练命名实体链接系统。该数据集提供了公司的名称、股票代码、Wikidata QIDs和维基百科描述等信息。
创建时间:
2025-10-25
原始信息汇总

公司实体数据集概述

数据集基本信息

  • 用途:用于命名实体链接系统训练
  • 核心内容:包含公司及同音异义实体(如"Apple"作为公司名称与水果名称的对比)
  • 数据来源:维基百科和维基数据
  • 标签分类
    • named-entity-linking
    • wikipedia
    • wikidata
    • natural-language-processing
    • disambiguation
    • cc-by-sa-4.0
    • cc0-1.0
    • mit

文件组成

主要数据文件

  • company-entity.parquet:包含QID、维基数据简短描述、维基百科描述、来源URL和许可证的增强文件
  • assets/aliases.parquet:公司别名的parquet格式文件

辅助文件

  • assets/companies.csv:包含公司名称、股票代码(公共领域股票代码)和QID
  • assets/homonyms.csv:包含替代含义的同音异义实体
  • assets/aliases.csv:公司别名
  • assets/licences.csv:将QID映射到许可证(主要是CC BY-SA 4.0)

许可证信息

  • company-entity.parquet:采用CC BY-SA 4.0许可证
  • assets/homonyms.csvassets/licenses.csvassets/aliases.csvaliases.parquetassets/companies.csv:均采用CC0 1.0许可证
  • 代码:采用MIT许可证

数据更新时间

  • 描述信息下载时间:2025-10-29 UTC+1
搜集汇总
数据集介绍
main_image_url
构建方式
在命名实体链接研究领域,该数据集通过系统化整合维基百科与维基数据资源构建而成。其核心数据来源于公开的维基百科描述文本,采用自动化流程提取企业实体及其同名词条,并关联对应的 Wikidata QID 标识符。构建过程中严格遵循知识共享许可协议,原始企业数据与同名词表采用 CC0 许可,而包含维基百科描述的增强文件则遵循 CC BY-SA 4.0 协议,确保了数据来源的合法性与可追溯性。
特点
该数据集最显著的特征在于其精心设计的实体消歧架构,专门针对企业名称与同义实体间的语义混淆问题。数据集不仅涵盖标准企业名称和股票代码,还系统收录了具有多重含义的实体别称,例如将科技公司“苹果”与水果名称进行明确区分。每个实体均配备完整的元数据体系,包括维基数据简短描述、详细维基百科摘要及来源链接,为实体消歧任务提供了丰富的语义上下文。
使用方法
对于命名实体链接系统的开发与应用,该数据集提供了即用型的数据支持。研究人员可直接加载标准化的 Parquet 格式文件,利用预构建的企业实体表与别名映射表进行模型训练。数据集支持完整的复现流程,用户可通过指定工具链重新下载最新维基百科描述,并利用内置验证机制确保数据一致性。这种设计使得该数据集既能满足实验复现需求,又能适应持续更新的知识库环境。
背景与挑战
背景概述
随着自然语言处理技术的深入发展,命名实体链接作为信息抽取的关键环节,在知识图谱构建和智能问答系统中具有重要地位。Company-Entities数据集由研究团队于2025年创建,整合了维基百科和维基数据的结构化信息,专注于解决企业实体与同名实体的消歧问题。该数据集通过标注企业名称、股票代码及对应知识库标识符,为实体链接模型提供了高质量的标注数据,显著提升了金融、新闻等领域实体识别的准确率。
当前挑战
在实体链接领域,企业名称常存在多义性挑战,如“苹果”既指向科技公司又指向水果类别。该数据集构建过程中面临实体对齐复杂性的难题,需要精确匹配维基数据标识符与实体描述。数据采集环节需处理不同版权协议的兼容性问题,同时要确保维基百科描述的实时性与准确性,这对数据集的完整性和可靠性提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,命名实体链接任务常面临实体歧义性挑战,Company-Entities数据集通过整合公司实体及其同名词汇的维基数据标识与描述,为构建精准的实体消歧模型提供了结构化训练资源。该数据集典型应用于训练神经网络模型识别文本中如“苹果”这类多义词的具体指代对象,有效支撑实体链接系统在真实语料中的性能优化。
衍生相关工作
基于该数据集衍生的经典研究包括跨模态实体链接框架的构建,如结合文本与知识图谱嵌入的联合学习方法。多项工作通过引入该数据集的同义实体映射,发展了面向低资源语言的零样本实体消歧技术,相关成果已延伸至维基百科实体语义检索、多语言知识图谱融合等创新方向,持续拓展着命名实体理解的技术边界。
数据集最近研究
最新研究方向
在命名实体链接领域,company-entities数据集正推动实体消歧技术向多模态与跨语言方向拓展。当前研究聚焦于利用该数据集构建企业实体知识图谱,结合深度学习模型提升对同形异义词的上下文感知能力,例如区分商业场景中的'Apple'与生物实体。随着大语言模型在信息抽取任务中的广泛应用,该数据集被整合至预训练框架中,显著增强了实体链接系统在金融舆情分析和商业智能决策中的泛化性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作