公司名语料库（Company-Names-Corpus）

github2019-10-28 更新2024-05-31 收录

下载链接：

https://github.com/1192010412/Company-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

公司名语料库，包含480万个公司名数据，来源于多个词典汇总，已进行数据清洗但仍存在一些问题。

The company name corpus contains 4.8 million company name entries, sourced from multiple dictionaries and aggregated. Although data cleaning has been performed, some issues still remain.

创建时间：

2019-10-28

原始信息汇总

公司名语料库（Company-Names-Corpus）

数据大小： 480万
语料来源： 多个词典汇总
数据清洗： 已清洗，但仍存有大量badcase

机构名语料库（Organization-Names-Corpus）

数据大小： 110万
语料来源： 多个词典汇总
数据清洗： 已清洗，但仍存有大量badcase

公司简称、品牌词等（Company-Shorter-Form）

数据大小： 28万
语料来源： 多个词典汇总
数据清洗： 已清洗，但仍存有大量badcase

更新记录

2018.10.31：删除了3000余非公司名
2019.03.23：新增了28万公司简称、品牌词
2019.04.15：删除了2万余质量不高的公司名、机构名
2019.07.27：删除了3000余非公司名

搜集汇总

数据集介绍

构建方式

公司名语料库（Company-Names-Corpus）的构建，是通过汇总多个词典中的公司名称，并经过数据清洗的过程来完成的。该语料库的构建注重于积累和整理中文语境下公司名的用语，旨在为中文分词和机构名识别等自然语言处理任务提供支持。

特点

该数据集的特点在于其庞大的数据规模，共计480万条公司名称数据，为研究者提供了丰富的研究资源。同时，数据集在维护过程中采取只删词不加词的策略，保证了语料库的纯净性和准确性。尽管已经过清洗，但数据集中仍含有一定的badcase，这为模型的鲁棒性训练提供了实际场景。

使用方法

用户在使用公司名语料库时，可以直接下载压缩包，并在解压后得到相应的语料数据。由于数据集包含大量公司名及简称、品牌词等信息，用户需根据自身需求进行筛选和使用。需要注意的是，数据集不定期更新，用户应关注最新版本以获得更准确的数据资源。

背景与挑战

背景概述

公司名语料库（Company-Names-Corpus）作为业余项目“萌名NameMoe”的衍生成果，旨在为中文分词和机构名识别等领域提供支持。该语料库自2018年起不断更新，其数据主要来源于多个词典的汇总，并经过一定的清洗处理。尽管如此，语料库中仍含有不少badcase，体现了数据构建过程中的实际困难。该数据集的创建，对于提升自然语言处理技术，特别是在中文命名实体识别方面，具有重要的参考价值。

当前挑战

该数据集在解决中文分词和机构名识别问题的同时，面临着以下挑战：1）数据质量方面，尽管进行了清洗，但残留的badcase可能对模型的训练和识别准确度造成影响；2）数据构建过程中，如何从众多词典中筛选和整合高质量的公司名成为一大难题；3）随着公司命名方式的多样化，数据集的更新和维护工作亦面临挑战，以保证其时效性和准确性。

常用场景

经典使用场景

在自然语言处理领域，公司名语料库（Company-Names-Corpus）之运用，堪称经典。其作为中文分词与机构名识别的重要资源，为研究者提供了丰富的真实语料，有助于提升模型的识别精度与泛化能力。

衍生相关工作

基于公司名语料库，研究者们衍生出了一系列相关工作，如构建更为复杂的命名实体识别系统、进行公司简称的智能预测等，这些工作进一步拓宽了自然语言处理技术在各领域的应用范围。

数据集最近研究