公司名语料库(Company-Names-Corpus)
收藏github2019-10-28 更新2024-05-31 收录
下载链接:
https://github.com/1192010412/Company-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
公司名语料库,包含480万个公司名数据,来源于多个词典汇总,已进行数据清洗但仍存在一些问题。
The company name corpus contains 4.8 million company name entries, sourced from multiple dictionaries and aggregated. Although data cleaning has been performed, some issues still remain.
创建时间:
2019-10-28
原始信息汇总
公司名语料库(Company-Names-Corpus)
- 数据大小: 480万
- 语料来源: 多个词典汇总
- 数据清洗: 已清洗,但仍存有大量badcase
机构名语料库(Organization-Names-Corpus)
- 数据大小: 110万
- 语料来源: 多个词典汇总
- 数据清洗: 已清洗,但仍存有大量badcase
公司简称、品牌词等(Company-Shorter-Form)
- 数据大小: 28万
- 语料来源: 多个词典汇总
- 数据清洗: 已清洗,但仍存有大量badcase
更新记录
- 2018.10.31:删除了3000余非公司名
- 2019.03.23:新增了28万公司简称、品牌词
- 2019.04.15:删除了2万余质量不高的公司名、机构名
- 2019.07.27:删除了3000余非公司名
搜集汇总
数据集介绍

构建方式
公司名语料库(Company-Names-Corpus)的构建,是通过汇总多个词典中的公司名称,并经过数据清洗的过程来完成的。该语料库的构建注重于积累和整理中文语境下公司名的用语,旨在为中文分词和机构名识别等自然语言处理任务提供支持。
特点
该数据集的特点在于其庞大的数据规模,共计480万条公司名称数据,为研究者提供了丰富的研究资源。同时,数据集在维护过程中采取只删词不加词的策略,保证了语料库的纯净性和准确性。尽管已经过清洗,但数据集中仍含有一定的badcase,这为模型的鲁棒性训练提供了实际场景。
使用方法
用户在使用公司名语料库时,可以直接下载压缩包,并在解压后得到相应的语料数据。由于数据集包含大量公司名及简称、品牌词等信息,用户需根据自身需求进行筛选和使用。需要注意的是,数据集不定期更新,用户应关注最新版本以获得更准确的数据资源。
背景与挑战
背景概述
公司名语料库(Company-Names-Corpus)作为业余项目“萌名NameMoe”的衍生成果,旨在为中文分词和机构名识别等领域提供支持。该语料库自2018年起不断更新,其数据主要来源于多个词典的汇总,并经过一定的清洗处理。尽管如此,语料库中仍含有不少badcase,体现了数据构建过程中的实际困难。该数据集的创建,对于提升自然语言处理技术,特别是在中文命名实体识别方面,具有重要的参考价值。
当前挑战
该数据集在解决中文分词和机构名识别问题的同时,面临着以下挑战:1)数据质量方面,尽管进行了清洗,但残留的badcase可能对模型的训练和识别准确度造成影响;2)数据构建过程中,如何从众多词典中筛选和整合高质量的公司名成为一大难题;3)随着公司命名方式的多样化,数据集的更新和维护工作亦面临挑战,以保证其时效性和准确性。
常用场景
经典使用场景
在自然语言处理领域,公司名语料库(Company-Names-Corpus)之运用,堪称经典。其作为中文分词与机构名识别的重要资源,为研究者提供了丰富的真实语料,有助于提升模型的识别精度与泛化能力。
衍生相关工作
基于公司名语料库,研究者们衍生出了一系列相关工作,如构建更为复杂的命名实体识别系统、进行公司简称的智能预测等,这些工作进一步拓宽了自然语言处理技术在各领域的应用范围。
数据集最近研究
最新研究方向
在自然语言处理领域,公司名称的识别与提取是信息抽取任务中的一个关键环节。公司名语料库(Company-Names-Corpus)作为一项业余项目,其丰富的数据资源为中文分词与机构名识别提供了有力支撑。近期研究聚焦于利用深度学习技术,结合该语料库优化命名实体识别模型,以提高对公司名称的准确识别。此外,该语料库在品牌词与公司简称的识别研究中亦显示出其独特价值,对构建更为精确的企业信息数据库具有重要意义。
以上内容由遇见数据集搜集并总结生成



