公司名语料库(Company-Names-Corpus)
收藏github2024-05-24 更新2024-05-31 收录
下载链接:
https://github.com/wainshine/Company-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
公司名语料库,包含480万条数据,来源于多个词典汇总,已进行数据清洗但仍存有大量badcase,主要用于中文分词和机构名识别等场景。
The Company Name Corpus, comprising 4.8 million entries, is sourced from multiple dictionaries and has undergone data cleaning, though it still contains a significant number of bad cases. It is primarily utilized for scenarios such as Chinese word segmentation and institution name recognition.
创建时间:
2018-10-10
原始信息汇总
公司名语料库(Company-Names-Corpus)概述
数据集基本信息
- 数据大小:480万
- 语料来源:多个词典汇总
- 数据清洗:已清洗,但仍存有大量badcase
相关语料库信息
-
机构名语料库(Organization-Names-Corpus)
- 数据大小:110万
- 语料来源:多个词典汇总
- 数据清洗:已清洗,但仍存有大量badcase
-
公司简称、品牌词等(Company-Shorter-Form)
- 数据大小:28万
- 语料来源:多个词典汇总
- 数据清洗:已清洗,但仍存有大量badcase
数据集更新记录
- 删除了3000余非公司名。 -2018.10.31
- 新增了28万公司简称、品牌词。 -2019.03.23
- 删除了2万余质量不高的公司名、机构名。 -2019.04.15
- 删除了3000余非公司名。 -2019.07.27
- 删除了2万余质量不高的公司名、机构名。 -2019.12.25
- 删除了2万余质量不高的公司名、机构名、简称。 -2020.12.13
- 删除了2万余质量不高的公司名、机构名、简称。 -2021.05.05
- 删除了2万余质量不高的公司名、机构名、简称。 -2022.11.30
数据集整理者
- 由@萌名NameMoe整理
- 最后更新时间:2024.03.27
搜集汇总
数据集介绍

构建方式
公司名语料库(Company-Names-Corpus)的构建基于对海量文本的分词和词频统计,通过大数据和自然语言处理技术,从多个词典中汇总并清洗出480万条公司名称。此过程不仅涉及数据清洗,还包括对非公司名的剔除,以确保语料库的质量和准确性。
特点
该数据集的特点在于其规模庞大且来源广泛,涵盖了多个词典的汇总。尽管经过清洗,仍存在一定数量的badcase,这为后续的进一步优化和应用提供了空间。此外,数据集的动态更新机制确保了其时效性和适用性,反映了最新的公司名称信息。
使用方法
公司名语料库(Company-Names-Corpus)主要用于中文分词和机构名识别等自然语言处理任务。用户可以通过下载该数据集,结合相应的分词工具和算法,进行公司名称的识别和处理。此外,数据集的持续更新也为用户提供了最新的公司名称信息,增强了其实际应用价值。
背景与挑战
背景概述
公司名语料库(Company-Names-Corpus)是由萌名(NameMoe)团队创建的一个专注于公司名称识别与分类的数据集。该数据集的构建始于对海量文本的分词和词频统计,经过数据清洗和标记,最终形成了包含480万条记录的公司名语料库。此数据集不仅为中文分词和机构名识别提供了丰富的资源,还为自然语言处理(NLP)和知识图谱(KG)领域的研究提供了宝贵的数据支持。萌名团队通过此项目,不仅积累了大量的行业词典,还推动了相关技术的实践与应用。
当前挑战
尽管公司名语料库(Company-Names-Corpus)已经过多次数据清洗,但仍存在大量badcase,这为数据的质量和准确性带来了挑战。此外,随着时间的推移,公司名称和简称的更新与变化,使得数据集的维护和更新成为一个持续的挑战。在构建过程中,如何有效剔除非公司名和质量不高的记录,以及如何确保数据集的实时性和全面性,都是该数据集面临的重要问题。
常用场景
经典使用场景
公司名语料库(Company-Names-Corpus)在自然语言处理领域中,主要用于中文分词和机构名识别。通过该数据集,研究人员和开发者可以训练和优化分词算法,从而提高文本处理系统的准确性和效率。此外,该语料库还可用于构建和完善公司名识别模型,帮助系统更精确地识别和分类文本中的公司名称,这在信息检索和数据挖掘中具有重要应用。
衍生相关工作
公司名语料库(Company-Names-Corpus)的发布和维护,催生了一系列相关的经典工作。例如,基于该数据集的研究论文探讨了中文分词和命名实体识别的新方法,推动了自然语言处理技术的发展。此外,该数据集还被用于开发和测试多种商业和开源的分词工具和命名实体识别系统,如HanLP和Jieba等。这些工具在学术界和工业界都得到了广泛应用,进一步证明了该数据集在推动技术进步和实际应用中的重要价值。
数据集最近研究
最新研究方向
在自然语言处理(NLP)领域,公司名语料库(Company-Names-Corpus)的最新研究方向主要集中在提升机构名识别的准确性和效率。随着大数据和人工智能技术的不断发展,研究人员正致力于通过深度学习模型和知识图谱(KG)技术,进一步优化公司名和机构名的分词与识别算法。此外,针对语料库中存在的badcase问题,研究者们也在探索更为精细的数据清洗和标注方法,以提高数据集的质量和应用价值。这些前沿研究不仅有助于提升NLP系统的性能,还对金融、法律和市场分析等多个领域具有重要的实际应用意义。
以上内容由遇见数据集搜集并总结生成



