Company-Names-Corpus
收藏github2019-04-19 更新2024-05-31 收录
下载链接:
https://github.com/liueagle/Company-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
公司名语料库,包含480万条数据,可用于中文分词、机构名识别。清洗后仍存有大量badcase。
The company name corpus contains 4.8 million entries and can be used for Chinese word segmentation and organization name recognition. Despite cleaning, a significant number of bad cases still remain.
创建时间:
2019-04-19
原始信息汇总
数据集概述
数据集名称
- 公司名语料库(Company-Names-Corpus)
- 机构名语料库(Organization-Names-Corpus)
- 公司简称、品牌词等(Company-Shorter-Form)
数据集规模
- 公司名语料库:480万条记录
- 机构名语料库:110万条记录
- 公司简称、品牌词等:28万条记录
数据集用途
- 可用于中文分词、机构名识别。
数据集更新记录
- 2018年10月31日:删除3000余非公司名。
- 2019年03月23日:新增28万公司简称、品牌词。
- 2019年04月15日:删除2万余质量不高的公司名、机构名。
数据集状态
- 清洗后仍存有大量badcase。
搜集汇总
数据集介绍

构建方式
公司名语料库(Company-Names-Corpus)的构建主要依托于业余项目“萌名”,通过语料库技术进行数据收集与清洗,不断迭代更新,以确保语料库的质量与实用性。在构建过程中,开发团队专注于从原始数据中剔除非公司名的条目,同时保留大量具有实际应用价值的公司名称,形成了480万条公司名的庞大数据库。
特点
该数据集的特点在于其庞大的规模和清洗过程中对质量把控的重视。尽管在清洗后仍存在一些badcase,但数据集的整体质量得到了保障。此外,该数据集不仅包含公司名,还涵盖了机构名和公司简称、品牌词等,为中文分词、机构名识别等领域提供了丰富的资源。压缩存储的方式也便于用户快速下载与使用。
使用方法
用户在使用公司名语料库时,可以直接下载压缩包,解压后即可获得原始数据。数据集适用于中文自然语言处理中的分词和命名实体识别等任务,特别是对于公司名的识别与提取。用户可以根据具体需求,对数据进行进一步的清洗与处理,以适应不同的应用场景。
背景与挑战
背景概述
Company-Names-Corpus,作为一个业余项目“萌名”的衍生物,其创建旨在为中文分词与机构名识别领域提供一份有力的支持。该语料库自2018年起便开始构建与更新,由@萌名负责整理。其包含480万公司名、110万机构名以及28万公司简称和品牌词,尽管在清洗过程中仍保留了大量的badcase,但这一数据集为相关研究提供了丰富的资源,对中文自然语言处理领域产生了积极影响。
当前挑战
在构建Company-Names-Corpus的过程中,研究人员面临了诸多挑战。首先,如何从大量非结构化数据中提取并清洗出有效的公司名和机构名成为一大难题。其次,随着数据集的不断扩大,如何维持数据质量,避免引入错误数据,成为持续的挑战。此外,尽管该数据集在中文分词和机构名识别上具有应用价值,但所包含的badcase可能对模型的训练和评估造成干扰,这要求研究者在使用时需进行额外的数据清洗和质量控制。
常用场景
经典使用场景
在自然语言处理领域中,Company-Names-Corpus作为一项重要的资源,其经典的使用场景主要在于辅助中文分词和机构名识别任务。通过对大量公司名称的收集与清洗,该数据集为相关算法提供了丰富的训练样本,有效提升了分词的精确度和机构名识别的准确率。
解决学术问题
该数据集解决了中文自然语言处理中对于特定名词识别的难题,尤其是在公司名称这种具有独特结构和语义的名词识别上。其意义在于为学术研究提供了实际的数据支撑,推动了中文命名实体识别技术的发展,对提升自然语言理解的深度和广度具有显著影响。
衍生相关工作
基于Company-Names-Corpus,研究者们衍生出了一系列相关工作,如构建更为高效的公司名称识别模型、扩展数据集以包含更多类型的组织名称,以及探索公司名称与市场行为之间的关联性等研究,进一步拓宽了自然语言处理技术在商业领域的应用边界。
以上内容由遇见数据集搜集并总结生成



