Company-Names-Corpus
收藏github2019-06-27 更新2024-05-31 收录
下载链接:
https://github.com/mqlove/Company-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
公司名语料库,包含480万条数据,用于中文分词和机构名识别。
The company name corpus contains 4.8 million entries, designed for Chinese word segmentation and organization name recognition.
创建时间:
2019-04-23
原始信息汇总
数据集概述
数据集名称
- 公司名语料库(Company-Names-Corpus)
- 机构名语料库(Organization-Names-Corpus)
- 公司简称、品牌词等(Company-Shorter-Form)
数据集规模
- 公司名语料库:480万条记录
- 机构名语料库:110万条记录
- 公司简称、品牌词等:28万条记录
数据集用途
- 适用于中文分词、机构名识别
数据集更新历史
- 2018年10月31日:删除3000余非公司名
- 2019年03月23日:新增28万公司简称、品牌词
- 2019年04月15日:删除2万余质量不高的公司名、机构名
数据集状态
- 清洗后仍存有大量badcase
搜集汇总
数据集介绍

构建方式
公司名语料库(Company-Names-Corpus)的构建,主要依托于业余项目‘萌名’的副产品,其核心目的是为了服务于语料库技术的取名工具。该数据集通过不断清洗和筛选的方式,逐步积累而成,其构建过程中,注重对不相关词汇的剔除,以保证数据集的纯净度。
特点
该数据集具有明显的特点,其规模达到480万条公司名字,同时还包括110万条机构名字和28万条公司简称、品牌词等。尽管在清洗过程中,仍存在大量的badcase,但这并不影响其在中文分词、机构名识别等领域的应用价值。
使用方法
用户在使用该数据集时,需要先解压下载的压缩包,然后根据自身的应用需求,对数据集进行相应的处理和分析。由于数据集规模较大,用户在处理时需要注意内存和计算资源的分配。
背景与挑战
背景概述
公司名语料库(Company-Names-Corpus)作为自然语言处理领域的一个重要资源,其创建旨在服务于中文分词和机构名识别任务。该数据集是业余项目“萌名”的副产品,自2018年起由项目维护者@萌名整理并不断更新,删除非公司名及质量不高的数据,以保持数据集的纯净度和实用性。该语料库包含了480万公司名,以及对应的机构名和公司简称、品牌词等,对中文命名实体识别的研究具有显著的影响力和应用价值。
当前挑战
尽管公司名语料库在构建过程中经过多次清洗,但仍然存在大量的badcase,这对数据集的质量和实际应用造成了挑战。在领域问题解决方面,该数据集面临的挑战包括如何更精确地识别和区分公司名、机构名及其简称,以及如何有效地处理数据集中存在的噪声和错误标注。构建过程中的挑战主要在于数据清洗和处理的复杂性,以及如何维持数据集的动态更新和准确性。
常用场景
经典使用场景
在中文自然语言处理领域,公司名语料库(Company-Names-Corpus)被广泛用于提升分词算法的精确度,特别是在处理诸如公司名称等专有名词时,该数据集提供了丰富的训练样本,助力模型识别并准确切分出文本中的公司名。
解决学术问题
该数据集有效解决了学术研究中机构名识别的难题,尤其是在中文环境下,由于公司名称的多样性和复杂性,传统的分词算法往往难以准确识别。Company-Names-Corpus的引入显著提高了识别的准确率和召回率。
衍生相关工作
基于Company-Names-Corpus,研究人员进一步开展了一系列相关工作,如构建更加完善的机构名识别模型、研究公司名称的语言特征等,推动了中文自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成



