Company-Names-Corpus
收藏github2020-02-08 更新2024-05-31 收录
下载链接:
https://github.com/feiniaofeiafei/Company-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
公司名语料库,包含480万条数据,来源于多个词典汇总,已进行数据清洗但仍存有badcase。可用于中文分词和机构名识别。
The company name corpus comprises 4.8 million entries, aggregated from multiple dictionaries. Although data cleaning has been performed, some bad cases still remain. This dataset is suitable for Chinese word segmentation and organization name recognition.
创建时间:
2020-02-08
原始信息汇总
公司名语料库(Company-Names-Corpus)概述
数据集信息
公司名语料库
- 数据大小:480万
- 语料来源:多个词典汇总
- 数据清洗:已清洗,但仍存有大量badcase
机构名语料库
- 数据大小:110万
- 语料来源:多个词典汇总
- 数据清洗:已清洗,但仍存有大量badcase
公司简称、品牌词等
- 数据大小:28万
- 语料来源:多个词典汇总
- 数据清洗:已清洗,但仍存有大量badcase
更新记录
- 删除了3000余非公司名。 -2018.10.31
- 新增了28万公司简称、品牌词。 -2019.03.23
- 删除了2万余质量不高的公司名、机构名。 -2019.04.15
- 删除了3000余非公司名。 -2019.07.27
- 删除了2万余质量不高的公司名、机构名。 -2019.12.25
数据集用途
- 可用于中文分词、机构名识别
搜集汇总
数据集介绍

构建方式
公司名语料库(Company-Names-Corpus)的构建,是通过汇总多个词典中的公司名称,进而形成了一个包含480万个公司名的庞大语料库。该语料库的构建过程注重数据的清洗,尽管仍含有一定数量的badcase,但整体质量得到了有效保障。
特点
该数据集的特点在于其庞大的规模和专业性,不仅包含了大量的公司名称,而且涵盖了机构名和公司简称、品牌词等,总计超过600万条数据。数据集持续更新,不断删除不符合质量标准或不相关的名称,以确保数据的相关性和准确性。
使用方法
用户在使用该数据集时,可以直接下载压缩后的文件进行解压,获取未经处理的原始数据。该数据集适用于中文分词、机构名识别等自然语言处理任务,但用户在使用过程中应注意数据的清洗和处理,以消除剩余的badcase带来的影响。
背景与挑战
背景概述
公司名语料库(Company-Names-Corpus)是萌名NameMoe项目的副产品,旨在为中文分词和机构名识别提供支持。该语料库自2018年起由@萌名NameMoe负责整理与更新,其数据的积累与清洗反映了自然语言处理领域对于命名实体识别技术需求的不断增长,对相关研究及产业发展具有积极的推动作用。数据集的构建,不仅丰富了中文自然语言处理领域的数据资源,也为研究人员提供了一个实用工具,以应对实际应用中的命名实体识别问题。
当前挑战
尽管公司名语料库在数据积累和清洗方面已取得一定成果,但仍面临诸多挑战。首先,数据集中存在的badcase对模型的准确性和鲁棒性提出了考验。其次,随着时间和行业的变化,公司名称的更新速度很快,维持数据集的时效性和准确性是一项持续性的挑战。此外,如何高效地整合与更新多个词典来源的数据,确保数据质量,也是构建此类语料库过程中必须面对的问题。
常用场景
经典使用场景
在中文自然语言处理领域,公司名称的识别与提取是信息检索和文本挖掘的关键任务之一。Company-Names-Corpus作为一个专门针对公司名称的语料库,其经典使用场景主要集中于中文分词和机构名识别。通过该语料库,研究者能够训练模型准确识别文本中的公司名称,从而提升文本处理的精确度和效率。
解决学术问题
该数据集有效解决了学术研究中机构名识别准确率不高的问题,尤其是在处理包含大量公司名称的文本时,如何准确提取这些名称对于后续的数据分析和知识发现至关重要。Company-Names-Corpus的构建,为提高中文文本处理质量,降低信息噪音提供了有力支持,对学术研究具有重要的参考价值。
衍生相关工作
基于Company-Names-Corpus,研究者们衍生出了一系列相关工作,包括但不限于构建更为复杂的命名实体识别系统、完善语料库构建方法、以及探索公司在社会网络中的影响力分析等,这些工作进一步推动了中文自然语言处理技术的发展和应用。
以上内容由遇见数据集搜集并总结生成



