five

NER_corpus_chinese

收藏
github2019-06-08 更新2024-05-31 收录
下载链接:
https://github.com/Frances255/NLP_corpus_Chinese
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个中文NER语料集,如人民日报1998版本、MSRA语料、玻森NLP语料等,用于命名实体识别任务。

This dataset encompasses multiple Chinese NER (Named Entity Recognition) corpora, including the People's Daily 1998 edition, MSRA corpus, and Boson NLP corpus, among others, designed for named entity recognition tasks.
创建时间:
2019-04-08
原始信息汇总

NER_corpus_chinese 数据集概述

主要语料

  1. 人民日报1998版本

    • 用途:分词训练语料,可用于NER。
    • 实体标签:/t、/nr、/ns、/nt。
    • 规模:约70万字。
  2. MSRA语料

    • 标注格式:BIO。
    • 实体类型:人名、地名、组织机构名。
    • 规模:约220万字。
  3. 玻森NLP语料

    • 实体类型:时间、人名、地名、组织机构名、公司名、产品名。
    • 规模:约1MB。

其他研究语料

  1. 人民日报2014版
    • 标注格式:较1998版有变化,词性更细致,实体标注包含嵌套关系。
    • 规模:约1750万字。
    • 预处理:较为复杂。

不应公开传播的语料

  1. CCKS2017电子病历实体标注
搜集汇总
数据集介绍
main_image_url
构建方式
NER_corpus_chinese数据集的构建主要汇集了多个来源的中文语料,涵盖了人民日报1998版本、MSRA语料、玻森NLP语料等。其中,人民日报1998版本作为分词训练语料,通过将特定词性标记为实体标签以适用于命名实体识别(NER)。MSRA语料则采用BIO格式进行实体标注,细分为人名、地名、组织机构名三类。而玻森NLP语料虽规模较小,但标注了六类实体,包括时间和三种常见类别,以及公司名和产品名。此外,数据集亦包含人民日报2014版和CCKS2017电子病历实体标注,后者由于涉及隐私,不宜公开传播。
使用方法
使用NER_corpus_chinese数据集时,研究者可根据具体需求选择合适的子集。对于初学者或进行基础研究,可以选择MSRA语料或人民日报1998版本进行分词和实体识别的基础训练。对于需要更细致实体类别标注的研究,则可利用玻森NLP语料。针对高级研究或特定领域应用,可预处理人民日报2014版或使用CCKS2017电子病历实体标注。在使用时,需遵守相关法律法规和数据使用规范,特别是对隐私敏感数据的使用需格外谨慎。
背景与挑战
背景概述
NER_corpus_chinese数据集,作为自然语言处理领域中文实体识别(NER)的重要资源,汇集了多个来源的中文语料,其创建旨在推动中文信息处理技术的发展。该数据集包括了人民日报1998版本、MSRA语料、玻森NLP语料等多个子集,涵盖了从70万至220万字不等的文本规模,标注实体类别丰富,为研究人员提供了宝贵的训练和测试资源。其影响力遍及学术界和产业界,成为中文NER领域不可或缺的基础数据集。
当前挑战
尽管NER_corpus_chinese数据集为中文实体识别研究提供了丰富的语料,但仍面临诸多挑战。首先,不同来源的语料标注格式和实体类别不一致,给数据集的整合与统一带来了困难。其次,人民日报2014版的预处理工作复杂,对研究人员的处理能力提出了较高要求。此外,垂直域NER语料如CCKS2017电子病历实体标注的保密性限制了其广泛应用,为特定领域的研究带来了障碍。这些挑战不仅考验着研究人员的创新能力,也制约了数据集在更广泛领域的应用潜力。
常用场景
经典使用场景
在自然语言处理领域,实体识别(NER)是文本挖掘与信息提取任务中的一项基本技术。NER_corpus_chinese数据集作为中文实体识别研究的重要资源,其经典使用场景在于提供标注详尽的中文文本,以供训练和评估实体识别模型。该数据集包含了人民日报、MSRA和玻森NLP等版本的语料,涵盖了人名、地名、组织机构名等多种实体类型,使得研究者可以在此基础之上构建和优化识别算法。
解决学术问题
NER_corpus_chinese数据集有效解决了中文实体识别研究中缺乏大规模标注数据的问题。通过提供不同规模和标注粒度的语料,该数据集不仅有助于提高实体识别模型的准确度和鲁棒性,而且促进了实体类型标注体系的研究,为学术研究提供了可靠的数据支撑,对推动中文信息处理技术的发展具有重要的意义和影响。
实际应用
在实际应用中,NER_corpus_chinese数据集的应用场景广泛,例如在信息检索、问答系统、自动摘要等任务中,能够辅助系统准确理解文本中的关键信息,从而提升应用的整体性能。此外,它也常被用于构建智能客服、内容审核等商业智能系统,助力企业实现智能化升级。
数据集最近研究
最新研究方向
在自然语言处理领域,命名实体识别(NER)是识别文本中具有特定意义的实体的技术。NER_corpus_chinese数据集为此领域提供了丰富的中文语料资源。目前,该数据集的最新研究方向集中于细粒度实体识别,特别是对嵌套实体和复杂实体关系的标注与识别。研究者们正致力于开发能够处理大规模数据,如人民日报2014版语料的高效算法,以及探索垂直域NER,如CCKS2017电子病历实体标注,以提升临床信息提取的准确性。这些研究不仅推动了NER技术的进步,也对医疗信息处理、知识图谱构建等应用产生了深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作