five

ner_corpus

收藏
github2023-07-23 更新2024-05-31 收录
下载链接:
https://github.com/gavincaoyuji/ner_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
中文ner标准数据集,包含msra和人民日报两个子数据集,用于命名实体识别任务。

The Chinese NER (Named Entity Recognition) standard dataset includes two sub-datasets: MSRA and People's Daily, designed for the task of named entity recognition.
创建时间:
2019-05-14
原始信息汇总

ner_corpus

中文ner标准数据集

数据集文件介绍

dat/msra

  • 数据集名称: msra公开的ner数据集
  • 样本分割比例: 5:5:90
  • 文件列表:
    • dev.bio.txt: 开发集
    • test.bio.txt: 测试集
    • train.bio.txt: 训练集
    • train.txt: 原始数据

dat/renmin_ribaothe_people_daily

  • 数据集名称: 人民日报的ner数据集
  • 样本分割比例: 5:5:90
  • 文件列表:
    • dev.bio.txt: 开发集
    • test.bio.txt: 测试集
    • train.bio.txt: 训练集
    • train.txt: 原始数据

脚本使用方法

  • 格式转换: 使用脚本 src/sigma_transformer.py 进行格式转换,例如将 test.bio.txt 从 BIO 格式转换为 BMES 格式,命令为:python3.6 src/sigma_transformer.py --src_file=dat/renmin_ribaothe_people_daily/test.bio.txt --mode=bio2bmes
搜集汇总
数据集介绍
main_image_url
构建方式
ner_corpus数据集构建基于两个主要来源:MSRA公开的命名实体识别数据集和人民日报的命名实体识别数据集。这些数据集通过特定的分割脚本进行处理,确保训练集、开发集和测试集的比例分别为90%、5%和5%,以支持模型的训练和评估。此外,数据集还包括用于格式转换的脚本,支持BIO和BMES等标注方法之间的转换,增强了数据集的灵活性和适用性。
特点
ner_corpus数据集的特点在于其多样性和标准化。数据集不仅包含了来自不同来源的文本数据,还提供了多种标注格式的转换功能,使得研究者可以根据需要选择最适合的标注方式。此外,数据集的样本分割比例经过精心设计,确保了模型训练和评估的平衡性,为命名实体识别任务提供了坚实的基础。
使用方法
使用ner_corpus数据集时,研究者首先需要利用提供的脚本对原始数据进行分割和格式转换。通过运行特定的Python脚本,如sigma_transformer.py,可以将数据从BIO格式转换为BMES格式,或进行其他所需的格式调整。这一过程不仅简化了数据预处理步骤,还提高了数据处理的效率,使得研究者能够更专注于模型的设计和优化。
背景与挑战
背景概述
ner_corpus数据集是一个专注于中文命名实体识别(NER)的标准数据集,由多个子数据集组成,包括MSRA和人民日报的NER数据集。该数据集的创建旨在为中文自然语言处理领域的研究者提供一个高质量、标准化的资源,以促进中文文本中命名实体识别技术的发展。MSRA数据集由微软亚洲研究院发布,而人民日报数据集则来源于中国权威媒体人民日报的新闻报道。这些数据集不仅为学术界提供了丰富的研究素材,也为工业界的实际应用奠定了坚实的基础。通过提供训练集、开发集和测试集,ner_corpus数据集支持了从模型训练到性能评估的完整研究流程。
当前挑战
ner_corpus数据集在解决中文命名实体识别问题时面临多重挑战。首先,中文文本的复杂性和多样性使得命名实体的边界识别和分类变得尤为困难,尤其是在处理歧义性和上下文依赖性较强的实体时。其次,数据集的构建过程中,标注的一致性和准确性是核心挑战之一,尤其是在处理大规模文本时,确保每个实体的标注符合标准要求需要大量的人力和时间投入。此外,数据集的样本分割比例(5:5:90)虽然为模型训练和评估提供了基础,但在实际应用中,如何平衡各类实体的分布以避免模型偏差仍是一个亟待解决的问题。最后,不同标注格式(如BIO和BMES)之间的转换虽然通过脚本实现,但在实际使用中仍可能引入误差,影响模型的训练效果。
常用场景
经典使用场景
ner_corpus数据集在自然语言处理领域中被广泛用于命名实体识别(NER)任务。该数据集包含MSRA和人民日报两个子集,分别提供了丰富的标注数据,适用于训练和评估NER模型。通过使用这些数据集,研究人员能够有效地进行实体识别,如人名、地名、组织名等的标注和分类。
解决学术问题
ner_corpus数据集解决了中文命名实体识别中的标注数据稀缺问题。通过提供高质量的标注数据,该数据集为研究人员提供了一个标准化的基准,用于比较不同NER算法的性能。此外,该数据集还支持多种标注格式的转换,如BIO和BMES,进一步促进了NER技术的发展和应用。
衍生相关工作
ner_corpus数据集催生了一系列相关研究工作,特别是在中文NER领域。基于该数据集,研究人员开发了多种先进的NER模型,如基于深度学习的BiLSTM-CRF模型和Transformer模型。这些模型在NER任务中表现出色,推动了中文自然语言处理技术的发展。此外,该数据集还被用于多语言NER研究,促进了跨语言信息抽取技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作