msra, renmin_ribaothe_people_daily
收藏github2023-07-23 更新2024-05-31 收录
下载链接:
https://github.com/caoyujiALgLM/ner_corpus
下载链接
链接失效反馈官方服务:
资源简介:
msra公开的ner数据集:样本分割比例5:5:90。人民日报的ner数据集:样本分割比例5:5:90。
The MSRA open NER dataset: sample split ratio 5:5:90. The People's Daily NER dataset: sample split ratio 5:5:90.
创建时间:
2019-05-14
原始信息汇总
ner_corpus 数据集概述
数据集组成
1. msra 数据集
- 文件结构:
dev.bio.txt: 开发集test.bio.txt: 测试集train.bio.txt: 训练集train.txt: 原始数据
- 样本分割比例: 5:5:90
2. 人民日报数据集
- 文件结构:
dev.bio.txt: 开发集test.bio.txt: 测试集train.bio.txt: 训练集train.txt: 原始数据
- 样本分割比例: 5:5:90
脚本工具
1. 数据集样本分割脚本
msra.py: msra 数据集样本分割脚本renmin.py: 人民日报数据集样本分割脚本
2. 标注方法转换脚本
sigma_transformer.py: 支持 BIO、BMES 等标注方法的转换
脚本使用示例
- 格式转换:
- 命令:
python3.6 src/sigma_transformer.py --src_file=dat/renmin_ribaothe_people_daily/test.bio.txt --mode=bio2bmes
- 命令:
搜集汇总
数据集介绍

构建方式
msra和renmin_ribaothe_people_daily数据集的构建基于中文命名实体识别(NER)任务,分别来源于MSRA(微软亚洲研究院)和《人民日报》的公开数据。数据集通过科学的分割比例进行划分,其中训练集、开发集和测试集的比例为90:5:5,确保了模型训练和评估的平衡性。数据集的原始文本经过BIO标注格式的处理,便于后续的模型训练和评估。
特点
该数据集的特点在于其标注的规范性和广泛的应用场景。MSRA数据集涵盖了丰富的实体类别,适用于多种NER任务;而《人民日报》数据集则以其权威性和高质量的语言数据著称,适用于新闻领域的实体识别。两个数据集均采用BIO标注格式,便于与其他NER工具和模型兼容。此外,数据集还提供了BIO与BMES标注格式的转换脚本,增强了其灵活性和适用性。
使用方法
使用该数据集时,用户可通过提供的Python脚本进行数据格式的转换和样本分割。例如,使用sigma_transformer.py脚本可将BIO格式转换为BMES格式,以适应不同的模型需求。数据集的训练集、开发集和测试集已预先划分,用户可直接用于模型的训练、验证和测试。通过合理利用这些数据,用户能够高效地构建和优化中文NER模型,提升实体识别的准确性和鲁棒性。
背景与挑战
背景概述
msra和renmin_ribaothe_people_daily数据集是中文自然语言处理领域中用于命名实体识别(NER)任务的重要资源。msra数据集由微软亚洲研究院(MSRA)发布,而renmin_ribaothe_people_daily数据集则基于《人民日报》的文本构建。这两个数据集均广泛应用于中文NER模型的训练与评估,推动了中文信息抽取技术的发展。msra数据集以其广泛的实体类别和高质量的标注著称,而renmin_ribaothe_people_daily数据集则因其来源于权威新闻媒体,具有较高的语言规范性和代表性。这些数据集的创建时间可追溯至21世纪初,其核心研究问题在于如何高效准确地识别中文文本中的命名实体,如人名、地名、机构名等。
当前挑战
msra和renmin_ribaothe_people_daily数据集在解决中文NER任务时面临多重挑战。首先,中文语言的复杂性和多样性使得实体边界识别和类别标注变得尤为困难,尤其是对于嵌套实体和长实体。其次,数据集的构建过程中,标注的一致性和准确性是关键挑战,需要大量的人工校对和领域专家的参与。此外,数据分布的不均衡性,如某些实体类别的样本数量较少,可能导致模型训练时的偏差。最后,如何将BIO、BMES等标注格式高效转换并应用于不同的NER模型,也是技术实现中的一大难题。这些挑战不仅影响了模型的性能,也对数据集的扩展和更新提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,msra和renmin_ribaothe_people_daily数据集常被用于训练和评估命名实体识别(NER)模型。这些数据集通过提供大量标注好的文本样本,帮助研究者开发和优化算法,以识别文本中的人名、地名、组织名等实体。
解决学术问题
这些数据集解决了中文命名实体识别中的关键问题,如实体边界的准确划分和实体类别的正确标注。通过提供标准化的训练、开发和测试集,研究者能够系统地评估模型性能,推动NER技术的进步。
衍生相关工作
基于msra和renmin_ribaothe_people_daily数据集,研究者们开发了多种先进的NER模型,如基于深度学习的BiLSTM-CRF和Transformer架构。这些模型不仅在学术界取得了显著成果,也为工业界的实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



