five

conllpp命名实体识别数据集

收藏
魔搭社区2026-01-05 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/conllpp_ner
下载链接
链接失效反馈
官方服务:
资源简介:
# conllpp命名实体识别数据集 ## 数据集概述 conllpp数据集是conll2003命名实体识别数据集的修正版本,其中测试集中5.38%的句子标签通过人工校验进行修正。 为了保持数据集完整,该数据集同时包括了conll2003的训练集、验证集。 ### 数据集简介 本数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。 ### 数据集的格式和结构 数据格式采用conll标准,NER数据包括两列,第一列输入句中的词划分以及最后一列中每个词对应的命名实体类型标签。一个具体case的例子如下: ``` SOCCER NN I-NP O - : O O JAPAN NNP I-NP B-LOC GET VB I-VP O LUCKY NNP I-NP O WIN NNP I-NP O , , O O CHINA NNP I-NP B-LOC IN IN I-PP O SURPRISE DT I-NP O DEFEAT NN I-NP O . . O O ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International。 ## 引用方式 ```bib @article{wang2019cross, title={CrossWeigh: Training Named Entity Tagger from Imperfect Annotations}, author={Wang, Zihan and Shang, Jingbo and Liu, Liyuan and Lu, Lihao and Liu, Jiacheng and Han, Jiawei}, journal={arXiv preprint arXiv:1909.01441}, year={2019} } ```

# conllpp命名实体识别数据集 ## 数据集概述 conllpp数据集是conll2003命名实体识别数据集的修正版本,其中测试集中5.38%的句子标签经人工校验完成修正。为保障数据集完整性,该数据集同时保留了conll2003的训练集与验证集。 ### 数据集简介 本数据集包含训练集(14041条样本)、验证集(3250条样本)、测试集(3453条样本),实体类型涵盖地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。 ### 数据集的格式和结构 数据格式遵循CoNLL标准,命名实体识别(NER,Named Entity Recognition)数据包含两列:第一列为输入语句的分词结果,最后一列为每个分词对应的命名实体类型标签。以下为具体示例: SOCCER NN I-NP O - : O O JAPAN NNP I-NP B-LOC GET VB I-VP O LUCKY NNP I-NP O WIN NNP I-NP O , , O O CHINA NNP I-NP B-LOC IN IN I-PP O SURPRISE DT I-NP O DEFEAT NN I-NP O . . O O ## 数据集版权信息 知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International) ## 引用方式 bib @article{wang2019cross, title={CrossWeigh:基于不完美标注训练命名实体标注器}, author={Wang, Zihan and Shang, Jingbo and Liu, Liyuan and Lu, Lihao and Liu, Jiacheng and Han, Jiawei}, journal={arXiv preprint arXiv:1909.01441}, year={2019} }
提供机构:
maas
创建时间:
2022-10-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
conllpp命名实体识别数据集是conll2003数据集的修订版本,其测试集中有5.38%的句子经过人工校正。该数据集包含训练、验证和测试集,实体类型涵盖位置、杂项、组织和人物,数据格式遵循CoNLL标准,由词和对应的实体标签组成。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务