five

test_conll

收藏
魔搭社区2025-12-29 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/test_conll
下载链接
链接失效反馈
官方服务:
资源简介:
# conllpp命名实体识别数据集 ## 数据集概述 conllpp数据集是conll2003命名实体识别数据集的修正版本,其中测试集中5.38%的句子标签通过人工校验进行修正。 为了保持数据集完整,该数据集同时包括了conll2003的训练集、验证集。 ### 数据集简介 本数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。 ### 数据集的格式和结构 数据格式采用conll标准,NER数据包括两列,第一列输入句中的词划分以及最后一列中每个词对应的命名实体类型标签。一个具体case的例子如下: ``` SOCCER NN I-NP O - : O O JAPAN NNP I-NP B-LOC GET VB I-VP O LUCKY NNP I-NP O WIN NNP I-NP O , , O O CHINA NNP I-NP B-LOC IN IN I-PP O SURPRISE DT I-NP O DEFEAT NN I-NP O . . O O ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International。 ## 引用方式 ```bib @article{wang2019cross, title={CrossWeigh: Training Named Entity Tagger from Imperfect Annotations}, author={Wang, Zihan and Shang, Jingbo and Liu, Liyuan and Lu, Lihao and Liu, Jiacheng and Han, Jiawei}, journal={arXiv preprint arXiv:1909.01441}, year={2019} } ```

# conllpp命名实体识别数据集 ## 数据集概述 conllpp数据集是conll2003命名实体识别数据集的修正版本,其中测试集中5.38%的句子标注经人工校验完成修正。为保障数据集完整性,该数据集同时保留了conll2003的训练集与验证集。 ### 数据集简介 本数据集涵盖训练集(14041条样本)、验证集(3250条样本)、测试集(3453条样本),实体类型包含地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。 ### 数据集格式与结构 数据格式采用Conll标准,命名实体识别(NER,Named Entity Recognition)数据包含两列:第一列为输入文本的分词单元,最后一列为每个分词对应的命名实体类型标签。以下为一个具体示例: SOCCER NN I-NP O - : O O JAPAN NNP I-NP B-LOC GET VB I-VP O LUCKY NNP I-NP O WIN NNP I-NP O , , O O CHINA NNP I-NP B-LOC IN IN I-PP O SURPRISE DT I-NP O DEFEAT NN I-NP O . . O O ## 数据集版权信息 知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International) ## 引用格式 bib @article{wang2019cross, title={CrossWeigh: Training Named Entity Tagger from Imperfect Annotations}, author={Wang, Zihan and Shang, Jingbo and Liu, Liyuan and Lu, Lihao and Liu, Jiacheng and Han, Jiawei}, journal={arXiv preprint arXiv:1909.01441}, year={2019} }
提供机构:
maas
创建时间:
2022-11-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作