five

nlpcc_gec

收藏
魔搭社区2025-12-09 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/nlpcc_gec
下载链接
链接失效反馈
官方服务:
资源简介:
# MSRA命名实体识别数据集 ## 数据集概述 MSRA数据集是面向新闻领域的中文命名实体识别数据集。数据集不完整,仅供测试使用。 ### 数据集简介 本数据集包括训练集(46364)、测试集(4365),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG)。 ### 数据集的格式和结构 数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下: ``` 1 O 9 O 9 O 7 O 年 O 1 O 1 O 月 O 1 O 日 O ( O 新 B-ORG 华 I-ORG 社 I-ORG 北 B-LOC 京 I-LOC 1 O 1 O 月 O 1 O 日 O 电 O ) O ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International。 ## 引用方式 ``` @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", } ```

# MSRA命名实体识别数据集 ## 数据集概述 MSRA数据集为面向新闻领域的中文命名实体识别(Named Entity Recognition, NER)数据集,本数据集存在数据完整性缺陷,仅可用于测试场景。 ### 数据集简介 本数据集包含训练集(46364条)与测试集(4365条),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG)三类。 ### 数据集格式与结构 数据采用CoNLL标准格式,数据集分为两列:第一列为输入句子的分词结果,第二列为每个分词对应的命名实体类型标签。以下为一个具体示例: 1 O 9 O 9 O 7 O 年 O 1 O 1 O 月 O 1 O 日 O ( O 新 B-ORG 华 I-ORG 社 I-ORG 北 B-LOC 京 I-LOC 1 O 1 O 月 O 1 O 日 O 电 O ) O ## 数据集版权信息 采用Creative Commons Attribution 4.0 International许可协议。 ## 引用方式 @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", }
提供机构:
maas
创建时间:
2023-06-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作