weibo命名实体识别数据集
收藏魔搭社区2026-05-23 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/weibo_ner
下载链接
链接失效反馈官方服务:
资源简介:
# weibo命名实体识别数据集
## 数据集概述
weibo数据集是面向社交媒体的中文命名实体识别数据集。
### 数据集简介
本数据集包括训练集(1350)、验证集(269)、测试集(270),实体类型包括地缘政治实体(GPE.NAM)、地名(LOC.NAM)、机构名(ORG.NAM)、人名(PER.NAM)及其对应的代指(以NOM为结尾)。
### 数据集的格式和结构
数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下:
```
人 O
生 O
如 O
戏 O
, O
导 B-PER.NOM
演 I-PER.NOM
是 O
自 O
己 O
蜡 O
烛 O
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```bib
@inproceedings{peng-dredze-2015-named,
title = "Named Entity Recognition for {C}hinese Social Media with Jointly Trained Embeddings",
author = "Peng, Nanyun and
Dredze, Mark",
booktitle = "Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2015",
address = "Lisbon, Portugal",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D15-1064",
doi = "10.18653/v1/D15-1064",
pages = "548--554",
}
@inproceedings{peng-dredze-2016-improving,
title = "Improving Named Entity Recognition for {C}hinese Social Media with Word Segmentation Representation Learning",
author = "Peng, Nanyun and
Dredze, Mark",
booktitle = "Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = aug,
year = "2016",
address = "Berlin, Germany",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P16-2025",
doi = "10.18653/v1/P16-2025",
pages = "149--155",
}
```
# 微博命名实体识别数据集
## 数据集概述
微博数据集是面向社交媒体场景的中文命名实体识别数据集。
### 数据集简介
本数据集包含训练集(1350条样本)、验证集(269条样本)、测试集(270条样本),实体类型涵盖地缘政治实体(GPE.NAM)、地名(LOC.NAM)、机构名(ORG.NAM)、人名(PER.NAM)及其对应的代指实体(以NOM作为后缀)。
### 数据集的格式与结构
本数据集采用CoNLL标准格式进行组织,数据分为两列:第一列为输入语句的分词结果,第二列为各分词对应的命名实体类型标签。具体示例如下:
人 O
生 O
如 O
戏 O
, O
导 B-PER.NOM
演 I-PER.NOM
是 O
自 O
己 O
蜡 O
烛 O
## 数据集版权信息
本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)进行授权。
## 引用方式
bib
@inproceedings{peng-dredze-2015-named,
title = "Named Entity Recognition for {C}hinese Social Media with Jointly Trained Embeddings",
author = "Peng, Nanyun and
Dredze, Mark",
booktitle = "Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2015",
address = "Lisbon, Portugal",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D15-1064",
doi = "10.18653/v1/D15-1064",
pages = "548--554",
}
@inproceedings{peng-dredze-2016-improving,
title = "Improving Named Entity Recognition for {C}hinese Social Media with Word Segmentation Representation Learning",
author = "Peng, Nanyun and
Dredze, Mark",
booktitle = "Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = aug,
year = "2016",
address = "Berlin, Germany",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P16-2025",
doi = "10.18653/v1/P16-2025",
pages = "149--155",
}
提供机构:
maas
创建时间:
2022-10-17
搜集汇总
数据集介绍

背景与挑战
背景概述
weibo命名实体识别数据集是一个面向社交媒体(微博)的中文命名实体识别数据集,包含训练集、验证集和测试集,共计约1889条样本。数据采用conll标准格式,标注了地缘政治实体、地名、机构名、人名及其代指等多种实体类型,专门用于中文社交媒体的命名实体识别任务研究。
以上内容由遇见数据集搜集并总结生成



