Weibo NER
收藏数据集概述:Chinese Named Entity Recognition for Social Media
数据集基本信息
- 数据来源:新浪微博(2013年11月至2014年12月)
- 数据量:1,890条微博消息
- 标注类型:命名实体识别(NER),包含命名提及和名词性提及
- 标注标准:DEFT ERE标注指南
数据版本
- 原始数据:
weiboNER.conll - 修订数据:
weiboNER_2nd_conll(修复了名词性提及标注不一致问题)
相关论文与引用
数据集相关论文
bibtex @article{HeS16, author={Hangfeng He and Xu Sun}, title={F-Score Driven Max Margin Neural Network for Named Entity Recognition in Chinese Social Media}, journal={CoRR}, volume={abs/1611.04234}, year={2016} }
工具相关论文
bibtex @inproceedings{peng2015ner, title={Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Processings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)}, pages={548–-554}, year={2015}, File={https://www.aclweb.org/anthology/D15-1064/}, }
@inproceedings{peng2016improving, title={Improving named entity recognition for Chinese social media with word segmentation representation learning}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL)}, volume={2}, pages={149--155}, year={2016}, File={https://www.aclweb.org/anthology/P16-2025/}, }
数据文件
- 训练集:
weiboNER.conll.train/weiboNER_2nd_conll.train - 开发集:
weiboNER.conll.dev/weiboNER_2nd_conll.dev - 测试集:
weiboNER.conll.test/weiboNER_2nd_conll.test
数据许可
- 标注数据许可:Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA 3.0)
- 原始微博数据:遵循微博服务条款
实验复现注意事项
- 使用jieba 0.37进行预处理
- 随机数生成器可能影响结果
- 传统词汇特征的使用
- 预训练嵌入向量




