Weibo NER|命名实体识别数据集|社交媒体数据集
收藏数据集概述:Chinese Named Entity Recognition for Social Media
数据集基本信息
- 数据来源:新浪微博(2013年11月至2014年12月)
- 数据量:1,890条微博消息
- 标注类型:命名实体识别(NER),包含命名提及和名词性提及
- 标注标准:DEFT ERE标注指南
数据版本
- 原始数据:
weiboNER.conll
- 修订数据:
weiboNER_2nd_conll
(修复了名词性提及标注不一致问题)
相关论文与引用
数据集相关论文
bibtex @article{HeS16, author={Hangfeng He and Xu Sun}, title={F-Score Driven Max Margin Neural Network for Named Entity Recognition in Chinese Social Media}, journal={CoRR}, volume={abs/1611.04234}, year={2016} }
工具相关论文
bibtex @inproceedings{peng2015ner, title={Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Processings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)}, pages={548–-554}, year={2015}, File={https://www.aclweb.org/anthology/D15-1064/}, }
@inproceedings{peng2016improving, title={Improving named entity recognition for Chinese social media with word segmentation representation learning}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL)}, volume={2}, pages={149--155}, year={2016}, File={https://www.aclweb.org/anthology/P16-2025/}, }
数据文件
- 训练集:
weiboNER.conll.train
/weiboNER_2nd_conll.train
- 开发集:
weiboNER.conll.dev
/weiboNER_2nd_conll.dev
- 测试集:
weiboNER.conll.test
/weiboNER_2nd_conll.test
数据许可
- 标注数据许可:Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA 3.0)
- 原始微博数据:遵循微博服务条款
实验复现注意事项
- 使用jieba 0.37进行预处理
- 随机数生成器可能影响结果
- 传统词汇特征的使用
- 预训练嵌入向量

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
专精特新“小巨人”合肥企业名单(第一批~第四批)
根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。
合肥数据要素流通平台 收录