five

Weibo NER

收藏
github2015-09-01 更新2025-02-08 收录
下载链接:
https://github.com/hltcoe/golden-horse
下载链接
链接失效反馈
资源简介:
微博命名实体识别(NER)数据集是社交媒体领域内用于命名实体识别的公开可用资源,数据来源于微博信息。该数据集包含的地缘政治实体、地理位置、机构名称和个人名称等实体类别,相较于微软亚洲研究院(MSRA)的数据集,提供了更为细致的视角。

The Weibo Named Entity Recognition (NER) dataset is an open-access resource in the field of social media, designed for named entity recognition. Derived from microblogging information, this dataset encompasses various entity categories such as geopolitical entities, geographical locations, institutional names, and personal names, offering a more refined perspective compared to the dataset from Microsoft Asia Research Institute (MSRA).
提供机构:
Johns Hopkins University
创建时间:
2015-09-01
原始信息汇总

数据集概述:Chinese Named Entity Recognition for Social Media

数据集基本信息

  • 数据来源:新浪微博(2013年11月至2014年12月)
  • 数据量:1,890条微博消息
  • 标注类型:命名实体识别(NER),包含命名提及和名词性提及
  • 标注标准:DEFT ERE标注指南

数据版本

  • 原始数据weiboNER.conll
  • 修订数据weiboNER_2nd_conll(修复了名词性提及标注不一致问题)

相关论文与引用

数据集相关论文

bibtex @article{HeS16, author={Hangfeng He and Xu Sun}, title={F-Score Driven Max Margin Neural Network for Named Entity Recognition in Chinese Social Media}, journal={CoRR}, volume={abs/1611.04234}, year={2016} }

工具相关论文

bibtex @inproceedings{peng2015ner, title={Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Processings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)}, pages={548–-554}, year={2015}, File={https://www.aclweb.org/anthology/D15-1064/}, }

@inproceedings{peng2016improving, title={Improving named entity recognition for Chinese social media with word segmentation representation learning}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL)}, volume={2}, pages={149--155}, year={2016}, File={https://www.aclweb.org/anthology/P16-2025/}, }

数据文件

  • 训练集:weiboNER.conll.train / weiboNER_2nd_conll.train
  • 开发集:weiboNER.conll.dev / weiboNER_2nd_conll.dev
  • 测试集:weiboNER.conll.test / weiboNER_2nd_conll.test

数据许可

  • 标注数据许可:Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA 3.0)
  • 原始微博数据:遵循微博服务条款

实验复现注意事项

  1. 使用jieba 0.37进行预处理
  2. 随机数生成器可能影响结果
  3. 传统词汇特征的使用
  4. 预训练嵌入向量
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要基于微博平台的社会媒体文本,选取了2013年11月至2014年12月期间的消息,并依据DEFT ERE标注指南进行实体识别的注释,包括命名提及和名义提及两种类型。数据集包含1890条经过精心筛选及标注的微博消息。
特点
Weibo NER数据集的主要特点是包含了微博平台上的自然语言文本,并对其中的命名实体进行了详细标注。此外,数据集还提供了经过修订的标注数据,以及原始和修订后的注释数据,以利于研究者对模型性能的评估和比较。数据集遵循Creative Commons Attribution-ShareAlike 3.0 Unported License发布。
使用方法
使用该数据集时,用户需要首先安装必要的Python模块,如Theano和jieba。数据集提供了两种实验设置的样例命令,分别对应于EMNLP 15和ACL 16的实验配置。用户可以依据提供的命令进行模型的训练和测试,同时,为了提高实验的可重复性,数据集还提供了包括特征和字符位置转换在内的完整文件以及预训练的字符和字符位置嵌入。
背景与挑战
背景概述
Weibo NER数据集是在社交媒体领域对中文命名实体识别(NER)进行研究的重要资源。该数据集由Nanyun Peng和Mark Dredze于2015年创建,选录了2013年11月至2014年12月期间微博平台上的1890条消息,并根据DEFT ERE标注指南进行了详细标注,包含名称和名词性提及两种实体类型。该数据集及其相关研究为社交媒体中文文本的实体识别提供了坚实基础,对自然语言处理领域,特别是中文信息处理技术的发展产生了显著影响。
当前挑战
该数据集在构建和应用过程中面临的主要挑战包括:确保标注质量的一致性,特别是在处理名词性提及方面;社交媒体语言的多样性和动态性对实体识别算法的鲁棒性提出了挑战;此外,实体识别在社交媒体文本中的应用还需考虑隐私和内容版权等问题。针对数据集本身的挑战,研究团队通过更新和修订标注数据,提高了数据集的质量和可用性。
常用场景
经典使用场景
在自然语言处理领域,尤其是中文实体识别研究领域,Weibo NER数据集以其独特的社交媒体背景和详尽的标注信息,成为了经典的使用场景。该数据集采集自微博平台,覆盖了2013年11月至2014年12月期间抽取的1890条微博消息,并根据DEFT ERE标注指南进行了详细的实体标注,包括命名和名义提及两种类型。
解决学术问题
Weibo NER数据集的构建解决了中文社交媒体文本中命名实体识别的学术研究问题。在处理社交媒体语言特性的同时,该数据集帮助研究者克服了中文分词和实体边界模糊等挑战,为中文命名实体识别的研究与模型评估提供了标准化基准。
衍生相关工作
基于Weibo NER数据集,衍生了众多经典研究工作。其中包括Hangfeng He和Xu Sun在2016年提出的F-Score驱动的最大间隔神经网络方法,以及Peng和Dredze在2015年和2016年提出的结合训练嵌入的中文社交媒体命名实体识别方法,这些工作为实体识别领域带来了新的视角和技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作