five

Weibo NER|命名实体识别数据集|社交媒体数据集

收藏
github2015-09-01 更新2025-02-08 收录
命名实体识别
社交媒体
下载链接:
https://github.com/hltcoe/golden-horse
下载链接
链接失效反馈
资源简介:
微博命名实体识别(NER)数据集是社交媒体领域内用于命名实体识别的公开可用资源,数据来源于微博信息。该数据集包含的地缘政治实体、地理位置、机构名称和个人名称等实体类别,相较于微软亚洲研究院(MSRA)的数据集,提供了更为细致的视角。

The Weibo Named Entity Recognition (NER) dataset is an open-access resource in the field of social media, designed for named entity recognition. Derived from microblogging information, this dataset encompasses various entity categories such as geopolitical entities, geographical locations, institutional names, and personal names, offering a more refined perspective compared to the dataset from Microsoft Asia Research Institute (MSRA).
提供机构:
Johns Hopkins University
创建时间:
2015-09-01
原始信息汇总

数据集概述:Chinese Named Entity Recognition for Social Media

数据集基本信息

  • 数据来源:新浪微博(2013年11月至2014年12月)
  • 数据量:1,890条微博消息
  • 标注类型:命名实体识别(NER),包含命名提及和名词性提及
  • 标注标准:DEFT ERE标注指南

数据版本

  • 原始数据weiboNER.conll
  • 修订数据weiboNER_2nd_conll(修复了名词性提及标注不一致问题)

相关论文与引用

数据集相关论文

bibtex @article{HeS16, author={Hangfeng He and Xu Sun}, title={F-Score Driven Max Margin Neural Network for Named Entity Recognition in Chinese Social Media}, journal={CoRR}, volume={abs/1611.04234}, year={2016} }

工具相关论文

bibtex @inproceedings{peng2015ner, title={Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Processings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)}, pages={548–-554}, year={2015}, File={https://www.aclweb.org/anthology/D15-1064/}, }

@inproceedings{peng2016improving, title={Improving named entity recognition for Chinese social media with word segmentation representation learning}, author={Peng, Nanyun and Dredze, Mark}, booktitle={Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL)}, volume={2}, pages={149--155}, year={2016}, File={https://www.aclweb.org/anthology/P16-2025/}, }

数据文件

  • 训练集:weiboNER.conll.train / weiboNER_2nd_conll.train
  • 开发集:weiboNER.conll.dev / weiboNER_2nd_conll.dev
  • 测试集:weiboNER.conll.test / weiboNER_2nd_conll.test

数据许可

  • 标注数据许可:Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA 3.0)
  • 原始微博数据:遵循微博服务条款

实验复现注意事项

  1. 使用jieba 0.37进行预处理
  2. 随机数生成器可能影响结果
  3. 传统词汇特征的使用
  4. 预训练嵌入向量
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要基于微博平台的社会媒体文本,选取了2013年11月至2014年12月期间的消息,并依据DEFT ERE标注指南进行实体识别的注释,包括命名提及和名义提及两种类型。数据集包含1890条经过精心筛选及标注的微博消息。
特点
Weibo NER数据集的主要特点是包含了微博平台上的自然语言文本,并对其中的命名实体进行了详细标注。此外,数据集还提供了经过修订的标注数据,以及原始和修订后的注释数据,以利于研究者对模型性能的评估和比较。数据集遵循Creative Commons Attribution-ShareAlike 3.0 Unported License发布。
使用方法
使用该数据集时,用户需要首先安装必要的Python模块,如Theano和jieba。数据集提供了两种实验设置的样例命令,分别对应于EMNLP 15和ACL 16的实验配置。用户可以依据提供的命令进行模型的训练和测试,同时,为了提高实验的可重复性,数据集还提供了包括特征和字符位置转换在内的完整文件以及预训练的字符和字符位置嵌入。
背景与挑战
背景概述
Weibo NER数据集是在社交媒体领域对中文命名实体识别(NER)进行研究的重要资源。该数据集由Nanyun Peng和Mark Dredze于2015年创建,选录了2013年11月至2014年12月期间微博平台上的1890条消息,并根据DEFT ERE标注指南进行了详细标注,包含名称和名词性提及两种实体类型。该数据集及其相关研究为社交媒体中文文本的实体识别提供了坚实基础,对自然语言处理领域,特别是中文信息处理技术的发展产生了显著影响。
当前挑战
该数据集在构建和应用过程中面临的主要挑战包括:确保标注质量的一致性,特别是在处理名词性提及方面;社交媒体语言的多样性和动态性对实体识别算法的鲁棒性提出了挑战;此外,实体识别在社交媒体文本中的应用还需考虑隐私和内容版权等问题。针对数据集本身的挑战,研究团队通过更新和修订标注数据,提高了数据集的质量和可用性。
常用场景
经典使用场景
在自然语言处理领域,尤其是中文实体识别研究领域,Weibo NER数据集以其独特的社交媒体背景和详尽的标注信息,成为了经典的使用场景。该数据集采集自微博平台,覆盖了2013年11月至2014年12月期间抽取的1890条微博消息,并根据DEFT ERE标注指南进行了详细的实体标注,包括命名和名义提及两种类型。
解决学术问题
Weibo NER数据集的构建解决了中文社交媒体文本中命名实体识别的学术研究问题。在处理社交媒体语言特性的同时,该数据集帮助研究者克服了中文分词和实体边界模糊等挑战,为中文命名实体识别的研究与模型评估提供了标准化基准。
衍生相关工作
基于Weibo NER数据集,衍生了众多经典研究工作。其中包括Hangfeng He和Xu Sun在2016年提出的F-Score驱动的最大间隔神经网络方法,以及Peng和Dredze在2015年和2016年提出的结合训练嵌入的中文社交媒体命名实体识别方法,这些工作为实体识别领域带来了新的视角和技术路径。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

专精特新“小巨人”合肥企业名单(第一批~第四批)

根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台 收录