five

leondz/wnut_17|命名实体识别数据集|文本分类数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
命名实体识别
文本分类
下载链接:
https://hf-mirror.com/datasets/leondz/wnut_17
下载链接
链接失效反馈
资源简介:
WNUT 17数据集是一个用于命名实体识别(NER)任务的数据集,专注于识别在噪声文本中出现的新颖和罕见的实体。数据集包含训练集、验证集和测试集,分别包含3394、1009和1287个样本。每个样本包含ID、文本的tokens以及对应的NER标签。NER标签采用IOB2格式,涵盖了多种实体类型,如公司、创意作品、团体、地点、人物和产品等。数据集的创建目的是为了提供新兴和罕见实体的定义,并基于此提供检测这些实体的数据集。
提供机构:
leondz
原始信息汇总

数据集概述

数据集名称

  • 名称: WNUT 17
  • 别名: wnut_17

数据集描述

  • 任务: 识别新兴和罕见实体
  • 语言: 英语(en)
  • 许可证: CC-BY-4.0
  • 数据来源: 原始数据
  • 数据类型: 单语种
  • 规模: 1K<n<10K
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别

数据集结构

  • 特征:
    • id: 字符串类型,示例ID
    • tokens: 字符串序列,示例文本的词元
    • ner_tags: 类别标签序列,词元的NER标签,使用IOB2格式
  • 分割:
    • train: 3394个示例
    • validation: 1009个示例
    • test: 1287个示例

数据集创建

  • 注释创建者: 众包
  • 语言创建者: 发现

数据集使用注意事项

  • 引用信息:

    @inproceedings{derczynski-etal-2017-results, title = "Results of the {WNUT}2017 Shared Task on Novel and Emerging Entity Recognition", author = "Derczynski, Leon and Nichols, Eric and van Erp, Marieke and Limsopatham, Nut", booktitle = "Proceedings of the 3rd Workshop on Noisy User-generated Text", month = sep, year = "2017", address = "Copenhagen, Denmark", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/W17-4418", doi = "10.18653/v1/W17-4418", pages = "140--147", abstract = "This shared task focuses on identifying unusual, previously-unseen entities in the context of emerging discussions. Named entities form the basis of many modern approaches to other tasks (like event clustering and summarization), but recall on them is a real problem in noisy text - even among annotators. This drop tends to be due to novel entities and surface forms. Take for example the tweet {``}so.. kktny in 30 mins?!{} {--} even human experts find the entity {`}kktny{} hard to detect and resolve. The goal of this task is to provide a definition of emerging and of rare entities, and based on that, also datasets for detecting these entities. The task as described in this paper evaluated the ability of participating entries to detect and classify novel and emerging named entities in noisy text.", }

AI搜集汇总
数据集介绍
main_image_url
构建方式
WNUT 17数据集的构建旨在识别和分类文本中的新兴和罕见实体,该数据集通过众包方式对原始文本进行标注,标注内容包含文本中的命名实体及其类别。数据集涵盖了 corporation、creative-work、group、location、person 和 product 等类别,并采用 IOB2 格式的标注体系。构建过程中,数据集分为训练集、验证集和测试集三个部分,以确保模型的训练和评估质量。
特点
该数据集的特点在于其专注于新兴和罕见实体的识别,这对于提升命名实体识别在噪声文本中的召回率具有重要意义。数据集的多语言性单一,为英语,且规模适中,包含小于10,000个样本。此外,数据集采用 cc-by-4.0 许可,允许较为宽松的使用和分享。
使用方法
使用该数据集时,用户需要首先了解其数据结构,包括 id、tokens 和 ner_tags 三个字段。tokens 字段包含文本的分词,ner_tags 字段则包含相应的命名实体标签。用户可以利用这些信息对模型进行训练、验证和测试。数据集可通过 HuggingFace 的数据集库进行下载和加载,便于在自然语言处理任务中进行应用。
背景与挑战
背景概述
WNUT 17数据集,全称为 Emerging and Rare entity recognition,是在2017年由Leon Derczynski等研究人员发起的一个共享任务。该数据集的研究背景主要针对在噪声文本中识别新型和罕见的命名实体这一挑战,这对于现代诸多基于命名实体的任务(如事件聚类和摘要)具有重要意义。WNUT 17数据集的创建旨在提供一个对新兴和罕见实体的定义,并基于此定义构建相应的数据集,用于检测这些实体。该数据集的发布对自然语言处理领域,尤其是在实体识别方面产生了积极影响,为相关研究提供了宝贵的资源。
当前挑战
WNUT 17数据集在构建过程中遇到的挑战主要包括:1) 如何定义和识别新兴和罕见实体;2) 如何在噪声文本中保持对这些实体的识别准确性;3) 构建一个具有足够覆盖范围和多样性的数据集,以涵盖各种新兴和罕见实体。此外,数据集的构建还需考虑到个人隐私和敏感信息的处理,以及数据标注过程中的质量控制。在应用该数据集时,研究人员还需面对如何处理数据中的偏差和局限性等挑战。
常用场景
经典使用场景
在命名实体识别(NER)的研究与应用领域,WNUT 17数据集因其专注于新兴和罕见实体的识别而成为经典。该数据集通常被用于训练模型以识别和处理在噪声文本中出现的非常见或新颖的命名实体,这在诸如事件聚类和摘要等任务中具有重要价值。
衍生相关工作
基于WNUT 17数据集,学术界衍生出了一系列相关工作,包括对新兴实体识别算法的研究、对噪声文本处理技术的改进,以及对实体识别在特定领域应用的研究,这些工作进一步拓展了该数据集的影响力和应用范围。
数据集最近研究
最新研究方向
WNUT 17数据集聚焦于新兴和罕见实体的识别任务,近年来该领域的研究方向主要集中在提高对噪声文本中新颖、不常见的命名实体的识别能力。这一研究方向对于提升实体识别模型在现实世界应用中的鲁棒性具有重要意义。该数据集的近期研究涉及构建更为精准的模型以处理表面形式多样的新兴实体,并探索半监督学习、迁移学习等先进技术以减少对标注数据的依赖,增强模型的泛化能力。此外,研究还关注如何定义和识别新兴与罕见实体,以及如何构建相应的评测基准,这对于促进信息提取和知识图谱构建等领域的进步具有深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Billboard-Hot-100

该数据集包含了自1958年以来所有Billboard Hot 100榜单的历史数据,详细记录了每首歌曲的排名、日期、表演者等信息。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

Infrared Thermal Image Dataset of High Voltage Electrical Power Equipment under Different Operating Conditions

Recognizing high voltage power equipment in electrical substations is the fundamental platform for effective condition monitoring of electrical power system. It enables proper identification and analysis of anomalies within the equipment, especially when in operation. The result such investigation can be applied for effective real-time measurement, control and protection schemes in the network. The use of visual images for this purpose would be limited during poor lighting conditions. However, Infrared (IR) images of the equipment are invariant to poor illumination condition. Hence, we have acquired the thermographic images of the high voltage power equipment using the portable professional FLIR C5 Infrared camera at different times of the day and load conditions. The dataset contains 5 categories of high voltages equipment common to most air-insulated electrical power substation at 132kV level, namely: circuit breakers, power transformers, surge arresters, disconnectors, and wave traps. The number of IR images for each class of equipment are: circuit breakers 203, power transformers 178, surge arresters 181, disconnectors 180, and wave traps 153. The IR images are 640 x 480 pixel RGB images captured using the rainbow color palette and properly segmented in labeled folders. The color bar in each IR image identifies the thermal range used during its acquisition. The dataset can be used for implementing novel research in computer vision based deep learning models, especially in object recognition, identification, fault classification or detection algorithms. The thermal profile of the equipment in the dataset could be applied for detection of hotspots and other related anomalies.

DataCite Commons 收录