NERsocial

Hugging Face2024-12-23 更新2024-12-24 收录

下载链接：

https://huggingface.co/datasets/atamiles/NERsocial

下载链接

链接失效反馈

官方服务：

资源简介：

NERsocial是一个专门为人类-机器人交互（HRI）应用设计的新命名实体识别数据集。它包含99,448个句子，153,102个实体标记和134,074个实体，涵盖六种实体类型：饮料、食物、爱好、工作、宠物和运动。此外，通过重新标注CoNLL2003数据集，增加了人物姓名、国家和组织三种实体类型。数据集使用RapidNER框架构建，结合了从Wikidata提取的知识图谱和从多个来源（如Wikipedia、Reddit和Stack Exchange）收集的文本。数据集的构建过程高效，使用Elasticsearch进行快速标注，标注质量通过人工标注者验证，具有高一致性。数据集在评估中表现出色，使用BERT-base、RoBERTa-base和DeBERTa-v3-base等先进模型时，F1得分均超过95%。

NERsocial is a novel named entity recognition (NER) dataset specifically designed for human-robot interaction (HRI) applications. It contains 99,448 sentences, 153,102 entity tokens and 134,074 entities, covering six entity types: beverages, food, hobbies, occupations, pets and sports. Additionally, three more entity types—person names, countries and organizations—are added by re-annotating the CoNLL-2003 dataset. The dataset is built with the RapidNER framework, combining a knowledge graph extracted from Wikidata and texts collected from multiple sources including Wikipedia, Reddit and Stack Exchange. The dataset construction process is efficient, utilizing Elasticsearch for rapid annotation, and the annotation quality is validated by human annotators with high inter-annotator consistency. The dataset performs excellently in evaluations: when adopting advanced models such as BERT-base, RoBERTa-base and DeBERTa-v3-base, all achieve F1 scores exceeding 95%.

创建时间：

2024-12-16

原始信息汇总

NERsocial: 面向人机交互的高效命名实体识别数据集

数据集概述

NERsocial 是一个专门为人机交互（HRI）应用设计的命名实体识别（NER）数据集。该数据集包含99,448条句子，153,102个实体标记，以及134,074个实体，涵盖以下六种实体类型：

饮品（drinks）
食物（foods）
爱好（hobbies）
职业（jobs）
宠物（pets）
运动（sports）

此外，数据集通过重新标注 CoNLL2003 数据集，增加了三种新的实体类型：

人名（PEOPLENAME）
国家（COUNTRY）
组织（ORGANIZATION）

数据集构建

NERsocial 数据集利用了 RapidNER 框架，结合了从 Wikidata 提取的知识图谱和从 Wikipedia、Reddit 以及 Stack Exchange 等多个来源收集的文本。数据集的构建过程创新且高效，使用 Elasticsearch 进行快速标注，将每句话的标注时间从1分钟缩短到0.9毫秒。

数据格式

数据集以字典形式存储，包含两个主要字段：

tokens：句子中的词汇列表。
tags：每个词汇对应的实体标签。

标签与ID的映射关系如下：

label2id：标签到ID的映射。
id2label：ID到标签的映射。

使用许可

数据集基于 MIT 许可证 发布，允许在研究之外的用途使用。

引用

如果使用该数据集，请引用以下内容：

@misc{atuhurra2024nersocialefficientnamedentity, title={NERsocial: Efficient Named Entity Recognition Dataset Construction for Human-Robot Interaction Utilizing RapidNER}, author={Jesse Atuhurra and Hidetaka Kamigaito and Hiroki Ouchi and Hiroyuki Shindo and Taro Watanabe}, year={2024}, eprint={2412.09634}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.09634}, }

搜集汇总

数据集介绍

构建方式

NERsocial数据集的构建过程采用了高效的RapidNER框架，该框架结合了从Wikidata提取的知识图谱与来自Wikipedia、Reddit和Stack Exchange等多源文本的收集。通过Elasticsearch技术，实现了快速标注，将每句标注时间从1分钟缩短至0.9毫秒。文本来源的多样性确保了数据集在正式与非正式语言模式上的平衡，同时通过人工标注者的验证，确保了标注质量，达到了90.6%的Fleiss Kappa和88.3%至92.9%的Cohen's Kappa。

特点

NERsocial数据集具有显著的特点，包括其庞大的规模（153K个词元、134K个实体和99.4K个句子）和多样化的实体类型（如饮料、食物、爱好、职业、宠物和运动）。此外，该数据集通过扩展CoNLL2003数据集，增加了PEOPLENAME、COUNTRY和ORGANIZATION等实体类型，进一步增强了其在人机交互领域的适用性。数据集在不同文本领域的鲁棒性表现尤为突出，使得模型在跨领域应用中展现出优越的迁移能力。

使用方法

NERsocial数据集的使用方法简便，用户可通过HuggingFace的datasets库进行加载，代码示例如下：`from datasets import load_dataset; dataset = load_dataset('atamiles/NERsocial')`。数据集提供了`tokens`和`tags`两个主要字段，分别包含文本词元和对应的命名实体标签。此外，`label2id`和`id2label`两个字典提供了标签与ID之间的映射，便于模型训练和评估。数据集遵循MIT许可，允许在研究之外的广泛应用。

背景与挑战

背景概述

NERsocial数据集由Jesse Atuhurra等人于2024年创建，旨在为人类-机器人交互（HRI）应用提供高效的命名实体识别（NER）解决方案。该数据集包含153,102个实体标记、134,074个实体和99,448个句子，涵盖六种关键的社交交互实体类型：饮料、食物、爱好、职业、宠物和运动。通过结合Wikidata的知识图谱提取和多源文本（如Wikipedia、Reddit和Stack Exchange）的收集，NERsocial利用RapidNER框架实现了高效的构建过程。该数据集不仅在标注效率上显著提升，还通过Elasticsearch技术将每句标注时间从1分钟缩短至0.9毫秒，并通过人工验证确保了高标注质量，Fleiss Kappa得分达到90.6%。NERsocial的推出为HRI领域的NER系统开发提供了强有力的支持，尤其在处理正式与非正式交流的鲁棒性方面表现突出。

当前挑战

NERsocial数据集在构建过程中面临多重挑战。首先，如何在多源文本中有效提取和整合社交相关的实体信息，确保数据多样性和代表性，是一个关键难题。其次，尽管RapidNER框架显著提升了标注效率，但如何在快速标注的同时保持高标注质量，仍需通过人工验证和统计指标（如Fleiss Kappa和Cohen's Kappa）进行严格把控。此外，NERsocial在应用于HRI场景时，需应对不同文本域的适应性问题，确保模型在正式与非正式交流中的表现一致。最后，尽管数据集在现有模型上表现优异，但其长期影响和在更广泛应用场景中的表现仍需进一步验证。

常用场景

经典使用场景

NERsocial数据集在人机交互（HRI）领域中具有广泛的应用前景，尤其是在处理社交对话中的命名实体识别（NER）任务时表现尤为突出。该数据集涵盖了六种关键实体类型，包括饮品、食物、爱好、职业、宠物和运动，这些信息在社交互动中频繁出现，对于机器人理解和回应人类对话至关重要。通过结合多种文本来源，如Wikipedia、Reddit和Stack Exchange，NERsocial能够捕捉到正式与非正式语言的多样性，从而提升模型在不同语境下的适应能力。

衍生相关工作

NERsocial数据集的发布激发了众多相关研究工作，尤其是在人机交互和自然语言处理领域。一些研究者利用该数据集开发了更加高效的NER模型，提升了模型在社交对话中的表现。此外，还有研究探讨了如何将NERsocial与其他任务（如情感分析、对话生成）相结合，以实现更复杂的交互功能。这些衍生工作不仅扩展了NERsocial的应用范围，也为未来的HRI研究提供了新的思路和方法。

数据集最近研究