strombergnlp/ipm_nel

Name: strombergnlp/ipm_nel
Creator: strombergnlp
Published: 2022-10-25 21:41:26
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/strombergnlp/ipm_nel

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于推特上的命名实体识别和链接/消歧任务。它在NER标注的推特数据集基础上增加了实体URI层，旨在检测实体并为其提供正确的DBpedia链接，从而消歧实体表面形式。数据集包含十种命名实体类型：公司、设施、地理位置、电影、音乐艺术家、人物、产品、运动队、电视节目和其他。数据以CoNLL格式存储，保留了Ritter数据集中的分词方式。数据集的创建目的是为了收集一个与新闻数据不同的社交媒体基准。数据部分来源于Ritter的研究，部分由作者从推特上收集。标注过程由志愿者完成，标注者包括作者及其机构的NLP研究人员。数据集存在一些局限性，如可能包含用户删除的内容和有害文本，且标注者群体在英文推特文本上的召回率较低。

This dataset is designed for named entity recognition (NER) and entity linking/disambiguation tasks on Twitter. It adds an entity URI layer on top of a NER-annotated Twitter dataset, aiming to detect entities and provide their correct DBpedia links for surface form disambiguation. The dataset covers ten named entity types: companies, facilities, geographic locations, films, music artists, persons, products, sports teams, television shows, and others. The data is stored in CoNLL format, retaining the tokenization method from the Ritter dataset. The dataset was created to develop a social media benchmark distinct from news data. The data is partially sourced from Ritter's research and partially collected by the authors from Twitter. The annotation process was completed by volunteers, including the authors and NLP researchers from their affiliated institutions. The dataset has several limitations: it may contain user-deleted content and harmful text, and the annotator group has a relatively low recall rate on English Twitter texts.

提供机构：

strombergnlp

原始信息汇总

数据集概述

数据集名称

名称: IPM NEL (Derczynski)
别名: ipm-nel

数据集描述

任务: 命名实体识别与链接/消歧
内容: 包含在推特数据上的命名实体识别及链接，旨在检测实体并提供正确的DBpedia链接以消歧。
实体类型: 包括公司、设施、地理地点、电影、音乐艺术家、人物、产品、体育队伍、电视节目及其他共10种类型。
数据格式: 制表符分隔，CoNLL格式，行分隔符用于区分不同推文。

语言

语言: 英语 (bcp47:en)

许可证

许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)

数据集结构

数据实例: 包含id、tokens、ner_tags和uris字段。
数据字段:
- id: 字符串类型
- tokens: 字符串列表类型
- ner_tags: 分类标签列表（整数类型）
- uris: 实体URI列表（字符串类型），使用NIL表示无DBpedia条目。
数据分割: 包含183个训练句子的ipm_nel数据集。

数据集创建

来源数据: 部分数据来自Ritter / Named Entity Recognition in Tweets，部分由作者从Twitter收集。
注释过程: 由10名NLP研究人员进行，使用Crowdflower平台进行注释任务。

使用考虑

社会影响: 存在用户删除内容的风险，数据未经过有害内容筛选。
偏见讨论: 注释者为NLP研究人员，可能存在高一致性和低召回率的问题。

附加信息

数据集维护者: 论文作者
贡献者: Leon Derczynski (@leondz)

搜集汇总

数据集介绍

构建方式

在社交媒体自然语言处理领域，IPM NEL数据集的构建体现了对推特文本中命名实体识别与链接任务的深度探索。该数据集以Ritter等人发布的推特命名实体识别数据为基础，融合了作者团队于2011年至2013年间从推特平台采集的公开文本。通过众包标注平台Crowdflower，三位志愿者为一组对每条推文中的实体进行独立标注，不仅识别实体边界，还需从DBpedia知识库中选取最匹配的实体URI。标注过程中志愿者可查阅推文内嵌链接以获取上下文信息，并设有“无法确定”等选项以确保标注质量，最终形成包含实体类型标签与知识链接的双层标注体系。

特点

该数据集聚焦于推特文本的实体消歧任务，其核心特征在于将传统命名实体识别与知识链接相结合。数据覆盖公司、设施、地理位置、影视作品、音乐人、人物、产品、运动团队、电视节目及其他等十类实体，采用CoNLL格式存储并保留原始推文的分词结果。每条数据包含词元序列、实体类型标签及对应的DBpedia实体URI，其中无法链接的实体以“NIL”标识。数据集规模约183条推文，虽体量精炼但具备高精度标注特性，尤其体现了社交媒体文本中实体表面形式高度歧义化的挑战，为研究短文本实体消歧提供了典型样本。

使用方法

研究者可通过HuggingFace平台直接加载strombergnlp/ipm_nel数据集，其数据结构包含id、tokens、ner_tags与uris四个字段。使用时应先解析ner_tags与实体类型的映射关系，结合uris字段中的DBpedia链接实现端到端的实体识别与消歧评估。该数据集适用于训练或测试联合学习模型，可构建管道式系统：先通过ner_tags预测实体边界与类型，再依据上下文语义与知识库候选实体进行链接决策。需注意数据仅含训练集，使用时可结合交叉验证评估模型性能，并遵循CC-BY 4.0协议标注原始作者贡献。

背景与挑战

背景概述

在自然语言处理领域，社交媒体文本的实体识别与链接任务长期面临独特挑战，因其语言非正式且语境稀疏。IPM NEL数据集由Leon Derczynski等学者于2015年构建，旨在为推特文本提供命名实体识别与消歧的基准。该数据集基于Ritter的推特实体识别研究扩展，通过众包标注方式，为十类实体添加了DBpedia知识库链接，推动了社交媒体信息抽取技术的发展，并为实体链接在开放域的应用奠定了实证基础。

当前挑战

该数据集致力于解决社交媒体中命名实体链接的歧义性问题，例如同一表面形式在不同上下文中指向不同实体。构建过程中的挑战包括推特文本的噪声处理、标注者间一致性维护，以及DBpedia知识库覆盖不全导致的实体缺失标注。此外，数据源自2011至2013年的公开推文，存在用户内容删除风险与潜在偏见，限制了其在当前动态社交环境中的泛化能力。

常用场景

经典使用场景

在社交媒体自然语言处理领域，IPM NEL数据集为命名实体识别与链接任务提供了关键基准。该数据集聚焦于推特文本，通过标注实体类型及对应的DBpedia知识库链接，实现了从实体表面形式到标准化知识实体的精准映射。其经典应用场景在于评估模型在非正式、高噪声文本环境下，对多义实体进行消歧与链接的能力，例如区分“Paris”指向法国巴黎还是美国德克萨斯州巴黎市，为社交媒体信息结构化理解奠定基础。

实际应用

在实际应用层面，IPM NEL数据集为社交媒体监控、智能信息检索和知识图谱构建提供了重要支撑。基于该数据集训练的模型能够自动化识别推特中的实体并链接至结构化知识库，助力舆情分析系统精准追踪热点事件中的关键人物、机构或地点；同时，该技术可增强搜索引擎对社交媒体内容的语义理解能力，提升用户获取信息的准确性与时效性，为数字人文、商业智能等跨领域应用注入技术活力。

衍生相关工作

围绕IPM NEL数据集，学术界衍生出一系列经典研究工作。例如，后续研究通过引入深度神经网络与注意力机制，提升了短文本实体链接的鲁棒性；部分工作结合跨语言知识迁移，将数据集应用于多语言社交媒体分析场景；另有学者基于该数据集的标注范式，构建了面向其他社交平台或垂直领域的实体链接基准。这些工作共同推动了社交媒体自然语言处理技术体系的完善与演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集