PICLe

Hugging Face2025-04-29 更新2025-04-30 收录

下载链接：

https://huggingface.co/datasets/smamooler/PICLe

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于PICLe论文的原始和被腐蚀的样本，包括BC2GM、BC5CHEM、BC5DISEASE、CHEMPROTCHEM和CHEMPROTGENE五个子集。腐蚀方案包括随机ID标签替换、交换ID标签、随机OOD标签、从文本中随机选择OOD标签、腐蚀OOD文本、同时腐蚀文本和标签、腐蚀并打乱OOD文本和腐蚀并打乱文本和标签。

创建时间：

2025-04-26

原始信息汇总

数据集概述

基本信息

数据集名称: PICLe
任务类别: 标记分类 (token-classification)
语言: 英语 (en)
标签: 命名实体识别 (NER)

数据集组成

数据集包含以下原始和经过处理的样本：

BC2GM
BC5CHEM
BC5DISEASE
CHEMPROTCHEM
CHEMPROTGENE

数据文件配置

配置名称: defaultnern
- BC2GM: bc2gm/*.json
- BC5CHEM: bc5chem/*.json
- BC5DISEASE: bc5disease/*.json
- CHEMPROTCHEM: chemprotchem/*.json
- CHEMPROTGENE: chemprotgene/*.json

数据处理方案

数据集包含以下处理方案：

Random ID Label: 用随机分布内实体替换真实实体标签。
Swapped ID Labels: 交换真实实体标签与随机选择样本的实体标签。
Random OOD Label: 用随机分布外英语单词替换实体标签。
Random OOD Label from Text: 用样本文本中非目标实体的随机单词替换真实实体标签。
Corrupted OOD Text: 用随机分布外英语单词替换文本中的实体提及。
Corrupted OOD Text and Label: 替换文本中的实体提及和标签，使其匹配。
Corrupted and Shuffled OOD Text: 同非打乱版本，但随机打乱句子中的单词。
Corrupted and Shuffled OOD Text and Label: 同非打乱版本，但随机打乱句子中的单词。

相关论文

论文标题: PICLe
论文链接: https://arxiv.org/abs/2412.11923

搜集汇总

数据集介绍

构建方式

在生物医学实体识别领域，PICLe数据集通过系统性数据扰动策略构建而成。该数据集基于BC2GM、BC5CHEM等五个经典生物医学命名实体识别基准，采用六种创新性的数据损坏方案对原始样本进行改造。具体方法包括随机替换同分布实体标签、跨样本标签交换、引入非分布词汇替代等多种技术路径，每种方案均保持原始数据的统计特性同时引入可控噪声，为研究模型鲁棒性提供了多维度评估基准。

使用方法

该数据集主要服务于命名实体识别模型的鲁棒性研究。使用者可通过对比模型在原始数据与各类损坏数据上的表现差异，系统分析模型弱点。实践时建议分层评估：首先在原始数据验证基准性能，继而依次测试随机标签替换、跨样本标签交换等渐进式干扰场景。数据文件按生物医学子领域分类存储，研究者可根据需要选择特定子集或组合使用，配套论文详细记载了每种损坏方案的生成逻辑与预期测试目标。

背景与挑战

背景概述

PICLe数据集作为生物医学领域命名实体识别（NER）研究的重要资源，由研究团队于2023年通过系统化数据改造构建而成。该数据集整合了BC2GM、BC5CHEM等经典生物医学文本标注资源，创新性地设计了多种实体标签破坏方案，旨在探究小样本学习环境下模型对噪声和分布偏移的鲁棒性。其核心价值在于为评估预训练语言模型在真实场景中的泛化能力提供了标准化测试基准，推动了生物医学信息抽取领域对抗性样本研究的深入发展。

当前挑战

该数据集主要应对生物医学NER任务中模型鲁棒性评估的挑战，具体体现在标注噪声敏感性和跨域泛化能力两大维度。构建过程中面临双重技术难点：在数据层面需精确控制多种破坏策略的强度分布，确保生成的对抗样本既保持语言流畅性又具备评估有效性；在标注层面要求严格保持原始数据的生物学语义一致性，避免因随机替换导致专业术语失真。这些挑战使PICLe成为检验生物医学文本理解模型抗干扰能力的试金石。

常用场景

经典使用场景

在生物医学自然语言处理领域，PICLe数据集为研究命名实体识别（NER）任务中的模型鲁棒性提供了重要基准。该数据集通过系统性地引入多种标注和文本扰动方案，包括随机替换、标签交换以及超出分布样本生成等，为评估模型在真实场景下面对噪声和异常输入时的表现创造了标准化测试环境。研究者可基于其构建的BC2GM、BC5CHEM等生物医学子集，深入探究模型对基因、化学物质和疾病实体识别的抗干扰能力。

解决学术问题

PICLe数据集有效解决了生物医学文本分析中模型泛化性评估的难题。传统NER研究常受限于干净标注数据，难以模拟实际应用中存在的标注错误、术语变异等情况。该数据集通过六种精心设计的破坏机制，为研究标注噪声、分布偏移、上下文混淆等学术问题提供了量化分析工具，推动了鲁棒性学习、噪声适应以及小样本学习等方向的方法创新，填补了生物医学NER系统性评估框架的空白。

实际应用

该数据集在医疗信息提取系统中展现出显著应用价值。制药企业可利用其评估药物-基因关系抽取模型在电子病历噪声数据中的稳定性，临床决策支持系统开发者能通过OOD文本破坏方案测试系统对非标准医学术语的容错能力。在医学文献挖掘场景中，基于CHEMPROT子集的破坏实验可优化生物分子相互作用提取流程，提升真实世界数据处理的准确率与可靠性。

数据集最近研究