five

RUIE-Bench

收藏
arXiv2025-03-05 更新2025-03-07 收录
下载链接:
http://arxiv.org/abs/2503.03201v1
下载链接
链接失效反馈
官方服务:
资源简介:
RUIE-Bench是一个由大型语言模型生成的对抗性扰动组成的新基准数据集,旨在评估通用信息提取模型的鲁棒性。该数据集由中国科学院计算技术研究所网络数据科学与技术重点实验室构建,包含14种不同扰动类型的11580个样本,覆盖了命名实体识别、关系提取和事件检测三个任务。数据集通过人工验证确保了注释的准确性,并利用大型语言模型生成多样化且真实的扰动。

RUIE-Bench is a novel benchmark dataset composed of adversarial perturbations generated by large language models, aiming to evaluate the robustness of general-purpose information extraction models. Developed by the Key Laboratory of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, this dataset contains 11,580 samples across 14 different perturbation types, covering three core tasks: named entity recognition, relation extraction, and event detection. The accuracy of its annotations is ensured through manual verification, and diverse and realistic adversarial perturbations are generated with large language models.
提供机构:
中国科学院计算技术研究所网络数据科学与技术重点实验室
创建时间:
2025-03-05
搜集汇总
数据集介绍
main_image_url
构建方式
RUIE-Bench数据集的构建过程是通过利用大型语言模型(LLMs)来生成更广泛和更真实的对抗性扰动,从而覆盖不同的信息提取任务。具体而言,该数据集利用LLMs模拟各种扰动,包括实体替换、三元组替换、触发词替换、上下文改变、句子扩展、拼写错误注入和大小写转换。通过这些方法,数据集包含了14种不同的扰动类型,并涵盖了三个主流的信息提取任务:命名实体识别(NER)、关系抽取(RE)和事件检测(ED)。
特点
RUIE-Bench数据集的特点是它包含了11580个样本,并包括14种不同的扰动类型,这些扰动类型是通过对LLMs进行人工验证后的标注准确性获得的。这使得RUIE-Bench成为了迄今为止最全面的具有最多样化扰动的鲁棒性UIE基准数据集。此外,RUIE-Bench还揭示了现有UIE模型在面对对抗性扰动时的鲁棒性问题,突出了提高模型鲁棒性的迫切需要。
使用方法
RUIE-Bench数据集的使用方法包括对其进行全面的评估,以揭示现有UIE模型在面对对抗性扰动时的鲁棒性问题。此外,为了提高模型在有限样本下的鲁棒性,数据集还提出了一个基于损失引导的数据增强(LDA)解决方案。该方法通过动态选择困难样本进行迭代训练,以实现更高效的模型训练。实验结果表明,使用LDA策略训练的模型在RUIE-Bench上的性能与使用完整数据集训练的模型相当,甚至在未见过的数据集上也表现出更好的泛化能力。
背景与挑战
背景概述
在信息提取(IE)领域,通用的信息提取(UIE)旨在通过单一模型统一提取各种类型的知识,近年来取得了显著进展。然而,现有的研究主要关注UIE模型的总体性能,通常在固定的测试集上进行评估,而忽略了模型在面对真实世界文本时的鲁棒性和泛化能力。为了解决这一问题,Zhu等人于2025年3月提出了RUIE-Bench数据集,旨在通过引入大型语言模型(LLMs)生成更多样化和现实化的扰动,从而增强UIE模型的鲁棒性。RUIE-Bench数据集包含了11580个样本,涵盖了14种不同的扰动类型,涉及三种主流的IE任务,即命名实体识别(NER)、关系抽取(RE)和事件检测(ED)。该数据集的构建不仅为UIE模型的鲁棒性评估提供了全面的基准,而且为相关领域的研究提供了宝贵的数据资源。
当前挑战
RUIE-Bench数据集的提出面临着一些挑战。首先,如何生成更多样化和现实化的扰动是一个关键问题。其次,现有的UIE模型在面对这些扰动时,性能显著下降,这表明模型的鲁棒性有待提高。为了解决这些问题,Zhu等人提出了基于损失指导的数据增强(LDA)方法,通过动态选择模型推断损失较高的样本进行迭代训练,以增强模型的鲁棒性。实验结果表明,使用LDA方法训练的模型在RUIE-Bench数据集上取得了显著的性能提升,且在未见数据集上也表现出了更好的泛化能力。尽管如此,如何生成更接近现实场景的扰动,以及如何进一步提高模型的鲁棒性,仍然是未来研究的重要方向。
常用场景
经典使用场景
RUIE-Bench数据集被广泛应用于评估和提升通用信息提取(UIE)模型的鲁棒性。该数据集通过利用大型语言模型(LLMs)生成多样化的对抗样本,模拟了真实世界中可能遇到的文本噪声和变化,从而为UIE模型提供了更为全面和现实的评估环境。在数据增强方面,RUIE-Bench通过动态选择困难样本进行迭代训练,有效地提高了模型的鲁棒性和泛化能力。
衍生相关工作
RUIE-Bench数据集的发布推动了鲁棒UIE研究的发展。基于RUIE-Bench,研究人员可以更加全面地评估UIE模型的鲁棒性,并针对性地设计数据增强策略来提高模型的鲁棒性和泛化能力。此外,RUIE-Bench还为后续研究提供了重要的数据基础,促进了鲁棒UIE模型的进一步发展和应用。
数据集最近研究
最新研究方向
在信息抽取领域,RUIE-Bench 数据集的提出为评估通用信息抽取(UIE)模型的鲁棒性提供了新的基准。该数据集利用大型语言模型(LLM)生成更具多样性和现实性的对抗样本,涵盖了命名实体识别(NER)、关系抽取(RE)和事件检测(ED)三个主流信息抽取任务。研究结果表明,现有 UIE 模型在面对对抗样本时表现不佳,提示了鲁棒性提升的迫切需求。为了改善模型的鲁棒性,研究者提出了基于损失引导的数据增强(LDA)方法,该方法通过迭代选择具有挑战性的样本进行训练,从而在有限的样本上实现与完整训练集相当的性能提升。此外,研究还发现,LLM 基于的 UIE 模型在对抗样本下的表现优于传统 IE 模型,表明 LLM 在 UIE 领域的潜力。然而,所有 LLM 在各种对抗样本下的性能都有显著下降,这表明 LLM 在少样本提示场景下处理 UIE 任务时仍面临严重的鲁棒性问题。
相关研究论文
  • 1
    Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution中国科学院计算技术研究所网络数据科学与技术重点实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作