RajMaheshwari/ConFiQA
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/RajMaheshwari/ConFiQA
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
configs:
- config_name: MC
data_files:
- split: train
path: MC/train-*
- split: test
path: MC/test-*
- config_name: MR
data_files:
- split: train
path: MR/train-*
- split: test
path: MR/test-*
- config_name: QA
data_files:
- split: train
path: QA/train-*
- split: test
path: QA/test-*
dataset_info:
- config_name: MC
features:
- name: question
dtype: string
- name: context_original
dtype: string
- name: context_modified
dtype: string
- name: answer_original
dtype: string
- name: answer_modified
dtype: string
- name: truth
sequence: string
- name: modified_aliases
sequence: string
- name: context_piece_original
dtype: string
- name: context_piece_modified
dtype: string
- name: path_original
dtype: string
- name: path_modified
dtype: string
- name: path_labeled_original
dtype: string
- name: path_labeled_modified
dtype: string
- name: triple_original
dtype: string
- name: triple_modified
dtype: string
splits:
- name: train
num_bytes: 19765256
num_examples: 4500
- name: test
num_bytes: 6591246
num_examples: 1500
download_size: 11923356
dataset_size: 26356502
- config_name: MR
features:
- name: question
dtype: string
- name: context_original
dtype: string
- name: context_modified
dtype: string
- name: answer_original
dtype: string
- name: answer_modified
dtype: string
- name: truth
sequence: string
- name: modified_aliases
sequence: string
- name: context_piece_original
dtype: string
- name: context_piece_modified
dtype: string
- name: path_original
dtype: string
- name: path_modified
dtype: string
- name: path_labeled_original
dtype: string
- name: path_labeled_modified
dtype: string
- name: triple_original
dtype: string
- name: triple_modified
dtype: string
splits:
- name: train
num_bytes: 20185630
num_examples: 4500
- name: test
num_bytes: 6749307
num_examples: 1500
download_size: 11739643
dataset_size: 26934937
- config_name: QA
features:
- name: question
dtype: string
- name: context_original
dtype: string
- name: context_modified
dtype: string
- name: answer_original
dtype: string
- name: answer_modified
dtype: string
- name: truth
sequence: string
- name: modified_aliases
sequence: string
- name: context_piece_original
dtype: string
- name: context_piece_modified
dtype: string
- name: path_original
dtype: string
- name: path_modified
dtype: string
- name: path_labeled_original
dtype: string
- name: path_labeled_modified
dtype: string
- name: triple_original
dtype: string
- name: triple_modified
dtype: string
splits:
- name: train
num_bytes: 7718851
num_examples: 4500
- name: test
num_bytes: 2572668
num_examples: 1500
download_size: 5538321
dataset_size: 10291519
---
Reference:
https://github.com/byronbbl/context-dpo
提供机构:
RajMaheshwari
搜集汇总
数据集介绍

构建方式
在知识图谱与自然语言处理交叉领域,ConFiQA数据集的构建体现了对上下文一致性的深度考量。该数据集通过精心设计的流程,从原始知识图谱中提取三元组并生成问题与上下文,随后引入可控的修改机制,创造出包含原始与修改版本的平行样本。构建过程涵盖了多项选择、答案重写和问答三种任务配置,每种配置均包含训练集与测试集,确保了数据在任务类型和规模上的均衡分布。
特点
ConFiQA数据集的核心特征在于其独特的平行结构设计,每个样本均包含原始与修改后的上下文、答案及对应的知识图谱路径。这种结构使得数据集能够直接支持对模型上下文敏感性、事实一致性和抗干扰能力的评估。数据集提供了丰富的元信息,如修改别名、标注路径和三元组,为深入分析模型在知识感知任务中的行为提供了多维度的支持。
使用方法
使用ConFiQA时,研究者可根据具体任务选择相应的配置,例如多项选择、答案重写或标准问答。数据加载后,原始与修改版本的对比可直接用于训练或评估模型对上下文变化的鲁棒性。数据集中提供的路径与三元组信息可用于可解释性分析,帮助理解模型决策所依赖的知识结构。通过这种方式,该数据集为推进知识增强的语言模型研究提供了系统化的基准。
背景与挑战
背景概述
ConFiQA数据集诞生于自然语言处理领域对模型鲁棒性与可解释性日益增长的需求背景下,由研究团队于近期构建并发布。该数据集聚焦于知识图谱问答任务,旨在评估模型在上下文信息被精心修改后的表现,核心研究问题涉及模型对语义扰动的敏感性及其推理一致性。通过提供原始与修改后的上下文、答案及三元组等丰富标注,ConFiQA为探究模型在对抗性环境下的泛化能力与逻辑连贯性提供了重要基准,对推动可信任人工智能的发展具有显著影响力。
当前挑战
ConFiQA数据集所针对的领域挑战在于知识图谱问答中模型对语义细微变化的脆弱性,传统模型往往在上下文遭遇同义词替换或结构扰动时产生不一致的答案,这揭示了现有系统在鲁棒推理方面的不足。在构建过程中,挑战主要体现在如何系统性地生成高质量修改上下文,确保语义保留的同时引入有效干扰,并需精确标注答案与三元组对应关系,以维持数据集的严谨性与评估价值。
常用场景
经典使用场景
在知识图谱与自然语言处理领域,ConFiQA数据集为评估模型在上下文冲突场景下的推理能力提供了基准。该数据集通过构建原始与修改后的上下文对,模拟现实世界中信息不一致或动态更新的情境,经典应用于训练和测试问答系统、多选任务及文本改写模型的鲁棒性。研究者利用其结构化的三元组和路径标注,深入探索模型如何识别并处理语义冲突,从而提升在复杂知识图谱环境下的准确应答能力。
解决学术问题
ConFiQA数据集针对知识驱动型人工智能中的关键挑战,即模型对上下文变化的敏感性与适应性不足的问题,提供了系统化的解决方案。它通过引入修改后的上下文与别名替换,有效解决了信息冲突检测、语义一致性维护以及动态知识更新的学术研究难题。该数据集的意义在于推动了可解释推理模型的发展,为评估模型在真实世界知识演化中的性能设立了新标准,对提升人工智能系统的可靠性与泛化能力产生了深远影响。
衍生相关工作
基于ConFiQA数据集,学术界衍生了一系列经典研究工作,主要集中在上下文感知的问答模型优化、对抗性训练策略以及知识图谱增强学习等方面。例如,研究者开发了基于对比学习的预训练方法,以区分原始与修改上下文间的细微差异;另有工作利用该数据集的路径标注特征,构建了图神经网络模型,提升了对知识冲突的逻辑推理能力。这些成果不仅丰富了自然语言处理的理论框架,也为构建更健壮的人工智能系统提供了实践基础。
以上内容由遇见数据集搜集并总结生成



