IrrQA

Hugging Face2024-07-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Siye01/IrrQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为IrrQA，主要用于评估不同大型语言模型（如ChatGPT、GPT-4、Gemini和Llama-2-7B）对无关信息的鲁棒性。数据集包含多个特征，如问题ID、主体实体名称、关系类型、对象实体名称等，以及不同类型的无关信息和相关信息。数据集分为多个子集，每个子集对应不同的模型和数据类型，如Irrelevant_PQA_chatgpt、Irrelevant_PQA_gpt4等，每个子集都有其对应的字节数和样本数。

创建时间：

2024-07-12

原始信息汇总

数据集概述

数据集信息

特征

id: 问题ID，数据类型为int64。
subj: 主体实体名称，数据类型为string。
prop: 关系类型，数据类型为string。
obj: 对象实体名称，数据类型为string。
subj_id: 主体实体ID，数据类型为int64。
obj_id: 对象实体ID，数据类型为int64。
s_aliases: 主体实体别名，数据类型为string。
o_aliases: 对象实体别名，数据类型为string。
s_uri: 主体实体的WikiData URI，数据类型为string。
o_uri: 对象实体的WikiData URI，数据类型为string。
question: 问题文本，数据类型为string。
possible_answers: 可能的答案列表，数据类型为string。
memory_answer: LLM提供的答案，数据类型为string。
parametric_memory: LLM参数记忆中的支持证据，数据类型为string。
unrelated_info: 无关信息，数据类型为string。
unrelated_template: 从无关信息中构建的答案，数据类型为string。
unrelated_info_qid: 无关信息的对应问题ID，数据类型为int64。
partially_related_info: 部分相关信息，数据类型为string。
partially_related_template: 从部分相关信息中构建的答案，数据类型为string。
partially_related_info_qid: 部分相关信息的对应问题ID，数据类型为int64。
related_info_contriever_highest: Contriever计算的最高得分相关信息，数据类型为string。
related_info_cc: 相关信息 - 共同特征，数据类型为string。
related_info_ml: 相关信息 - 误导性联系，数据类型为string。
related_info_fa: 相关信息 - 虚构轶事，数据类型为string。
related_template: 从相关信息中构建的答案，数据类型为string。
related_info_qid: 相关信息的对应问题ID，数据类型为int64。

数据分割

Irrelevant_PQA_chatgpt: 字节数31282587，样本数6483。
Irrelevant_PQA_gpt4: 字节数42121189，样本数8442。
Irrelevant_PQA_gemini: 字节数22337073，样本数4681。
Irrelevant_PQA_llama2_7b: 字节数30882802，样本数6240。
Irrelevant_EQ_chatgpt: 字节数46792834，样本数9345。
Irrelevant_EQ_gpt4: 字节数49750189，样本数9952。
Irrelevant_EQ_gemini: 字节数26684664，样本数5548。
Irrelevant_EQ_llama2_7b: 字节数53762048，样本数10714。

数据集大小

下载大小: 143511143字节
数据集大小: 303613386字节

配置

default: 包含多个数据文件，分别对应不同的分割和模型。

搜集汇总

数据集介绍

构建方式

IrrQA数据集的构建基于多种大型语言模型（如ChatGPT、GPT-4、Gemini和Llama-2-7B），涵盖了PopQA和EntityQuestions两大领域。数据集的构建过程包括从Wikidata中提取实体及其关系，生成问题及其可能的答案，并通过模型生成相关的支持证据和无关信息。每个数据条目均包含详细的元数据，如实体别名、URI、问题文本及多种类型的相关信息，以确保数据的丰富性和多样性。

特点

IrrQA数据集的特点在于其多维度的信息结构，不仅包含标准的问题-答案对，还提供了模型生成的记忆答案、参数化记忆支持证据、无关信息及部分相关信息。这种多层次的信息设计使得数据集能够全面评估模型在面对无关或部分相关信息时的鲁棒性。此外，数据集还提供了多种模型生成的版本，便于研究者进行跨模型的比较分析。

使用方法

使用IrrQA数据集时，研究者可以通过Hugging Face的`datasets`库轻松加载所需的数据集版本。数据集支持按模型和问题类型进行筛选，例如可以选择`Irrelevant_PQA_chatgpt`或`Irrelevant_EQ_gpt4`等特定子集。加载后，数据集可直接用于训练或评估模型，特别是在研究模型对无关信息的敏感性时，数据集提供的丰富上下文信息将为实验设计提供有力支持。

背景与挑战

背景概述

IrrQA数据集由Siye Wu等人于2024年提出，旨在探究大型语言模型（LLMs）在面对无关信息时的响应偏差问题。该数据集涵盖了多种主流LLMs（如ChatGPT、GPT-4、Gemini和Llama-2-7B）在PopQA和EntityQuestions任务中的表现。通过提供包含无关信息、部分相关信息和完全相关信息的问题-答案对，IrrQA为研究LLMs的鲁棒性和信息处理能力提供了重要数据支持。该数据集的创建不仅推动了LLMs在信息筛选和推理能力方面的研究，还为模型优化和评估提供了新的基准。

当前挑战

IrrQA数据集的研究面临两大核心挑战。其一，LLMs在处理无关信息时容易产生偏差，如何设计有效的评估指标以量化这种偏差仍是一个难题。其二，数据集的构建过程中需要确保无关信息、部分相关信息和完全相关信息之间的平衡，同时避免引入人为偏见。此外，如何在不同LLMs之间进行公平比较，以及如何扩展数据集以涵盖更多领域和语言，也是未来研究的重要方向。这些挑战不仅影响数据集的实用性，也直接关系到LLMs在实际应用中的可靠性和稳定性。

常用场景

经典使用场景

IrrQA数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）对无关信息的鲁棒性。通过提供包含无关、部分相关和相关信息的问答对，该数据集能够帮助研究者深入分析模型在面对干扰信息时的表现。特别是在问答系统中，IrrQA能够揭示模型在处理复杂上下文时的局限性，进而推动模型优化。

实际应用

在实际应用中，IrrQA数据集被广泛用于提升问答系统的鲁棒性和准确性。例如，在智能客服、搜索引擎和知识图谱构建中，模型需要从大量信息中提取有效答案。通过使用IrrQA，开发者可以训练模型更好地识别和过滤无关信息，从而提高系统的实用性和用户体验。

衍生相关工作

IrrQA数据集衍生了一系列关于大型语言模型鲁棒性的研究工作。例如，基于该数据集的研究揭示了模型在面对无关信息时的偏差问题，并提出了多种改进方法，如引入更复杂的上下文理解机制和增强信息过滤能力。这些工作不仅推动了问答系统的发展，还为自然语言处理领域的其他任务提供了新的研究思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集