CONFLICTBANK

arXiv2024-08-22 更新2024-08-24 收录

下载链接：

https://github.com/zhaochen0110/conflictbank

下载链接

链接失效反馈

资源简介：

CONFLICTBANK是由苏州大学计算机科学与技术学院和上海AI实验室联合创建的数据集，旨在评估大型语言模型中的知识冲突问题。该数据集包含7,453,853个claim-evidence对和553,117个QA对，涵盖了从Wikidata提取的事实信息。数据集的创建过程包括从Wikidata提取事实、构建知识冲突声明、生成多样化的证据文本以及控制数据质量。CONFLICTBANK主要应用于研究大型语言模型在面对知识冲突时的行为，特别是在处理错误信息、时间差异和语义歧义等方面。

CONFLICTBANK is a dataset jointly created by the School of Computer Science and Technology of Soochow University and Shanghai AI Laboratory, aimed at evaluating knowledge conflict issues in large language models. This dataset contains 7,453,853 claim-evidence pairs and 553,117 QA pairs, covering factual information extracted from Wikidata. The construction process of CONFLICTBANK includes extracting facts from Wikidata, constructing knowledge conflict claims, generating diverse evidence texts, and controlling data quality. CONFLICTBANK is primarily used to research the behaviors of large language models when facing knowledge conflicts, especially in handling misinformation, temporal discrepancies and semantic ambiguities.

提供机构：

苏州大学计算机科学与技术学院

创建时间：

2024-08-22

原始信息汇总

ConflictBank 数据集概述

概览

ConflictBank 是一个全面分析模型行为的基准测试，通过模拟预训练和推理阶段遇到的知识冲突来实现。该基准包含 7,453,853 个声明-证据对和 553,117 个问答对，涵盖三种主要冲突原因：错误信息冲突、时间冲突和语义冲突。

数据加载

可以通过以下代码获取 ConflictBank 数据集：

python from datasets import load_dataset

加载声明-证据对

dataset = load_dataset("Warrieryes/CB_claim_evidence")

加载问答对

dataset = load_dataset("Warrieryes/CB_qa")

数据集构建

步骤1：下载和设置 Wikidata

首先，需要安装 SLING 框架并获取相关数据集：

bash

通过 pip 安装 SLING

pip3 install https://ringgaard.com/data/dist/sling-3.0.0-py3-none-linux_x86_64.whl

下载 SLING KB 和 en wikidata 映射

sling fetch --dataset kb,mapping --overwrite

步骤2：事实提取和冲突声明构建

使用提供的脚本提取事实并构建冲突声明：

bash python3 data_construct.py --qid_names_file "$QID_NAMES_FILE" --kb_file "$KB_FILE" --fact_triples_file "$FACT_TRIPLES_FILE" --templates_file "$TEMPLATES_FILE" --conflict_row_output_file "$CONFLICT_ROW_OUTPUT_FILE" --relation_to_object_output_file "$RELATION_TO_OBJECT_OUTPUT_FILE" --s_r_object_output_file "$S_R_OBJECT_OUTPUT_FILE" --fact_conflict_output_file "$FACT_CONFLICT_OUTPUT_FILE"

步骤3：生成冲突证据

使用预训练模型生成冲突证据，指定要模拟的冲突类型：

bash CONFLICT_TYPE="semantic_conflict" # 选项：correct, fact_conflict, temporal_conflict, semantic_conflict

python3 generate_conflicts.py --model_name "$MODEL_NAME" --file_path "$FILE_PATH" --output_dir "$OUTPUT_DIR" --num_batch "$NUM_BATCH" --conflict_type "$CONFLICT_TYPE"

步骤4：质量控制

最后，运行质量控制脚本以确保数据集的完整性和质量：

bash python quality_control.py --raw_data_dir --nli_model deberta-v3-base-tasksource-nli --embedding_model all-mpnet-base-v2 --classifier_model sbert_conflict_dict.pth --selected_raw_data_path selected_data.json --question_template_path question_templates.json --output_path test_dataset.json --relation_to_object relation_to_object.json --qid_names qid_names.txt --batch_size 32

AI搜集汇总

数据集介绍

构建方式

CONFLICTBANK的构建基于一个创新的框架，旨在系统地评估大型语言模型（LLMs）中的知识冲突。该数据集从三个主要方面模拟冲突：检索知识中的冲突、模型编码知识中的冲突以及这两种冲突形式之间的相互作用。通过从Wikidata提取2,863,205条声明，并生成修订后的冲突声明作为证据，最终创建了7,453,853对声明-证据对和553,117对问答对。数据集的构建过程中采用了生成式语言模型来生成多样化的证据文本，并通过特征过滤、事实-证据蕴含检查和证据间冲突确认等步骤确保数据质量。

特点

CONFLICTBANK的特点在于其全面性和多样性。它不仅涵盖了三种主要的冲突原因（错误信息冲突、时间冲突和语义冲突），还通过生成三种不同文本风格的证据（维基百科风格、书籍风格和新闻风格）来增加数据的多样性。此外，该数据集能够系统地评估检索知识、嵌入知识和它们之间相互作用中的知识冲突，为研究LLMs在不同冲突场景下的行为提供了丰富的资源。

使用方法

CONFLICTBANK数据集可用于一系列关于知识冲突的实验，包括检索知识中的冲突、嵌入知识中的冲突及其相互作用。研究者可以通过该数据集评估模型在面对不同类型冲突时的表现，分析模型规模、冲突原因和冲突类型对模型行为的影响。此外，数据集还提供了一个Python包，用于自动化数据加载、基线评估和训练，便于未来的研究和开发工作。

背景与挑战

背景概述

随着大型语言模型（LLMs）在多个学科中取得了显著进展，知识冲突这一关键问题，作为幻觉的主要来源，却鲜有研究。CONFLICTBANK数据集由苏州大学计算机科学与技术研究所和上海人工智能实验室的研究人员于2024年创建，旨在系统评估LLMs中的知识冲突。该数据集从三个方面分析冲突：检索知识中的冲突、模型编码知识中的冲突以及这些冲突形式之间的相互作用。通过创新的构建框架，CONFLICTBANK生成了7,453,853个声明-证据对和553,117个问答对，涵盖了错误信息、时间差异和语义分歧三种主要冲突原因。CONFLICTBANK不仅填补了现有研究的空白，还为社区提供了深入理解模型在冲突中的行为并开发更可靠LLMs的工具。

当前挑战

CONFLICTBANK数据集面临的挑战包括解决领域问题中的知识冲突，如检索知识与嵌入知识之间的冲突，以及构建过程中遇到的挑战。具体挑战包括：1) 在检索知识中遇到的冲突，这些冲突在推理阶段出现，当新检索的信息与模型的参数记忆相矛盾时；2) 嵌入知识中的冲突，这些冲突在训练阶段由于训练文本本身的不一致性而发生；3) 构建冲突相关数据集时，主要采用词级替换或语言模型生成方法，但这些方法仅探索了嵌入知识与检索上下文知识之间的冲突，忽略了模型编码知识内部的冲突及不同冲突形式之间的相互作用。CONFLICTBANK通过引入三种冲突原因和多样化的文本风格，旨在全面评估和解决这些挑战。

常用场景

经典使用场景

CONFLICTBANK 数据集的经典使用场景在于评估大型语言模型（LLMs）在处理知识冲突时的表现。通过提供包含错误信息、时间差异和语义分歧的冲突案例，该数据集能够系统地测试模型在不同冲突类型下的响应和准确性，从而帮助研究者深入理解模型在面对知识不一致时的行为。

实际应用

在实际应用中，CONFLICTBANK 数据集可用于训练和验证能够处理复杂知识冲突的智能系统。例如，在信息检索和问答系统中，模型需要能够识别和处理来自不同来源的信息冲突，以提供准确和一致的答案。此外，该数据集还可用于开发和测试自动化的信息验证工具，帮助用户识别和纠正错误信息。

衍生相关工作

CONFLICTBANK 数据集的发布催生了一系列相关研究工作，包括对不同冲突类型对模型性能影响的深入分析、开发新的冲突检测和解决算法，以及设计更加鲁棒的模型训练方法。此外，该数据集还激发了对大型语言模型在处理复杂知识场景中行为的研究，推动了模型在实际应用中的可靠性和可解释性研究。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集