Trust-Data

Name: Trust-Data
Creator: Deep Cognition and Language Research (DeCLaRe) Lab
Published: 2024-09-18 18:25:26
License: 暂无描述

Hugging Face2024-09-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/declare-lab/Trust-Data

下载链接

链接失效反馈

官方服务：

资源简介：

Trust数据集包含两个部分：Trust-score和Trust-align。Trust-score评估数据集包括ASQA、QAMPARI、ELI5和ExpertQA的顶级检索结果，用于评估问题的可回答性。Trust-align训练数据集包含19K高质量对齐对，旨在增强模型的可信度。数据集的结构包括问题、答案、文档及其相关字段，如标题、文本、答案是否找到和召回分数。

提供机构：

Deep Cognition and Language Research (DeCLaRe) Lab

创建时间：

2024-09-18

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: Apache 2.0
标签: 引文生成
注释创建者: 机器生成
数据集名称: TRUST
数据集规模: 10K<n<100K
源数据集: ASQA, QAMPARI, ELI5, EXPERTQA
任务类别: 文本生成, 文本到文本生成
任务ID: 对话, 开放式问答

数据集配置

配置名称: trust_score
- 数据文件:
  - asqa_eval: Trust-Score/asqa_eval_top100_calibrated.json
  - qampari_eval: Trust-Score/qampari_eval_top100_calibrated.json
  - eli5_eval: Trust-Score/eli5_eval_top100_calibrated.json
  - expertqa_eval: Trust-Score/expertqa_eval_top100_calibrated.json
- 默认配置: 是
配置名称: trust_align
- 数据文件:
  - train: Trust-Align/train.json
  - test: Trust-Align/test.json

数据集描述

Trust-score

数据集内容: 包含ASQA、QAMPARI、ELI5和EXPERTQA的顶级100个GTR检索结果，以及ELI5的顶级100个BM25检索结果。每个问题的可回答性基于其附带的文档进行评估。
数据结构:
- question: 问题
- answers: 所有黄金答案列表
- docs: 相关文档证据列表
  - title: 文档标题
  - text: 文档片段
  - answers_found: 答案是否在文档中找到的标志
  - rec_score: 召回分数

Trust-align

数据集内容: 包含19K高质量对齐对，用于增强模型的可信度。
数据结构:
- prompt: 模型输入，包含指令、问题和相应文档
- chosen: 配对数据集中的正面响应
- rejected: 配对数据集中的负面响应
- messages: prompt和chosen的chatML对话格式

引用信息

@misc{song2024measuringenhancingtrustworthinessllms, title={Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse}, author={Maojia Song and Shang Hong Sim and Rishabh Bhardwaj and Hai Leong Chieu and Navonil Majumder and Soujanya Poria}, year={2024}, eprint={2409.11242}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.11242}, }

搜集汇总

数据集介绍

构建方式

Trust-Data数据集的构建基于多个高质量问答数据集，包括ASQA、QAMPARI、ELI5和ExpertQA。通过GTR和BM25检索技术，从这些数据集中提取了前100个相关结果，并结合文档内容对问题的可回答性进行评估。此外，Trust-align训练集包含了19K个高质量的对齐样本，旨在提升模型的可信度。

特点

Trust-Data数据集的特点在于其丰富的问答对和文档证据的结合。每个问题不仅包含多个黄金答案的变体，还提供了相关文档的标题、文本片段以及答案是否在文档中被找到的标记。这种结构使得数据集能够支持复杂的文本生成和问答任务，尤其是基于检索增强生成（RAG）的应用场景。

使用方法

使用Trust-Data数据集时，可以通过其提供的评估管道对模型进行可信度评估。用户只需加载配置文件并运行评估代码，即可获得模型在特定任务上的表现。此外，Trust-align训练集可用于模型的对齐训练，通过对比正负样本，提升模型在生成可信回答方面的能力。

背景与挑战

背景概述

Trust-Data数据集由Declare-Lab团队于2024年发布，旨在评估和增强大型语言模型（LLMs）在检索增强生成（RAG）任务中的可信度。该数据集的核心研究问题在于如何通过基于文档的归因和拒绝学习机制，提升模型在生成答案时的可解释性和可靠性。数据集包含来自ASQA、QAMPARI、ELI5和ExpertQA等多个问答数据源的评估数据，以及19K高质量的对齐训练数据。通过引入Trust-score和Trust-align两个子数据集，研究人员能够系统地评估模型在生成答案时的可信度，并通过对齐训练提升模型的信任度。该数据集为自然语言处理领域的研究提供了新的评估框架，推动了可信赖AI的发展。

当前挑战

Trust-Data数据集在解决领域问题和构建过程中面临多重挑战。在领域问题方面，如何准确评估模型生成答案的可信度是一个核心挑战，尤其是在多文档检索和复杂问答场景中，模型需要同时兼顾答案的准确性和可解释性。此外，如何设计有效的拒绝学习机制，使模型能够在不确定或不可靠的情况下拒绝生成答案，也是一个亟待解决的问题。在构建过程中，数据集的创建者需要从多个异构数据源中提取和整合高质量的证据文档，并确保评估指标的客观性和一致性。同时，对齐训练数据的生成需要大量人工标注和模型迭代，这对数据质量和计算资源提出了较高要求。

常用场景

经典使用场景

Trust-Data数据集在自然语言处理领域中被广泛应用于生成式任务，尤其是在基于检索的问答系统（RAG）中。通过结合ASQA、QAMPARI、ELI5和ExpertQA等多个高质量数据集，Trust-Data为模型提供了丰富的上下文信息，使其能够在生成答案时更好地理解问题并引用相关文档。这种基于检索的生成方式不仅提升了模型的回答质量，还增强了其可信度。

衍生相关工作

Trust-Data数据集衍生了一系列相关研究，特别是在大语言模型的可信度评估和增强方面。例如，基于该数据集的研究提出了多种模型对齐方法，如Trust-align，通过高质量的对齐数据对模型进行微调，从而提升其生成答案的可信度。此外，该数据集还推动了基于检索的生成模型在开放域问答任务中的应用和发展。

数据集最近研究