five

Trust-Data|自然语言处理数据集|信息检索数据集

收藏
huggingface2024-09-18 更新2024-12-12 收录
自然语言处理
信息检索
下载链接:
https://huggingface.co/datasets/declare-lab/Trust-Data
下载链接
链接失效反馈
资源简介:
Trust数据集包含两个部分:Trust-score和Trust-align。Trust-score评估数据集包括ASQA、QAMPARI、ELI5和ExpertQA的顶级检索结果,用于评估问题的可回答性。Trust-align训练数据集包含19K高质量对齐对,旨在增强模型的可信度。数据集的结构包括问题、答案、文档及其相关字段,如标题、文本、答案是否找到和召回分数。
提供机构:
Deep Cognition and Language Research (DeCLaRe) Lab
创建时间:
2024-09-18
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache 2.0
  • 标签: 引文生成
  • 注释创建者: 机器生成
  • 数据集名称: TRUST
  • 数据集规模: 10K<n<100K
  • 源数据集: ASQA, QAMPARI, ELI5, EXPERTQA
  • 任务类别: 文本生成, 文本到文本生成
  • 任务ID: 对话, 开放式问答

数据集配置

  • 配置名称: trust_score

    • 数据文件:
      • asqa_eval: Trust-Score/asqa_eval_top100_calibrated.json
      • qampari_eval: Trust-Score/qampari_eval_top100_calibrated.json
      • eli5_eval: Trust-Score/eli5_eval_top100_calibrated.json
      • expertqa_eval: Trust-Score/expertqa_eval_top100_calibrated.json
    • 默认配置: 是
  • 配置名称: trust_align

    • 数据文件:
      • train: Trust-Align/train.json
      • test: Trust-Align/test.json

数据集描述

Trust-score

  • 数据集内容: 包含ASQA、QAMPARI、ELI5和EXPERTQA的顶级100个GTR检索结果,以及ELI5的顶级100个BM25检索结果。每个问题的可回答性基于其附带的文档进行评估。
  • 数据结构:
    • question: 问题
    • answers: 所有黄金答案列表
    • docs: 相关文档证据列表
      • title: 文档标题
      • text: 文档片段
      • answers_found: 答案是否在文档中找到的标志
      • rec_score: 召回分数

Trust-align

  • 数据集内容: 包含19K高质量对齐对,用于增强模型的可信度。
  • 数据结构:
    • prompt: 模型输入,包含指令、问题和相应文档
    • chosen: 配对数据集中的正面响应
    • rejected: 配对数据集中的负面响应
    • messages: promptchosenchatML对话格式

引用信息

@misc{song2024measuringenhancingtrustworthinessllms, title={Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse}, author={Maojia Song and Shang Hong Sim and Rishabh Bhardwaj and Hai Leong Chieu and Navonil Majumder and Soujanya Poria}, year={2024}, eprint={2409.11242}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.11242}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Trust-Data数据集的构建基于多个高质量问答数据集,包括ASQA、QAMPARI、ELI5和ExpertQA。通过GTR和BM25检索技术,从这些数据集中提取了前100个相关结果,并结合文档内容对问题的可回答性进行评估。此外,Trust-align训练集包含了19K个高质量的对齐样本,旨在提升模型的可信度。
特点
Trust-Data数据集的特点在于其丰富的问答对和文档证据的结合。每个问题不仅包含多个黄金答案的变体,还提供了相关文档的标题、文本片段以及答案是否在文档中被找到的标记。这种结构使得数据集能够支持复杂的文本生成和问答任务,尤其是基于检索增强生成(RAG)的应用场景。
使用方法
使用Trust-Data数据集时,可以通过其提供的评估管道对模型进行可信度评估。用户只需加载配置文件并运行评估代码,即可获得模型在特定任务上的表现。此外,Trust-align训练集可用于模型的对齐训练,通过对比正负样本,提升模型在生成可信回答方面的能力。
背景与挑战
背景概述
Trust-Data数据集由Declare-Lab团队于2024年发布,旨在评估和增强大型语言模型(LLMs)在检索增强生成(RAG)任务中的可信度。该数据集的核心研究问题在于如何通过基于文档的归因和拒绝学习机制,提升模型在生成答案时的可解释性和可靠性。数据集包含来自ASQA、QAMPARI、ELI5和ExpertQA等多个问答数据源的评估数据,以及19K高质量的对齐训练数据。通过引入Trust-score和Trust-align两个子数据集,研究人员能够系统地评估模型在生成答案时的可信度,并通过对齐训练提升模型的信任度。该数据集为自然语言处理领域的研究提供了新的评估框架,推动了可信赖AI的发展。
当前挑战
Trust-Data数据集在解决领域问题和构建过程中面临多重挑战。在领域问题方面,如何准确评估模型生成答案的可信度是一个核心挑战,尤其是在多文档检索和复杂问答场景中,模型需要同时兼顾答案的准确性和可解释性。此外,如何设计有效的拒绝学习机制,使模型能够在不确定或不可靠的情况下拒绝生成答案,也是一个亟待解决的问题。在构建过程中,数据集的创建者需要从多个异构数据源中提取和整合高质量的证据文档,并确保评估指标的客观性和一致性。同时,对齐训练数据的生成需要大量人工标注和模型迭代,这对数据质量和计算资源提出了较高要求。
常用场景
经典使用场景
Trust-Data数据集在自然语言处理领域中被广泛应用于生成式任务,尤其是在基于检索的问答系统(RAG)中。通过结合ASQA、QAMPARI、ELI5和ExpertQA等多个高质量数据集,Trust-Data为模型提供了丰富的上下文信息,使其能够在生成答案时更好地理解问题并引用相关文档。这种基于检索的生成方式不仅提升了模型的回答质量,还增强了其可信度。
衍生相关工作
Trust-Data数据集衍生了一系列相关研究,特别是在大语言模型的可信度评估和增强方面。例如,基于该数据集的研究提出了多种模型对齐方法,如Trust-align,通过高质量的对齐数据对模型进行微调,从而提升其生成答案的可信度。此外,该数据集还推动了基于检索的生成模型在开放域问答任务中的应用和发展。
数据集最近研究
最新研究方向
在自然语言处理领域,Trust-Data数据集的最新研究方向聚焦于提升大型语言模型(LLMs)在检索增强生成(RAG)任务中的可信度。通过引入基于文档的证据评估机制,该数据集旨在增强模型在生成答案时的可解释性和可靠性。具体而言,Trust-score评估数据集通过结合ASQA、QAMPARI、ELI5和ExpertQA等多个来源的检索结果,评估模型在开放域问答任务中的表现。与此同时,Trust-align训练数据集则通过19K高质量的对齐样本,进一步优化模型在生成可信答案时的对齐能力。这一研究方向不仅推动了模型在复杂问答场景中的应用,还为提升LLMs的可信度提供了新的方法论支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Crop Yield Prediction Dataset

Impact of Environmental Factors on Crop Yields Across Countries

kaggle 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

ScanNet v2

ScanNet 是一个 RGB-D 视频数据集,包含 1500 多次扫描中的 250 万个视图,并使用 3D 相机姿势、表面重建和实例级语义分割进行注释。为了收集这些数据,我们设计了一个易于使用且可扩展的 RGB-D 捕获系统,其中包括自动表面重建和众包语义注释。我们表明,使用这些数据有助于在几个 3D 场景理解任务上实现最先进的性能,包括 3D 对象分类、语义体素标记和 CAD 模型检索。

OpenDataLab 收录