FACTS-grounding-public|AI模型评估数据集|事实性验证数据集

huggingface2024-12-19 更新2024-12-20 收录

AI模型评估

事实性验证

下载链接：

https://huggingface.co/datasets/google/FACTS-grounding-public

下载链接

链接失效反馈

资源简介：

FACTS Grounding数据集由Google DeepMind和Google Research开发，旨在评估AI模型在事实性和基础性方面的表现。数据集包含860个由人工制作的示例，用于评估AI系统如何基于给定的上下文生成答案。每个示例包括系统提示、任务和长文档。此外，数据集还包含用于评估模型生成响应的评估提示。数据集的限制包括依赖可能存在噪声的自动化LLM判断模型，以及仅专注于评估长文本输入的基础响应。

提供机构：

Google

创建时间：

2024-12-19

原始信息汇总

FACTS Grounding 1.0 Public Examples

数据集概述

数据集名称: FACTS Grounding Public Examples
数据集来源: Google DeepMind 和 Google Research
数据集类型: 问答数据集
语言: 英语
标签: 事实性, 接地性, 基准测试, Google DeepMind, Google Research
数据集大小: 小于1K

数据集配置

配置名称: examples
- 默认: 是
- 数据文件:
  - 分割: public
  - 路径: examples.csv
配置名称: evaluation_prompts
- 数据文件:
  - 分割: prompts
  - 路径: evaluation_prompts.csv

数据集描述

数据集内容: 包含860个由人工制作的示例，用于评估AI系统在给定上下文中回答问题的能力。
示例组成:
- 系统提示 (system_instruction): 提供给模型的通用指令，要求模型仅根据给定的上下文回答问题。
- 任务 (user_request): 包含系统需要回答的具体问题。
- 长文档 (context_document): 包含回答问题所需的信息。
评估提示: 包含用于评估模型生成响应的提示 (evaluation_prompts.csv)。

数据集用途

用途: 评估大型语言模型（LLMs）在生成基于长文档的准确响应方面的能力。
目标: 通过提供标准化的评估框架，促进开发既知识渊博又值得信赖的LLMs，以便在实际应用中负责任地部署。

数据集限制

限制:
- 依赖于可能存在噪声的自动化LLM评判模型进行评估。
- 仅关注评估基于长文本输入的接地响应，可能需要进一步扩展。

引用

引用: 如果使用此数据集进行研究，请引用技术报告。

AI搜集汇总

数据集介绍

构建方式

FACTS-grounding-public数据集由Google DeepMind和Google Research联合构建，旨在评估大型语言模型（LLMs）在事实性和基础性方面的表现。该数据集包含860个由人工精心设计的示例，每个示例由系统提示、用户请求和长文档组成。系统提示提供模型的一般指令，用户请求包含具体问题，而长文档则提供回答问题所需的信息。此外，数据集还包含用于评估模型生成响应的评估提示，详细方法可在技术报告中查阅。

特点

FACTS-grounding-public数据集的主要特点在于其专注于评估模型生成响应的事实性和基础性，超越了简单的事实问答。通过提供长文档作为上下文，数据集要求模型不仅生成准确答案，还需确保答案完全基于提供的上下文。此外，数据集的评估提示进一步增强了其评估能力，使其成为衡量LLMs在复杂任务中表现的重要基准。

使用方法

FACTS-grounding-public数据集适用于评估大型语言模型在处理长文档和生成基于上下文响应的能力。用户可以通过提供的评估提示对模型生成的响应进行评估，确保其符合事实性和基础性要求。数据集还提供了评估启动代码，便于用户快速上手并进行模型评估。通过使用该数据集，研究人员和开发者可以推动LLMs在实际应用中的可靠性和知识性发展。

背景与挑战

背景概述

FACTS Grounding Public Examples数据集由Google DeepMind和Google Research联合开发，旨在评估大型语言模型（LLMs）在事实性和基于上下文的回答方面的表现。该数据集的核心研究问题聚焦于如何确保LLMs生成的回答不仅准确，而且能够完全基于提供的上下文文档进行推理。FACTS Grounding通过提供一个标准化的评估框架，推动了LLMs在知识性和可信度方面的进步，为其实际应用中的负责任部署奠定了基础。该数据集的创建时间为2024年，主要研究人员包括Alon Jacovi、Andrew Wang等，其影响力在于为LLMs的事实性评估提供了新的基准，填补了该领域的研究空白。

当前挑战

FACTS Grounding数据集在构建和应用过程中面临多项挑战。首先，评估过程依赖于可能存在噪声的自动化LLM评判模型，尽管通过前沿LLMs的集成和平均评判输出试图缓解这一问题，但仍需进一步优化。其次，该基准目前仅专注于长文本输入的基于上下文的回答评估，未来可能需要扩展到其他类型的输入和任务。此外，数据集的规模相对较小（860个样本），可能限制其在更广泛应用中的普适性和代表性。这些挑战表明，尽管FACTS Grounding在事实性评估方面取得了进展，但仍需进一步的研究和改进以应对更复杂的实际应用场景。

常用场景

经典使用场景

FACTS Grounding Public数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在处理长篇文档时的准确性和事实性。该数据集通过提供一系列精心设计的系统提示、用户请求和长篇上下文文档，测试模型是否能够基于给定的上下文生成准确且有依据的回答。这种评估方式超越了简单的问答任务，强调了模型在复杂信息合成和事实基础上的表现。

解决学术问题

FACTS Grounding Public数据集解决了在大型语言模型中评估事实性和基础性的关键学术问题。通过提供标准化的评估框架，该数据集促进了模型在处理长篇文档时的准确性和可信度的提升。这对于推动LLMs在实际应用中的可靠性和知识整合能力具有重要意义，特别是在需要高度事实准确性的领域，如法律、金融和科学研究。

衍生相关工作

FACTS Grounding Public数据集的发布激发了大量相关研究，特别是在大型语言模型的评估和改进方面。许多研究工作围绕如何提高模型在长篇文档中的事实性和基础性展开，包括开发新的评估方法和模型架构。此外，该数据集还推动了在自动化评估中使用多模型集成技术的研究，以提高评估的准确性和鲁棒性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

MUStARD++

MUStARD++是一个多模态讽刺检测数据集，由萨里大学创建，旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本，来源于多个流行电视节目，通过手动标注确保高质量的讽刺标签。创建过程中，研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测，帮助机器理解并识别讽刺语境，解决讽刺识别中的多模态挑战。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录