rag-climate-expert-eval

Name: rag-climate-expert-eval
Creator: Climate Policy Radar
Published: 2024-09-19T23:16:04+08:00

Hugging Face2024-09-26 更新2024-12-12 收录

RAG系统

能源与气候

数据链接：

https://huggingface.co/datasets/ClimatePolicyRadar/rag-climate-expert-eval 数据链接链接失效反馈

官方服务：

资源简介：

该数据集是一个由气候和能源领域专家提供的人工标注集合，用于评估RAG系统的表现。它包含2,361个对1,138个查询的标注，涉及多个RAG管道。标注指标包括整体质量、相关性、忠实度和CPR生成策略。数据集使用不同的管道生成，每个管道由生成模型、提示类型和检索参数定义。标注由来自国际组织的16位能源专家提供，数据集采用CC-by-4.0许可。该数据集旨在通过多样化的标注偏好来分析RAG管道。

This dataset is a manually annotated collection provided by experts in the climate and energy domains, intended for evaluating the performance of RAG systems. It contains 2,361 annotations for 1,138 queries, covering multiple RAG pipelines. The annotation metrics include overall quality, relevance, faithfulness, and CPR generation strategy. The dataset is generated using diverse pipelines, each defined by a generation model, prompt type, and retrieval parameter set. The annotations were contributed by 16 energy experts from international organizations, and the dataset is licensed under CC-by-4.0. This dataset is designed to analyze RAG pipelines based on diverse annotation preferences.

提供机构：

Climate Policy Radar

创建时间：

2024-09-19

原始信息汇总

RAG Expert Annotations Dataset for Climate and Energy

数据集概述

语言: 英语
特征:
- question: 问题 (字符串)
- output: 输出 (字符串)
- sources: 来源 (字符串)
- overall-quality: 总体质量 (字符串)
- relevance: 相关性 (字符串)
- faithfulness: 忠实度 (字符串)
- cpr-generation-policy: CPR生成策略 (字符串)
- user_id: 用户ID (字符串)
- document_id: 文档ID (字符串)
- model: 模型 (字符串)
- prompt_template: 提示模板 (字符串)
- retrieval_window: 检索窗口 (整数)
- top_k: 前K个 (整数)
- question_id: 问题ID (字符串)
- responded: 是否响应 (布尔值)
分割:
- train: 2361个样本, 4236267字节
下载大小: 993392字节
数据集大小: 4236267字节
配置:
- default: 数据文件路径为 data/train-*

数据集内容

样本数量: 2361个标注, 1138个查询
来源: 主要来自Climate Policy Radar数据库，包括IEA、IAEA、OSCE和WMO发布的能源系统相关文档

指标

Overall quality: 主观衡量响应质量
Responded (automatic): 系统是否响应
Relevance: 响应是否回答了用户的问题
Faithfulness: 生成响应中的事实是否由文档支持
CPR generation policy: CPR生成指南

管道

模型: gemini-1.0-pro-001, gemini-1.5-flash-001, Mistral-7B-Instruct-v0.2, gpt-3.5-turbo-0125, gpt-4-turbo-2024-04-09
提示: 标准RAG提示或对抗性提示
retrieval_window, top_k: 检索窗口和前K个设置

标注者

数量: 16位能源专家
来源: 联合国、IRENA、WMO等国际组织
标注数量: 每人标注50到255个样本

使用指南

标注一致性: 标注者之间存在中等至高度不一致
发布策略: 未聚合标注者标签以分析RAG管道

许可

许可证: CC-by-4.0
条款: 请阅读Terms of Use
联系: 如有问题，请联系partners@climatepolicyradar.org

作者与联系

作者: Climate Policy Radar团队
网站: https://climatepolicyradar.org

搜集汇总

数据集介绍

构建方式

该数据集由Climate Policy Radar与联合国欧洲经济委员会（UNECE）召集的志愿者领域专家合作构建，旨在为特定领域的RAG系统行为提供基础。数据集包含2,361条针对1,138个查询的注释，涵盖了多个RAG管道的评估。每个RAG管道均用于单文档检索，引用的摘要主要来自Climate Policy Radar数据库，并包括由IEA、IAEA、OSCE和WMO发布的与能源系统相关的文档样本。

特点

该数据集的特点在于其丰富的注释内容，涵盖了多个评估指标，如整体质量、响应性、相关性和忠实性等。这些指标由16位来自不同国际组织的能源专家进行标注，确保了数据的专业性和多样性。此外，数据集还包含了多种RAG管道的生成结果，这些管道使用了不同的生成模型和提示模板，旨在提供多样化的响应。

使用方法

该数据集的使用方法包括对RAG管道的性能进行评估和分析。用户可以通过数据集中的注释信息，了解不同管道在回答气候和能源相关问题时的表现。由于数据集中的注释存在一定程度的专家分歧，用户在使用时应考虑这些分歧，并结合具体应用场景进行综合分析。数据集以CC-by-4.0许可发布，用户在使用时应遵守相关条款，并可通过Climate Policy Radar的官方网站获取更多信息。

背景与挑战

背景概述

rag-climate-expert-eval数据集由Climate Policy Radar与联合国欧洲经济委员会（UNECE）召集的志愿者领域专家合作创建，旨在为气候与能源领域的RAG（Retrieval-Augmented Generation）系统提供专家标注数据。该数据集包含2,361条标注，覆盖1,138条查询，主要基于Climate Policy Radar数据库中的气候政策文件以及国际能源署（IEA）、国际原子能机构（IAEA）、欧洲安全与合作组织（OSCE）和世界气象组织（WMO）发布的能源相关文件。通过多指标评估，如整体质量、相关性、忠实性等，该数据集为RAG系统在特定领域的性能优化提供了重要支持。

当前挑战

该数据集在构建与应用过程中面临多重挑战。首先，领域问题的复杂性要求专家标注者对气候与能源政策有深刻理解，以确保标注的准确性与一致性。然而，标注者之间在部分指标上存在较高分歧，这反映了主观评估的固有难度。其次，数据集的构建依赖于多源异构文档的整合与检索，如何确保检索结果的全面性与相关性是一个技术难点。此外，RAG系统的生成模型需严格遵循特定生成策略，避免引入未经验证的事实或政策评价，这对模型的忠实性与可控性提出了更高要求。最后，数据集的高质量标注依赖于大量专家资源，如何在有限资源下优化标注流程并提升标注效率，是未来改进的重要方向。

常用场景

经典使用场景

在气候与能源领域，RAG系统的行为需要基于专家知识进行验证和优化。rag-climate-expert-eval数据集通过人类专家的标注，为RAG系统在单一文档检索任务中的表现提供了详尽的评估。该数据集主要用于评估不同RAG管道在生成回答时的质量、相关性和忠实度，特别是在处理气候政策文档和能源系统相关文献时的表现。

解决学术问题

该数据集解决了RAG系统在特定领域（如气候与能源）中的生成质量评估问题。通过专家标注的多个指标（如整体质量、相关性、忠实度等），研究人员可以深入分析RAG系统在生成回答时的表现，尤其是其在避免幻觉（hallucination）和确保事实准确性方面的能力。这为改进RAG系统的生成策略提供了重要的数据支持。

衍生相关工作

基于rag-climate-expert-eval数据集，许多相关研究工作得以展开。例如，研究人员利用该数据集开发了更精确的RAG管道优化方法，特别是在处理复杂气候政策文档时的表现。此外，该数据集还启发了对生成式AI在政策分析领域应用的进一步研究，推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成