rag-climate-expert-eval
收藏Hugging Face2024-09-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ClimatePolicyRadar/rag-climate-expert-eval
下载链接
链接失效反馈资源简介:
该数据集是一个由气候和能源领域专家提供的人工标注集合,用于评估RAG系统的表现。它包含2,361个对1,138个查询的标注,涉及多个RAG管道。标注指标包括整体质量、相关性、忠实度和CPR生成策略。数据集使用不同的管道生成,每个管道由生成模型、提示类型和检索参数定义。标注由来自国际组织的16位能源专家提供,数据集采用CC-by-4.0许可。该数据集旨在通过多样化的标注偏好来分析RAG管道。
提供机构:
Climate Policy Radar
创建时间:
2024-09-19
原始信息汇总
RAG Expert Annotations Dataset for Climate and Energy
数据集概述
- 语言: 英语
- 特征:
question: 问题 (字符串)output: 输出 (字符串)sources: 来源 (字符串)overall-quality: 总体质量 (字符串)relevance: 相关性 (字符串)faithfulness: 忠实度 (字符串)cpr-generation-policy: CPR生成策略 (字符串)user_id: 用户ID (字符串)document_id: 文档ID (字符串)model: 模型 (字符串)prompt_template: 提示模板 (字符串)retrieval_window: 检索窗口 (整数)top_k: 前K个 (整数)question_id: 问题ID (字符串)responded: 是否响应 (布尔值)
- 分割:
train: 2361个样本, 4236267字节
- 下载大小: 993392字节
- 数据集大小: 4236267字节
- 配置:
default: 数据文件路径为data/train-*
数据集内容
- 样本数量: 2361个标注, 1138个查询
- 来源: 主要来自Climate Policy Radar数据库,包括IEA、IAEA、OSCE和WMO发布的能源系统相关文档
指标
- Overall quality: 主观衡量响应质量
- Responded (automatic): 系统是否响应
- Relevance: 响应是否回答了用户的问题
- Faithfulness: 生成响应中的事实是否由文档支持
- CPR generation policy: CPR生成指南
管道
- 模型:
gemini-1.0-pro-001,gemini-1.5-flash-001,Mistral-7B-Instruct-v0.2,gpt-3.5-turbo-0125,gpt-4-turbo-2024-04-09 - 提示: 标准RAG提示或对抗性提示
- retrieval_window, top_k: 检索窗口和前K个设置
标注者
- 数量: 16位能源专家
- 来源: 联合国、IRENA、WMO等国际组织
- 标注数量: 每人标注50到255个样本
使用指南
- 标注一致性: 标注者之间存在中等至高度不一致
- 发布策略: 未聚合标注者标签以分析RAG管道
许可
- 许可证: CC-by-4.0
- 条款: 请阅读Terms of Use
- 联系: 如有问题,请联系partners@climatepolicyradar.org
作者与联系
- 作者: Climate Policy Radar团队
- 网站: https://climatepolicyradar.org
搜集汇总
数据集介绍

构建方式
该数据集由Climate Policy Radar与联合国欧洲经济委员会(UNECE)召集的志愿者领域专家合作构建,旨在为特定领域的RAG系统行为提供基础。数据集包含2,361条针对1,138个查询的注释,涵盖了多个RAG管道的评估。每个RAG管道均用于单文档检索,引用的摘要主要来自Climate Policy Radar数据库,并包括由IEA、IAEA、OSCE和WMO发布的与能源系统相关的文档样本。
特点
该数据集的特点在于其丰富的注释内容,涵盖了多个评估指标,如整体质量、响应性、相关性和忠实性等。这些指标由16位来自不同国际组织的能源专家进行标注,确保了数据的专业性和多样性。此外,数据集还包含了多种RAG管道的生成结果,这些管道使用了不同的生成模型和提示模板,旨在提供多样化的响应。
使用方法
该数据集的使用方法包括对RAG管道的性能进行评估和分析。用户可以通过数据集中的注释信息,了解不同管道在回答气候和能源相关问题时的表现。由于数据集中的注释存在一定程度的专家分歧,用户在使用时应考虑这些分歧,并结合具体应用场景进行综合分析。数据集以CC-by-4.0许可发布,用户在使用时应遵守相关条款,并可通过Climate Policy Radar的官方网站获取更多信息。
背景与挑战
背景概述
rag-climate-expert-eval数据集由Climate Policy Radar与联合国欧洲经济委员会(UNECE)召集的志愿者领域专家合作创建,旨在为气候与能源领域的RAG(Retrieval-Augmented Generation)系统提供专家标注数据。该数据集包含2,361条标注,覆盖1,138条查询,主要基于Climate Policy Radar数据库中的气候政策文件以及国际能源署(IEA)、国际原子能机构(IAEA)、欧洲安全与合作组织(OSCE)和世界气象组织(WMO)发布的能源相关文件。通过多指标评估,如整体质量、相关性、忠实性等,该数据集为RAG系统在特定领域的性能优化提供了重要支持。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,领域问题的复杂性要求专家标注者对气候与能源政策有深刻理解,以确保标注的准确性与一致性。然而,标注者之间在部分指标上存在较高分歧,这反映了主观评估的固有难度。其次,数据集的构建依赖于多源异构文档的整合与检索,如何确保检索结果的全面性与相关性是一个技术难点。此外,RAG系统的生成模型需严格遵循特定生成策略,避免引入未经验证的事实或政策评价,这对模型的忠实性与可控性提出了更高要求。最后,数据集的高质量标注依赖于大量专家资源,如何在有限资源下优化标注流程并提升标注效率,是未来改进的重要方向。
常用场景
经典使用场景
在气候与能源领域,RAG系统的行为需要基于专家知识进行验证和优化。rag-climate-expert-eval数据集通过人类专家的标注,为RAG系统在单一文档检索任务中的表现提供了详尽的评估。该数据集主要用于评估不同RAG管道在生成回答时的质量、相关性和忠实度,特别是在处理气候政策文档和能源系统相关文献时的表现。
解决学术问题
该数据集解决了RAG系统在特定领域(如气候与能源)中的生成质量评估问题。通过专家标注的多个指标(如整体质量、相关性、忠实度等),研究人员可以深入分析RAG系统在生成回答时的表现,尤其是其在避免幻觉(hallucination)和确保事实准确性方面的能力。这为改进RAG系统的生成策略提供了重要的数据支持。
衍生相关工作
基于rag-climate-expert-eval数据集,许多相关研究工作得以展开。例如,研究人员利用该数据集开发了更精确的RAG管道优化方法,特别是在处理复杂气候政策文档时的表现。此外,该数据集还启发了对生成式AI在政策分析领域应用的进一步研究,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成



