five

rag-climate-expert-eval

收藏
Hugging Face2024-09-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ClimatePolicyRadar/rag-climate-expert-eval
下载链接
链接失效反馈
资源简介:
该数据集是一个由气候和能源领域专家提供的人工标注集合,用于评估RAG系统的表现。它包含2,361个对1,138个查询的标注,涉及多个RAG管道。标注指标包括整体质量、相关性、忠实度和CPR生成策略。数据集使用不同的管道生成,每个管道由生成模型、提示类型和检索参数定义。标注由来自国际组织的16位能源专家提供,数据集采用CC-by-4.0许可。该数据集旨在通过多样化的标注偏好来分析RAG管道。
提供机构:
Climate Policy Radar
创建时间:
2024-09-19
原始信息汇总

RAG Expert Annotations Dataset for Climate and Energy

数据集概述

  • 语言: 英语
  • 特征:
    • question: 问题 (字符串)
    • output: 输出 (字符串)
    • sources: 来源 (字符串)
    • overall-quality: 总体质量 (字符串)
    • relevance: 相关性 (字符串)
    • faithfulness: 忠实度 (字符串)
    • cpr-generation-policy: CPR生成策略 (字符串)
    • user_id: 用户ID (字符串)
    • document_id: 文档ID (字符串)
    • model: 模型 (字符串)
    • prompt_template: 提示模板 (字符串)
    • retrieval_window: 检索窗口 (整数)
    • top_k: 前K个 (整数)
    • question_id: 问题ID (字符串)
    • responded: 是否响应 (布尔值)
  • 分割:
    • train: 2361个样本, 4236267字节
  • 下载大小: 993392字节
  • 数据集大小: 4236267字节
  • 配置:
    • default: 数据文件路径为 data/train-*

数据集内容

  • 样本数量: 2361个标注, 1138个查询
  • 来源: 主要来自Climate Policy Radar数据库,包括IEA、IAEA、OSCE和WMO发布的能源系统相关文档

指标

  • Overall quality: 主观衡量响应质量
  • Responded (automatic): 系统是否响应
  • Relevance: 响应是否回答了用户的问题
  • Faithfulness: 生成响应中的事实是否由文档支持
  • CPR generation policy: CPR生成指南

管道

  • 模型: gemini-1.0-pro-001, gemini-1.5-flash-001, Mistral-7B-Instruct-v0.2, gpt-3.5-turbo-0125, gpt-4-turbo-2024-04-09
  • 提示: 标准RAG提示或对抗性提示
  • retrieval_window, top_k: 检索窗口和前K个设置

标注者

  • 数量: 16位能源专家
  • 来源: 联合国、IRENA、WMO等国际组织
  • 标注数量: 每人标注50到255个样本

使用指南

  • 标注一致性: 标注者之间存在中等至高度不一致
  • 发布策略: 未聚合标注者标签以分析RAG管道

许可

作者与联系

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Climate Policy Radar与联合国欧洲经济委员会(UNECE)召集的志愿者领域专家合作构建,旨在为特定领域的RAG系统行为提供基础。数据集包含2,361条针对1,138个查询的注释,涵盖了多个RAG管道的评估。每个RAG管道均用于单文档检索,引用的摘要主要来自Climate Policy Radar数据库,并包括由IEA、IAEA、OSCE和WMO发布的与能源系统相关的文档样本。
特点
该数据集的特点在于其丰富的注释内容,涵盖了多个评估指标,如整体质量、响应性、相关性和忠实性等。这些指标由16位来自不同国际组织的能源专家进行标注,确保了数据的专业性和多样性。此外,数据集还包含了多种RAG管道的生成结果,这些管道使用了不同的生成模型和提示模板,旨在提供多样化的响应。
使用方法
该数据集的使用方法包括对RAG管道的性能进行评估和分析。用户可以通过数据集中的注释信息,了解不同管道在回答气候和能源相关问题时的表现。由于数据集中的注释存在一定程度的专家分歧,用户在使用时应考虑这些分歧,并结合具体应用场景进行综合分析。数据集以CC-by-4.0许可发布,用户在使用时应遵守相关条款,并可通过Climate Policy Radar的官方网站获取更多信息。
背景与挑战
背景概述
rag-climate-expert-eval数据集由Climate Policy Radar与联合国欧洲经济委员会(UNECE)召集的志愿者领域专家合作创建,旨在为气候与能源领域的RAG(Retrieval-Augmented Generation)系统提供专家标注数据。该数据集包含2,361条标注,覆盖1,138条查询,主要基于Climate Policy Radar数据库中的气候政策文件以及国际能源署(IEA)、国际原子能机构(IAEA)、欧洲安全与合作组织(OSCE)和世界气象组织(WMO)发布的能源相关文件。通过多指标评估,如整体质量、相关性、忠实性等,该数据集为RAG系统在特定领域的性能优化提供了重要支持。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,领域问题的复杂性要求专家标注者对气候与能源政策有深刻理解,以确保标注的准确性与一致性。然而,标注者之间在部分指标上存在较高分歧,这反映了主观评估的固有难度。其次,数据集的构建依赖于多源异构文档的整合与检索,如何确保检索结果的全面性与相关性是一个技术难点。此外,RAG系统的生成模型需严格遵循特定生成策略,避免引入未经验证的事实或政策评价,这对模型的忠实性与可控性提出了更高要求。最后,数据集的高质量标注依赖于大量专家资源,如何在有限资源下优化标注流程并提升标注效率,是未来改进的重要方向。
常用场景
经典使用场景
在气候与能源领域,RAG系统的行为需要基于专家知识进行验证和优化。rag-climate-expert-eval数据集通过人类专家的标注,为RAG系统在单一文档检索任务中的表现提供了详尽的评估。该数据集主要用于评估不同RAG管道在生成回答时的质量、相关性和忠实度,特别是在处理气候政策文档和能源系统相关文献时的表现。
解决学术问题
该数据集解决了RAG系统在特定领域(如气候与能源)中的生成质量评估问题。通过专家标注的多个指标(如整体质量、相关性、忠实度等),研究人员可以深入分析RAG系统在生成回答时的表现,尤其是其在避免幻觉(hallucination)和确保事实准确性方面的能力。这为改进RAG系统的生成策略提供了重要的数据支持。
衍生相关工作
基于rag-climate-expert-eval数据集,许多相关研究工作得以展开。例如,研究人员利用该数据集开发了更精确的RAG管道优化方法,特别是在处理复杂气候政策文档时的表现。此外,该数据集还启发了对生成式AI在政策分析领域应用的进一步研究,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作