five

rag-climate-expert-eval|RAG系统评估数据集|气候与能源数据集

收藏
huggingface2024-09-26 更新2024-12-12 收录
RAG系统评估
气候与能源
下载链接:
https://huggingface.co/datasets/ClimatePolicyRadar/rag-climate-expert-eval
下载链接
链接失效反馈
资源简介:
该数据集是一个由气候和能源领域专家提供的人工标注集合,用于评估RAG系统的表现。它包含2,361个对1,138个查询的标注,涉及多个RAG管道。标注指标包括整体质量、相关性、忠实度和CPR生成策略。数据集使用不同的管道生成,每个管道由生成模型、提示类型和检索参数定义。标注由来自国际组织的16位能源专家提供,数据集采用CC-by-4.0许可。该数据集旨在通过多样化的标注偏好来分析RAG管道。
提供机构:
Climate Policy Radar
创建时间:
2024-09-19
原始信息汇总

RAG Expert Annotations Dataset for Climate and Energy

数据集概述

  • 语言: 英语
  • 特征:
    • question: 问题 (字符串)
    • output: 输出 (字符串)
    • sources: 来源 (字符串)
    • overall-quality: 总体质量 (字符串)
    • relevance: 相关性 (字符串)
    • faithfulness: 忠实度 (字符串)
    • cpr-generation-policy: CPR生成策略 (字符串)
    • user_id: 用户ID (字符串)
    • document_id: 文档ID (字符串)
    • model: 模型 (字符串)
    • prompt_template: 提示模板 (字符串)
    • retrieval_window: 检索窗口 (整数)
    • top_k: 前K个 (整数)
    • question_id: 问题ID (字符串)
    • responded: 是否响应 (布尔值)
  • 分割:
    • train: 2361个样本, 4236267字节
  • 下载大小: 993392字节
  • 数据集大小: 4236267字节
  • 配置:
    • default: 数据文件路径为 data/train-*

数据集内容

  • 样本数量: 2361个标注, 1138个查询
  • 来源: 主要来自Climate Policy Radar数据库,包括IEA、IAEA、OSCE和WMO发布的能源系统相关文档

指标

  • Overall quality: 主观衡量响应质量
  • Responded (automatic): 系统是否响应
  • Relevance: 响应是否回答了用户的问题
  • Faithfulness: 生成响应中的事实是否由文档支持
  • CPR generation policy: CPR生成指南

管道

  • 模型: gemini-1.0-pro-001, gemini-1.5-flash-001, Mistral-7B-Instruct-v0.2, gpt-3.5-turbo-0125, gpt-4-turbo-2024-04-09
  • 提示: 标准RAG提示或对抗性提示
  • retrieval_window, top_k: 检索窗口和前K个设置

标注者

  • 数量: 16位能源专家
  • 来源: 联合国、IRENA、WMO等国际组织
  • 标注数量: 每人标注50到255个样本

使用指南

  • 标注一致性: 标注者之间存在中等至高度不一致
  • 发布策略: 未聚合标注者标签以分析RAG管道

许可

作者与联系

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Climate Policy Radar与联合国欧洲经济委员会(UNECE)召集的志愿者领域专家合作构建,旨在为特定领域的RAG系统行为提供基础。数据集包含2,361条针对1,138个查询的注释,涵盖了多个RAG管道的评估。每个RAG管道均用于单文档检索,引用的摘要主要来自Climate Policy Radar数据库,并包括由IEA、IAEA、OSCE和WMO发布的与能源系统相关的文档样本。
特点
该数据集的特点在于其丰富的注释内容,涵盖了多个评估指标,如整体质量、响应性、相关性和忠实性等。这些指标由16位来自不同国际组织的能源专家进行标注,确保了数据的专业性和多样性。此外,数据集还包含了多种RAG管道的生成结果,这些管道使用了不同的生成模型和提示模板,旨在提供多样化的响应。
使用方法
该数据集的使用方法包括对RAG管道的性能进行评估和分析。用户可以通过数据集中的注释信息,了解不同管道在回答气候和能源相关问题时的表现。由于数据集中的注释存在一定程度的专家分歧,用户在使用时应考虑这些分歧,并结合具体应用场景进行综合分析。数据集以CC-by-4.0许可发布,用户在使用时应遵守相关条款,并可通过Climate Policy Radar的官方网站获取更多信息。
背景与挑战
背景概述
rag-climate-expert-eval数据集由Climate Policy Radar与联合国欧洲经济委员会(UNECE)召集的志愿者领域专家合作创建,旨在为气候与能源领域的RAG(Retrieval-Augmented Generation)系统提供专家标注数据。该数据集包含2,361条标注,覆盖1,138条查询,主要基于Climate Policy Radar数据库中的气候政策文件以及国际能源署(IEA)、国际原子能机构(IAEA)、欧洲安全与合作组织(OSCE)和世界气象组织(WMO)发布的能源相关文件。通过多指标评估,如整体质量、相关性、忠实性等,该数据集为RAG系统在特定领域的性能优化提供了重要支持。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,领域问题的复杂性要求专家标注者对气候与能源政策有深刻理解,以确保标注的准确性与一致性。然而,标注者之间在部分指标上存在较高分歧,这反映了主观评估的固有难度。其次,数据集的构建依赖于多源异构文档的整合与检索,如何确保检索结果的全面性与相关性是一个技术难点。此外,RAG系统的生成模型需严格遵循特定生成策略,避免引入未经验证的事实或政策评价,这对模型的忠实性与可控性提出了更高要求。最后,数据集的高质量标注依赖于大量专家资源,如何在有限资源下优化标注流程并提升标注效率,是未来改进的重要方向。
常用场景
经典使用场景
在气候与能源领域,RAG系统的行为需要基于专家知识进行验证和优化。rag-climate-expert-eval数据集通过人类专家的标注,为RAG系统在单一文档检索任务中的表现提供了详尽的评估。该数据集主要用于评估不同RAG管道在生成回答时的质量、相关性和忠实度,特别是在处理气候政策文档和能源系统相关文献时的表现。
解决学术问题
该数据集解决了RAG系统在特定领域(如气候与能源)中的生成质量评估问题。通过专家标注的多个指标(如整体质量、相关性、忠实度等),研究人员可以深入分析RAG系统在生成回答时的表现,尤其是其在避免幻觉(hallucination)和确保事实准确性方面的能力。这为改进RAG系统的生成策略提供了重要的数据支持。
衍生相关工作
基于rag-climate-expert-eval数据集,许多相关研究工作得以展开。例如,研究人员利用该数据集开发了更精确的RAG管道优化方法,特别是在处理复杂气候政策文档时的表现。此外,该数据集还启发了对生成式AI在政策分析领域应用的进一步研究,推动了相关领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录