rag-climate-expert-eval|RAG系统评估数据集|气候与能源数据集
收藏RAG Expert Annotations Dataset for Climate and Energy
数据集概述
- 语言: 英语
- 特征:
question
: 问题 (字符串)output
: 输出 (字符串)sources
: 来源 (字符串)overall-quality
: 总体质量 (字符串)relevance
: 相关性 (字符串)faithfulness
: 忠实度 (字符串)cpr-generation-policy
: CPR生成策略 (字符串)user_id
: 用户ID (字符串)document_id
: 文档ID (字符串)model
: 模型 (字符串)prompt_template
: 提示模板 (字符串)retrieval_window
: 检索窗口 (整数)top_k
: 前K个 (整数)question_id
: 问题ID (字符串)responded
: 是否响应 (布尔值)
- 分割:
train
: 2361个样本, 4236267字节
- 下载大小: 993392字节
- 数据集大小: 4236267字节
- 配置:
default
: 数据文件路径为data/train-*
数据集内容
- 样本数量: 2361个标注, 1138个查询
- 来源: 主要来自Climate Policy Radar数据库,包括IEA、IAEA、OSCE和WMO发布的能源系统相关文档
指标
- Overall quality: 主观衡量响应质量
- Responded (automatic): 系统是否响应
- Relevance: 响应是否回答了用户的问题
- Faithfulness: 生成响应中的事实是否由文档支持
- CPR generation policy: CPR生成指南
管道
- 模型:
gemini-1.0-pro-001
,gemini-1.5-flash-001
,Mistral-7B-Instruct-v0.2
,gpt-3.5-turbo-0125
,gpt-4-turbo-2024-04-09
- 提示: 标准RAG提示或对抗性提示
- retrieval_window, top_k: 检索窗口和前K个设置
标注者
- 数量: 16位能源专家
- 来源: 联合国、IRENA、WMO等国际组织
- 标注数量: 每人标注50到255个样本
使用指南
- 标注一致性: 标注者之间存在中等至高度不一致
- 发布策略: 未聚合标注者标签以分析RAG管道
许可
- 许可证: CC-by-4.0
- 条款: 请阅读Terms of Use
- 联系: 如有问题,请联系partners@climatepolicyradar.org
作者与联系
- 作者: Climate Policy Radar团队
- 网站: https://climatepolicyradar.org

MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
World Flights
该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。
github 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录