ClarQ-LLM|对话系统数据集|语言模型评估数据集
收藏ClarQ-LLM 数据集概述
数据集简介
ClarQ-LLM 是一个用于评估对话代理在任务导向对话中提出澄清问题的能力的基准数据集。该数据集包含任务、对话代理的交互脚本以及模型评估工具。
数据集内容
- 任务类型: 任务导向对话
- 语言: 中文和英文
- 评估指标:
- S: 成功率(越高越好)
- D: 平均查询差异(越低越好)
- L: 平均查询长度(越短越好)
基准结果
LLMs | S (Chinese) | D (Chinese) | L (Chinese) | S (English) | D (English) | L (English) |
---|---|---|---|---|---|---|
L3.1-405B-Inst | - | - | - | 0.605 | 0.473 | 118 |
GPT-4o | 0.508 | 0.215 | 129.9 | 0.485 | 0.492 | 70.5 |
GPT-4 | 0.258 | -0.72 | 94.3 | 0.296 | -0.56 | 76.4 |
ERNIE 4.0 | 0.315 | -0.82 | 141.0 | - | - | - |
GPT-3.5 | 0 | -4.21 | 92.0 | 0.02 | -2.79 | 52.6 |
数据集结构
- 数据集分割:
- 测试集: 文件1-26
- 开发集: 文件25-31
- 文件存储路径:
data/Chinese/
用于中文任务data/English/
用于英文任务
使用说明
- 设置API密钥: 在运行脚本前,需在
ALL_KEYS.py
中替换占位符API密钥。 - 运行预缓存交互: 使用预缓存的交互数据(存储在
log/
目录中)进行结果复现。 - 自定义和调试: 通过检查缓存的提示和响应来调试GPT-4o代理之间的交互。
- LLAMA3.1交互: 更新API密钥并执行相关命令以运行LLAMA3.1交互。
- 评估: 使用预缓存结果评估模型性能。
- 运行交互: 设置密钥后,使用命令与代理进行交互。
- 开发自定义Seeker代理: 扩展
player
类并实现自定义的generate_response
方法。
依赖项
运行以下命令安装所需包: bash pip install -r requirements.txt
示例对话
- 中文对话示例: 冒险者与Jax的对话,讨论如何基于现有物品和技能建造避难所。
- 英文对话示例: 冒险者与Jax的对话,讨论如何基于现有物品和技能建造避难所。
许可证
该项目基于MIT许可证。详细信息请参见LICENSE
文件。

PQAref
PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。
huggingface 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
UAVDT
UAVDT是一个用于目标检测任务的数据集。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录