harsh147/GroundCocoa
收藏Hugging Face2024-04-15 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/harsh147/GroundCocoa
下载链接
链接失效反馈官方服务:
资源简介:
GroundCocoa是一个基准数据集,用于评估大型语言模型中的条件和组合推理能力,通过多选格式的航班预订任务进行。该数据集包含一个由4849个样本组成的主测试集和一个用于参数调整的小型验证集(52个样本)。每个样本包括唯一标识符、自然语言表达的用户需求、五个候选航班选项以及正确答案。此外,还提供了描述样本复杂性的补充字段,如使用的航班特征数量、生成约束时的最小项表行数等。
提供机构:
harsh147
原始信息汇总
数据集概述
数据集名称: GroundCocoa
目的: 评估大型语言模型在条件和组合推理方面的能力,通过多选格式的航班预订任务进行。
语言: 英语
规模: 1K<n<10K
许可: CC-BY-4.0
数据集详情
测试集: 包含4849个样本,涉及728个独特的用户需求。用户需求可能重复,但选项不同。
验证集: 包含52个样本,源自6个独特的用户需求,用于特定参数调整。
数据集结构
主要字段:
- id:唯一标识符
- query:自然语言表达的用户需求
- Option A-E:候选航班选项
- Answer:匹配用户需求的航班选项(A, B, C, D, E)
补充字段:
- slots:样本中使用的航班特征数量
- minterms:生成约束时的minterm表行数
- query_pos:使用槽变量的产品总和(POS)表达式
- entropy_avg:每个航班选项的每个独立槽的平均熵
- entropy_overall:所有槽的总熵
- primitives:每个槽的基本约束
- largest_connected_component:从POS表达式导出的槽之间依赖图的最大连接组件
- is_typical:如果描述了非常规用户需求,则为False
数据集创建
数据集生成遵循自动化多阶段管道,样本生成后进行手动验证和必要修改。



