ComplexBench
收藏数据集概述
数据集结构
数据集 ComplexBench 存储在文件 data/data_release.json 中,采用列表格式组织,每个元素代表数据集中的一个实例。每个实例包含以下字段:
-
main_id(整数): 实例的唯一标识符。 -
group(字符串): 任务组标识符,仅适用于包含选择的指令。 -
idx_in_group(整数): 任务组中的指令编号,仅适用于包含选择的指令。 -
instruction(字符串): 实际指令。 -
task_types(字符串): 指令的任务类型。 -
constraint_dimensions(列表): 指令中的所有约束维度。 -
composition_types(列表): 指令中约束的所有组合类型。 -
category(列表): 基于组合类型的指令类别。 -
scoring_questions(列表): 指令的所有评分问题,用于验证每个约束维度和组合类型。每个评分问题包含:point_id(整数): 评分问题的编号。question(字符串): 实际评分问题。rule(字符串): 评分验证规则,null表示无法通过规则验证。constraint_dimensions(字符串): 评分问题验证的所有约束维度。composition_types(字符串): 评分问题验证的所有组合类型。dep(列表): 此评分问题依赖的所有评分问题编号。
-
sub_instructions(字典): 基于主指令分解的原子指令。每个键为sub_instruction_x,其中x是分解指令的编号。每个值包含:instruction(字符串): 实际分解的原子指令。scoring_questions(列表): 分解原子指令的所有评分问题。
数据集示例
以下是 ComplexBench 数据集的一个示例:
json { "main_id": 899, "group": "complex_instruction_eval_1285", "idx_in_group": 1, "instruction": "依次判断以下两个案例中的国家是否有特别提款权。如果有,请写出一篇为该国申请提款的文章,字数不少于300字,且分点明确。如果没有则解释原因,字数不超过100字。
案例1:
国家A是一个发展中国家,是国际货币基金组织(IMF)的成员国,正在经历一场自然灾害,导致该国经济陷入危机,失去了国际支付能力。
案例2:
国家B是一个富裕国家,面临着国内通货膨胀问题,B是IMF的成员国,拥有充足的外汇储备。", "task_types": "Professional Writing", "constraint_dimensions": [ "Length", "Helpfulness", "Bullets Format", "Factuality" ], "composition_types": [ "And", "Selection" ], "category": "Selection_2", "scoring_questions": [ { "point_id": 0, "question": "模型是否正确判断国家A有特别提款权?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [ "Selection" ], "dep": [] }, { "point_id": 1, "question": "模型是否正确判断国家B没有特别提款权?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [ "Selection" ], "dep": [] }, { "point_id": 2, "question": "模型是否根据国家A有特别提款权生成申请提款的文章?", "rule": null, "constraint_dimensions": [ "Helpfulness" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 3, "question": "模型生成的申请提款文章是否逻辑合理,符合事实?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 4, "question": "模型生成的申请提款文章是否在300字以上?", "rule": "model_length:[300,10000]", "constraint_dimensions": [ "Length" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 5, "question": "模型生成的申请提款文章是否分点明确?", "rule": null, "constraint_dimensions": [ "Bullets Format" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 6, "question": "模型是否生成国家B没有特别提款权的解释?", "rule": null, "constraint_dimensions": [ "Helpfulness" ], "composition_types": [], "dep": [ 1 ] }, { "point_id": 7, "question": "模型生成的解释是否逻辑合理,符合事实?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [], "dep": [ 1 ] }, { "point_id": 8, "question": "模型生成的解释是否不超过100字?", "rule": "model_length:[1,100]", "constraint_dimensions": [ "Length" ], "composition_types": [], "dep": [ 1 ] } ], "sub_instructions": { "sub_instruction_0": { "instruction": "判断以下两个案例中的国家是否有特别提款权。
案例1:
国家A是一个发展中国家,是国际货币基金组织(IMF)的成员国,正在经历一场自然灾害,导致该国经济陷入危机,失去了国际支付能力。
案例2:
国家B是一个富裕国家,面临着国内通货膨胀问题,B是IMF的成员国,拥有充足的外汇储备。", "scoring_questions": [ "模型是否正确判断国家A有特别提款权?", "模型是否正确判断国家B没有特别提款权?" ] }, "sub_instruction_1": { "instruction": "请根据上面的判断,完成下面的指令。
- 如果有,请写出一篇为该国申请提款的文章,字数不少于300字,且分点明确。
- 如果没有则解释原因,字数不超过100字。", "scoring_questions": [ "模型是否根据国家A有特别提款权生成申请提款的文章?", "模型生成的申请提款文章是否逻辑合理,符合事实?", "模型生成的申请提款文章是否在300字以上?", "模型生成的申请提款文章是否分点明确?", "模型是否生成国家B没有特别提款权的解释?", "模型生成的解释是否逻辑合理,符合事实?", "模型生成的解释是否不超过100字?" ] } } }




