ComplexBench|大型语言模型数据集|复杂指令处理数据集
收藏数据集概述
数据集结构
数据集 ComplexBench
存储在文件 data/data_release.json
中,采用列表格式组织,每个元素代表数据集中的一个实例。每个实例包含以下字段:
-
main_id
(整数): 实例的唯一标识符。 -
group
(字符串): 任务组标识符,仅适用于包含选择的指令。 -
idx_in_group
(整数): 任务组中的指令编号,仅适用于包含选择的指令。 -
instruction
(字符串): 实际指令。 -
task_types
(字符串): 指令的任务类型。 -
constraint_dimensions
(列表): 指令中的所有约束维度。 -
composition_types
(列表): 指令中约束的所有组合类型。 -
category
(列表): 基于组合类型的指令类别。 -
scoring_questions
(列表): 指令的所有评分问题,用于验证每个约束维度和组合类型。每个评分问题包含:point_id
(整数): 评分问题的编号。question
(字符串): 实际评分问题。rule
(字符串): 评分验证规则,null
表示无法通过规则验证。constraint_dimensions
(字符串): 评分问题验证的所有约束维度。composition_types
(字符串): 评分问题验证的所有组合类型。dep
(列表): 此评分问题依赖的所有评分问题编号。
-
sub_instructions
(字典): 基于主指令分解的原子指令。每个键为sub_instruction_x
,其中x
是分解指令的编号。每个值包含:instruction
(字符串): 实际分解的原子指令。scoring_questions
(列表): 分解原子指令的所有评分问题。
数据集示例
以下是 ComplexBench
数据集的一个示例:
json { "main_id": 899, "group": "complex_instruction_eval_1285", "idx_in_group": 1, "instruction": "依次判断以下两个案例中的国家是否有特别提款权。如果有,请写出一篇为该国申请提款的文章,字数不少于300字,且分点明确。如果没有则解释原因,字数不超过100字。
案例1:
国家A是一个发展中国家,是国际货币基金组织(IMF)的成员国,正在经历一场自然灾害,导致该国经济陷入危机,失去了国际支付能力。
案例2:
国家B是一个富裕国家,面临着国内通货膨胀问题,B是IMF的成员国,拥有充足的外汇储备。", "task_types": "Professional Writing", "constraint_dimensions": [ "Length", "Helpfulness", "Bullets Format", "Factuality" ], "composition_types": [ "And", "Selection" ], "category": "Selection_2", "scoring_questions": [ { "point_id": 0, "question": "模型是否正确判断国家A有特别提款权?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [ "Selection" ], "dep": [] }, { "point_id": 1, "question": "模型是否正确判断国家B没有特别提款权?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [ "Selection" ], "dep": [] }, { "point_id": 2, "question": "模型是否根据国家A有特别提款权生成申请提款的文章?", "rule": null, "constraint_dimensions": [ "Helpfulness" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 3, "question": "模型生成的申请提款文章是否逻辑合理,符合事实?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 4, "question": "模型生成的申请提款文章是否在300字以上?", "rule": "model_length:[300,10000]", "constraint_dimensions": [ "Length" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 5, "question": "模型生成的申请提款文章是否分点明确?", "rule": null, "constraint_dimensions": [ "Bullets Format" ], "composition_types": [], "dep": [ 0 ] }, { "point_id": 6, "question": "模型是否生成国家B没有特别提款权的解释?", "rule": null, "constraint_dimensions": [ "Helpfulness" ], "composition_types": [], "dep": [ 1 ] }, { "point_id": 7, "question": "模型生成的解释是否逻辑合理,符合事实?", "rule": null, "constraint_dimensions": [ "Factuality" ], "composition_types": [], "dep": [ 1 ] }, { "point_id": 8, "question": "模型生成的解释是否不超过100字?", "rule": "model_length:[1,100]", "constraint_dimensions": [ "Length" ], "composition_types": [], "dep": [ 1 ] } ], "sub_instructions": { "sub_instruction_0": { "instruction": "判断以下两个案例中的国家是否有特别提款权。
案例1:
国家A是一个发展中国家,是国际货币基金组织(IMF)的成员国,正在经历一场自然灾害,导致该国经济陷入危机,失去了国际支付能力。
案例2:
国家B是一个富裕国家,面临着国内通货膨胀问题,B是IMF的成员国,拥有充足的外汇储备。", "scoring_questions": [ "模型是否正确判断国家A有特别提款权?", "模型是否正确判断国家B没有特别提款权?" ] }, "sub_instruction_1": { "instruction": "请根据上面的判断,完成下面的指令。
- 如果有,请写出一篇为该国申请提款的文章,字数不少于300字,且分点明确。
- 如果没有则解释原因,字数不超过100字。", "scoring_questions": [ "模型是否根据国家A有特别提款权生成申请提款的文章?", "模型生成的申请提款文章是否逻辑合理,符合事实?", "模型生成的申请提款文章是否在300字以上?", "模型生成的申请提款文章是否分点明确?", "模型是否生成国家B没有特别提款权的解释?", "模型生成的解释是否逻辑合理,符合事实?", "模型生成的解释是否不超过100字?" ] } } }

网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
FAOSTAT Forestry
FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。
www.fao.org 收录
中国区域教育数据库
该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。
www.moe.gov.cn 收录