MMLU and BIG-Bench
收藏数据集概述
数据实例 - 模仿数据集
-
更新策略: 使用模仿策略对MMLU中的代数部分进行更新,共涉及10个任务。
-
任务详情: 包括任务信息、问题格式及认知水平,详情见数据集中的表格。
-
验证方法: 采用“模型自我检查”和“程序检查”两种方法进行验证。
-
样本示例: 保持与原始样本(种子样本)相同的格式,例如: json { "question": "Determine the degree for the provided field extension Q(sqrt(5), sqrt(7), sqrt(35)) over Q.", "A": "8", "B": "0", "C": "2", "D": "4", "answer": "D" }
-
数据存储位置: 模仿数据集存储于
data/mimic。
数据统计 - 模仿数据集
- 统计信息: 详细统计信息见数据集中的表格。
数据实例 - 扩展数据集
-
更新策略: 使用扩展策略,选择体育、算法、代数和物理四个领域的数据集进行扩展。
-
样本示例: 包括扩展问题、参考答案、流行度和认知水平,例如: json { "popularity": 213, "question": "Provide a formal definition of the tensor product of two modules over a ring, including the universal property it satisfies.", "ref_answer": "The tensor product of two modules M and N over a ring R, denoted by M ⊗R N, is a module T along with a bilinear map φ: M × N → T such that for every bilinear map f: M × N → P, where P is any R-module, there exists a unique linear map F: T → P such that F o φ = f. This is known as the universal property of the tensor product.", "level": "remember" }
-
数据存储位置: 扩展数据集存储于
data/extend。
数据统计 - 扩展数据集
- 统计信息: 详细统计信息见数据集中的表格。
评估
- 评估脚本: 提供针对OpenAI模型的评估脚本。
- 使用说明: 使用时需在脚本中设置API密钥,并通过命令行运行评估脚本。




