General365
收藏github2026-04-14 更新2026-04-15 收录
下载链接:
https://github.com/meituan-longcat/General365
下载链接
链接失效反馈官方服务:
资源简介:
General365是一个高度挑战性和多样化的基准数据集,用于评估大型语言模型在通用推理能力方面的表现。通用推理指的是仅依赖于通用知识的推理任务,通用知识被定义为K-12范围内的知识(如常识、基础语言学和基础学科知识),不包括大学水平的学术知识。与特定领域的推理(如数学推理)相比,通用推理评估能更好地将模型的推理能力与其知识依赖性解耦,从而更精确地评估推理技能而非死记硬背,同时测试模型在更广泛场景中的推理能力泛化。
General365 is a highly challenging and diverse benchmark dataset for evaluating the general reasoning capabilities of large language models. General reasoning refers to reasoning tasks that rely solely on general knowledge, which is defined as knowledge within the K-12 scope (such as common sense, basic linguistics and basic disciplinary knowledge), excluding university-level academic knowledge. Compared with domain-specific reasoning (such as mathematical reasoning), general reasoning evaluation can better decouple the model's reasoning ability from its knowledge dependence, thereby more accurately assessing reasoning skills rather than rote memorization, while testing the generalization of the model's reasoning ability across a wider range of scenarios.
创建时间:
2026-04-08
原始信息汇总
General365 数据集概述
数据集简介
General365 是一个用于评估大语言模型通用推理能力的高挑战性、高多样性基准测试。其核心目标是评估模型在严格限定于 K-12 知识范围内的通用知识上进行推理的能力,从而更精确地衡量模型的推理技能,而非知识记忆。
核心特性
- 高多样性:包含 365 个手动精心设计、高度多样化的种子问题,旨在覆盖广泛的推理挑战,避免重复特征或模式。通过改变表面语义或约束条件同时保留核心推理技能,这些种子问题被进一步扩展为 1,095 个变体。
- 高挑战性:涵盖 8 个具有挑战性的类别。即使是最先进的模型在这些任务上也仅能达到“及格”水平的性能。
- 聚焦推理而非知识:所需知识严格限定在 K-12 范围内,确保数据集衡量的是模型的推理能力,而非知识检索能力。
- 严格的质量控制:所有实例均经过人工审核,以确保最高质量标准。
- 精确的评分:采用基于规则和基于模型的混合评分算法,经人工验证的评分准确率达到 99.6%。
数据构成与发布
- 为确保评估的公正性,仅发布了全部问题的一半。其余问题作为保留测试集,用于追踪开源部分可能存在的数据污染问题。
- 数据集包含 365 个种子问题及其扩展的 1,095 个变体。
评估与使用
- 评估脚本结合了基于规则和基于模型的方法进行评分。
- 使用流程包括准备模型响应文件(JSONL 格式)和运行评分脚本。
- 评估结果将保存在指定目录中。
相关资源
- 论文地址:https://arxiv.org/abs/2604.11778
- 项目主页:https://general365.github.io/
- 排行榜:https://general365.github.io/#Leaderboard
- 数据集(Hugging Face):https://huggingface.co/datasets/meituan-longcat/General365_Public
- 代码仓库:https://github.com/meituan-longcat/General365
引用
如使用该数据集,请引用相关论文:
@misc{general365benchmark, title={General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks}, author={Junlin Liu and Shengnan An and Shuang Zhou and Dan Ma and Shixiong Luo and Ying Xie and Yuan Zhang and Wenling Yuan and Yifan Zhou and Xiaoyu Li and Ziwen Wang and Xuezhi Cao and Xunliang Cai}, year={2026}, eprint={2604.11778}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.11778}, }
许可证
本项目采用 MIT 许可证。
搜集汇总
数据集介绍

构建方式
在人工智能领域,评估大型语言模型的通用推理能力是一项关键挑战。General365数据集的构建采用了精心设计的手工策划方法,首先基于365个高度多样化的种子问题,这些种子问题覆盖了广泛的推理挑战,避免了重复特征或模式。随后,通过改变表面语义或约束条件,同时保留核心推理技能,将每个种子问题扩展为三个变体,最终形成了包含1,095个实例的数据集。所有实例均经过人工审核,确保了数据的最高质量标准,并严格将所需知识限制在K-12范围内,以聚焦于推理能力的评估而非知识检索。
特点
General365数据集以其高挑战性和多样性脱颖而出,涵盖了八个具有挑战性的类别,即使是最先进的模型在这些任务上也难以达到及格水平。数据集的核心特征在于其强调推理而非知识,通过严格限定知识范围,有效解耦了模型的推理能力与知识依赖。此外,数据集采用了混合评分算法,结合了基于规则和基于模型的方法,实现了高达99.6%的手动验证评分准确率,为评估提供了可靠依据。
使用方法
使用General365数据集进行模型评估时,用户需首先克隆相关仓库并安装依赖项。评估过程包括准备模型响应文件,其中每个响应以JSON对象格式存储,包含问题ID和模型回答。随后,通过设置API密钥和URL,运行评分脚本对响应进行自动评分,结果将保存在指定目录中。这种方法便于用户快速测试和比较不同模型在通用推理任务上的表现,同时支持对潜在数据污染的跟踪。
背景与挑战
背景概述
随着大型语言模型在复杂推理任务中展现出卓越潜力,评估其通用推理能力成为自然语言处理领域的关键议题。由美团龙猫团队于2026年创建的General365基准,旨在系统化评估模型在脱离专业知识依赖下的泛化推理性能。该数据集聚焦于K-12范围内的常识与基础学科知识,通过精心设计的365个种子问题及其扩展变体,覆盖逻辑推理、语言理解等八大挑战性类别,为前沿模型提供了脱离机械记忆的纯推理能力评估框架,推动了人工智能在通用认知层面的可解释性研究。
当前挑战
构建通用推理评估体系面临双重挑战:在领域问题层面,需精准剥离模型的知识依赖与推理能力,避免现有基准因难度不足、多样性欠缺或过度合成特性导致的评估偏差;在数据集构建过程中,需通过人工审核确保问题在保持核心推理技能的同时,实现表层语义与约束条件的高度异构化,并设计融合规则与模型驱动的混合评分算法以达成99.6%的评分准确率,同时通过半公开策略防控数据污染对评估公正性的影响。
常用场景
经典使用场景
在大型语言模型(LLM)的评估领域,General365数据集被广泛用于测试模型在多样化推理任务中的表现。该数据集通过精心设计的365个种子问题及其变体,覆盖了从常识推理到基础逻辑的多个类别,为研究者提供了一个标准化的平台,以衡量模型在脱离特定领域知识依赖后的纯推理能力。这种评估方式有助于揭示模型是否真正掌握了推理技能,而非仅仅依赖记忆或模式匹配,从而推动模型向更通用、更鲁棒的方向发展。
衍生相关工作
围绕General365数据集,学术界衍生了一系列经典研究工作,主要集中在评估方法的创新与模型能力的深入分析。例如,基于其混合评分算法,研究者开发了更高效的自动评估框架,以提升对复杂推理输出的判别精度。同时,该数据集也激发了针对LLM泛化缺陷的探究,推动了如对抗性样本生成、跨任务迁移学习等方向的进展,为构建更健壮的通用推理模型奠定了理论基础。
数据集最近研究
最新研究方向
在大型语言模型评估领域,通用推理能力的精确衡量正成为前沿焦点。General365数据集以其高难度与高多样性特征,为模型在常识、基础语言学及学科知识范围内的推理性能提供了严谨的测试基准。该数据集通过手动构建的365个种子问题及其扩展变体,覆盖了八类挑战性任务,有效剥离了知识依赖,专注于推理过程本身。当前研究围绕如何利用此类基准推动模型在更广泛场景中的泛化能力,并借助混合评分算法提升评估准确性,从而引导模型从记忆检索向深层逻辑推理演进。相关热点集中于利用对抗性样本与语义变换来检验模型的鲁棒性,以及通过隐藏测试集防范数据污染,确保评估的公正性与科学性,对促进人工智能向更通用、更可靠的方向发展具有深远意义。
以上内容由遇见数据集搜集并总结生成



