KnowLogic
收藏github2025-03-11 更新2025-03-12 收录
下载链接:
https://github.com/pokerwf/KnowLogic
下载链接
链接失效反馈官方服务:
资源简介:
KnowLogic基准测试是通过知识驱动的合成数据策略生成的,该策略整合了多样化的常识知识、合理的情景和各种类型的逻辑推理。KnowLogic的一个关键优势是其可调节的难度级别,允许灵活控制问题的复杂性。它还包括细粒度的标签,用于深入评估LLM在多个维度上的推理能力。我们的基准测试包含3000个双语(中文和英文)问题,涵盖多个领域。
KnowLogic benchmark is generated via a knowledge-driven synthetic data strategy that integrates diverse common-sense knowledge, plausible scenarios, and various types of logical reasoning. A key advantage of KnowLogic is its adjustable difficulty levels, which enable flexible control over the complexity of the problems. It also includes fine-grained labels for in-depth evaluation of LLMs' reasoning capabilities across multiple dimensions. Our benchmark encompasses 3,000 bilingual (Chinese and English) questions spanning multiple domains.
创建时间:
2025-03-05
原始信息汇总
KnowLogic 数据集概述
基本信息
- 名称: KnowLogic
- 类型: 逻辑推理基准测试
- 语言: 双语(中文和英文)
- 规模: 3,000个问题
- 领域: 多领域
- 发布时间: 2025年3月11日
- 论文: KnowLogic: A Knowledge-Driven Benchmark for Logical Reasoning
数据集特点
- 知识驱动: 结合多样化的常识知识、合理场景和多种逻辑推理类型。
- 可调难度: 支持灵活控制问题复杂度。
- 细粒度标签: 支持对LLMs推理能力的多维度深入评估。
数据生成流程
- 场景定义: 从知识库中选择实体/事件,整合到场景框架中,使用自然语言模板生成介绍文本。
- 推理数据生成: 使用推理器扩展初始事实,创建具有详细特征的事实库。
- 问题设计: 根据事实集和实体/事件的真实排列生成多种问题类型。
评估结果
- 最佳表现模型: O1-Preview
- 开源模型表现: DeepSeek-R1表现相对较差
- 总体结论: 基准测试具有挑战性,能有效突显当前模型在各领域的局限性。
知识条目
- 类型: 人工编写的知识条目
- 占位符:
- $X$和$Y$: 实体占位符
- $A$和$B$: 事件占位符
- $T$: 时间占位符
- $V$: 自然属性值占位符
引用信息
bibtex @article{zhan2025knowlogicbenchmarkcommonsensereasoning, title={KnowLogic: A Benchmark for Commonsense Reasoning via Knowledge-Driven Data Synthesis}, author={Weidong Zhan and Yue Wang and Nan Hu and Liming Xiao and Jingyuan Ma and Yuhang Qin and Zheng Li and Yixin Yang and Sirui Deng and Jinkun Ding and Wenhan Ma and Rui Li and Weilin Luo and Qun Liu and Zhifang Sui}, year={2025}, eprint={2503.06218}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.06218}, }
相关链接
- Hugging Face数据集: https://huggingface.co/datasets/Pokerwf/KnowLogic
- GitHub图片资源:
- 整体架构图: https://github.com/pokerwf/KnowLogic/blob/main/image/Overall.jpg
- 评估结果图: https://github.com/pokerwf/KnowLogic/blob/main/image/evaluation.jpg
- 知识条目图: https://github.com/pokerwf/KnowLogic/blob/main/image/knowledge_entity.jpg
搜集汇总
数据集介绍

构建方式
KnowLogic数据集的构建采用知识驱动的合成数据策略,集成多样化的常识知识、可信的场景以及各类逻辑推理。该数据集首先通过选择知识库中的实体/事件,将其融入场景框架,并使用自然语言模板生成引导文本;其次,利用推理器扩展初始事实,创建具有详细特征的证据库,直至每个实体/事件的位置得以唯一确定;最后,问题生成器根据事实集合和实体/事件的真实排列生成多种类型的问题。
特点
KnowLogic数据集具备可调节难度级别的特点,允许灵活控制问题的复杂性。它包含了3000个涉及不同领域的中英双语问题,并提供了细致的标签,以深入评估大型语言模型在多维度上的推理能力。该数据集的设计不仅涵盖了广泛的逻辑推理类型,而且确保了在多个领域的适用性和挑战性。
使用方法
使用KnowLogic数据集时,研究者可以访问Hugging Face Dataset上的官方资源。在获取数据集后,用户可以根据自己的需求,利用提供的事实库和问题模板进行逻辑推理任务的训练和评估。同时,数据集的官方论文中提供了详细的引用格式,便于研究者在学术研究中引用该数据集。
背景与挑战
背景概述
KnowLogic数据集,由Weidong Zhan等研究人员于2025年创建,旨在为逻辑推理领域提供一个知识驱动的合成数据基准。该数据集整合了多样化的常识知识、可信的场景以及多种类型的逻辑推理,其独特的可调节难度级别设计使其在评估大型语言模型(LLM)的推理能力方面具有极高的灵活性。包含3000个中英双语问题,跨越多个领域,旨在推动常识推理研究的发展,对相关领域产生了显著影响。
当前挑战
KnowLogic数据集面临的挑战主要包括:1) 如何在保持问题复杂性的同时,确保合成数据的质量和多样性;2) 构建过程中,如何精确地验证和添加事实,以确保每个实体或事件的位置唯一确定;3) 在不同模型上的评估显示,即使是针对推理特别训练的LLM模型,在面对复杂问题时也存在局限性,这提示了当前模型在处理逻辑推理任务时面临的难题。
常用场景
经典使用场景
在逻辑推理研究领域,KnowLogic数据集的典型应用场景在于评估大型语言模型(LLMs)在处理涉及常识推理的问题时的表现。该数据集通过知识驱动的数据合成策略,构建了一个包含3000个中英双语问题的多领域测试集,旨在测试LLMs在多样化场景中的逻辑推理能力。
解决学术问题
KnowLogic数据集解决了学术研究中对于常识推理能力评估的迫切需求。它为研究者提供了一个可调节难度、具有细致标注的评价标准的数据集,有助于深入分析LLMs在逻辑推理方面的性能瓶颈,推动了自然语言处理领域在常识推理方向的发展。
衍生相关工作
KnowLogic数据集的发布促进了相关研究的深入,衍生出了一系列经典工作。研究者基于该数据集进行了模型性能比较、算法改进和理论分析等研究,为逻辑推理领域的研究提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



