five

Knights and Knaves (KK) logic puzzle dataset|逻辑谜题数据集|认知科学数据集

收藏
github2025-03-06 更新2025-03-07 收录
逻辑谜题
认知科学
下载链接:
https://github.com/Tim-Siu/reft-exp
下载链接
链接失效反馈
资源简介:
骑士与无赖(KK)逻辑谜题数据集
创建时间:
2025-02-25
原始信息汇总

Reinforcement Learning Research Repo: Eliciting Reflection in LLMs

  • 数据集名称: Knights and Knaves (KK) logic puzzle dataset
  • 数据集描述: 用于研究在大型语言模型(LLMs)中使用强化学习(RL)来激发反思的方法,重点关注Knights and Knaves逻辑谜题数据集。
  • 研究方法:
    • 直接应用RL训练(基于GRPO算法,5人配置的KK数据集)。
    • 使用蒸馏方法将知识从大型RL训练模型(Qwen2.5-7B)转移到小型模型(Qwen2.5-1.5B),然后在小型模型上应用RL。
  • 关键结果:
    • Qwen2.5-7B模型在GRPO训练下达到与Logic-RL的REINFORCE++训练模型相当的性能。
    • 蒸馏后的Qwen2.5-1.5B模型在应用RL后表现出与7B模型相似的反省模式。
  • 性能指标:
    • 模型在不同人数配置下的平均性能、2ppl、3ppl、4ppl、5ppl、6ppl、7ppl、8ppl的性能指标。
  • 数据集来源: Knights & Knaves Dataset
  • 相关项目:
AI搜集汇总
数据集介绍
main_image_url
构建方式
Knights and Knaves (KK) logic puzzle dataset 旨在通过逻辑推理任务来探索大型语言模型中的反思能力。该数据集的构建采用Reinforcement Learning (RL)方法,特别是GRPO算法,在5人配置下对模型进行训练。研究者们在Logic-RL的基础上,专注于一个固定的配置,通过直接RL训练和基于精炼的方法来训练较小的模型。
特点
该数据集的特点在于它是一个逻辑谜题,涉及到骑士(总是说真话)和无赖(总是说谎)的陈述。数据集反映了模型在解决逻辑矛盾和调整推理策略方面的能力。它包含了详细的训练和验证结果,显示了模型在不同阶段的表现。此外,数据集还展示了通过精炼和后续的RL训练,小型语言模型也能达到与大型模型相近的性能。
使用方法
使用该数据集时,首先需要获取模型和数据集。数据集可以从Hugging Face Datasets下载,而模型则需要放置在指定的目录下。接着,创建环境,进行预处理,然后执行训练脚本。训练分为两个阶段,第一阶段是初步训练,第二阶段是进一步训练以达到更好的性能。训练完成后,可以通过评估脚本来评估模型的表现。对于小型模型,先进行精炼,然后在其基础上应用RL训练。
背景与挑战
背景概述
Knights and Knaves (KK) logic puzzle dataset 是一个专门为逻辑谜题设计的数据集,旨在研究大型语言模型(LLM)中的反思能力。该数据集的创建基于对Knights and Knaves逻辑谜题的研究,由相关领域的研究人员和机构共同开发。该数据集自推出以来,对逻辑推理和强化学习领域产生了重要影响,为核心研究问题如逻辑推理、模型反思能力提供了丰富的实验材料。
当前挑战
在研究领域问题方面,Knights and Knaves数据集面临的挑战包括如何准确模拟人类在解决逻辑谜题时的思考过程。在构建过程中,研究者们遇到了如何有效训练模型以识别和解决逻辑矛盾、如何避免模型在训练过程中发生崩溃等挑战。具体而言,所解决的领域问题是逻辑分类,而构建过程中的挑战则涉及到模型训练的稳定性和效率问题。
常用场景
经典使用场景
Knights and Knaves (KK) logic puzzle dataset 乃逻辑推理领域之内的重要资源,其经典使用场景在于对大型语言模型(LLM)进行强化学习(RL)训练,以引发模型的反思能力。通过对该数据集的深度学习,模型能够识别并处理逻辑矛盾,调整其推理策略,从而在复杂的逻辑谜题中得出正确答案。
解决学术问题
该数据集解决了学术研究中对于逻辑推理能力自动化的需求,特别是在处理具有挑战性的逻辑谜题时,如Knights and Knaves问题。它不仅推动了机器学习领域在逻辑推理任务上的进展,还为进一步探索LLM在处理抽象逻辑问题时的性能和限制提供了重要基准。
衍生相关工作
基于KK数据集的研究衍生出了多种相关经典工作,包括但不限于对小型语言模型进行知识蒸馏后强化学习的方法,以及对不同模型大小和训练策略的比较研究,这些工作进一步拓宽了逻辑推理在机器学习中的应用范围,并为相关领域的研究提供了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

GHCN

GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录