five

AutoLogi|逻辑推理数据集|自然语言处理数据集

收藏
arXiv2025-02-24 更新2025-02-26 收录
逻辑推理
自然语言处理
下载链接:
https://github.com/8188zq/AutoLogi
下载链接
链接失效反馈
资源简介:
AutoLogi是一个自动生成的开放性问题逻辑谜题数据集,由复旦大学计算机科学技术学院和阿里巴巴集团共同创建。该数据集通过程序化验证和可控难度等级,旨在为大型语言模型提供更可靠的推理能力评估。数据集包含1575个英文逻辑谜题和883个中文逻辑谜题,全部由高级语言模型生成,并经过验证函数检查以确保正确性。该数据集的应用领域是逻辑推理能力的评估,旨在解决现有标准多项选择题格式容易导致随机猜测的问题。
提供机构:
复旦大学计算机科学技术学院, 阿里巴巴集团
创建时间:
2025-02-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
AutoLogi数据集的构建方式主要分为三个阶段:问题制定、格式与验证器生成以及数据增强。首先,从包含与谜题相关内容的语料库中提取并重构文本,生成背景信息和逻辑约束。然后,使用高级语言模型生成格式要求、验证器(包括格式验证器和约束验证器)和遍历函数。最后,通过减少和扩展两种技术对数据进行增强,以构建具有平衡难度分布的数据集。
使用方法
AutoLogi数据集的使用方法包括:作为基准进行评估,通过比较模型在不同难度谜题上的表现来评估其推理能力;用于模型训练,通过拒绝抽样与验证器相结合的方式生成高质量的训练数据,包括监督微调(SFT)和直接偏好优化(DPO)两种类型的数据集。使用AutoLogi进行训练可以显著提高模型在多个独立推理基准上的表现。
背景与挑战
背景概述
AutoLogi数据集是由Qwen团队和复旦大学计算机科学学院的研究人员共同开发的,旨在为评估大型语言模型(LLMs)的逻辑推理能力提供一个自动化的开放式逻辑谜题生成方法。该数据集的创建旨在解决现有基准测试主要依赖于多项选择题格式,容易受到随机猜测的影响,导致模型性能被高估和波动性大的问题。AutoLogi通过程序化验证和控制难度级别,提供了更可靠的评估,能够更好地区分模型的推理能力。该数据集的创建对相关领域产生了显著影响,为LLMs的逻辑推理能力评估提供了新的方法和视角。
当前挑战
AutoLogi数据集面临的主要挑战包括:1) 领域问题的挑战:现有基准测试主要依赖于多项选择题格式,容易受到随机猜测的影响,导致模型性能被高估和波动性大。AutoLogi旨在通过自动化的开放式逻辑谜题生成方法解决这个问题,以提供更准确的模型性能评估。2) 构建过程中的挑战:构建AutoLogi数据集需要大量的程序化验证和难度控制,这需要依赖先进的大型语言模型(LLMs)来生成逻辑谜题和验证函数。此外,还需要设计有效的数据增强方法来平衡数据集的难度分布。这些挑战需要研究人员不断探索和改进,以提升AutoLogi数据集的质量和有效性。
常用场景
经典使用场景
AutoLogi数据集最经典的使用场景在于评估大型语言模型(LLMs)的逻辑推理能力。该数据集包含开放式的逻辑谜题,要求模型从零开始构建完整的解决方案,从而更准确地反映模型的推理能力。AutoLogi的特点是程序化验证和可控的难度级别,这使得它能够更可靠地评估模型,并且更好地区分模型的推理能力。
解决学术问题
AutoLogi数据集解决了现有基准测试中存在的三个基本挑战:易受随机猜测的影响、难度变化不足以区分模型能力以及数据集构建中的人工标注成本高。AutoLogi通过开放式的逻辑谜题设计,避免了随机猜测带来的性能虚高问题,并通过程序化验证确保了评估的可靠性。此外,AutoLogi通过自动生成不同逻辑约束的谜题,实现了难度级别的平衡分布,从而更好地区分不同模型的推理能力。
实际应用
AutoLogi数据集在实际应用中,不仅可以用于评估LLMs的逻辑推理能力,还可以用于生成高质量的训练数据。通过拒绝采样和程序化验证,AutoLogi能够生成经过验证的正确答案,以及正确-错误答案对,从而为监督微调(SFT)和直接偏好优化(DPO)提供高质量的数据。实验结果表明,使用AutoLogi生成的训练数据可以显著提高LLMs在独立推理基准测试上的性能,例如,Qwen模型在LiveBench上的性能从30%提高到35%(7B规模)和从46%提高到52%(72B规模)。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在逻辑推理能力评估方面的重要性日益凸显,AutoLogi数据集的提出为这一领域带来了新的研究方向。该数据集通过自动生成开放式的逻辑谜题,有效解决了传统评估方法中存在的随机猜测、难度变化不足以及人工标注成本高等问题。AutoLogi数据集的特点在于其开放式的题型设计,要求模型从头开始构建完整解决方案,从而减少了因随机猜测导致的性能虚高问题。此外,数据集的难度可控性使得评估更加精准,能够更好地区分模型的推理能力。AutoLogi数据集的研究方向主要集中在如何利用LLMs自动生成高质量的训练数据,并通过验证机制确保数据准确性。这一研究对于推动LLMs在逻辑推理能力方面的提升具有重要意义。
相关研究论文
  • 1
    AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models复旦大学计算机科学技术学院, 阿里巴巴集团 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录