five

OEIS序列基准|数学定理自动证明数据集|程序等价性验证数据集

收藏
arXiv2023-04-06 更新2024-07-17 收录
数学定理自动证明
程序等价性验证
下载链接:
https://github.com/barakeel/oeis-synthesis
下载链接
链接失效反馈
资源简介:
OEIS序列基准是由捷克技术大学的研究团队创建的一个大型数据集,包含29687个问题,这些问题是从OEIS中自动提取的。每个问题都涉及两个生成相同OEIS序列的不同程序的等价性。数据集涵盖了广泛的数学领域,旨在评估归纳定理证明器在这一领域的进展。该数据集的创建过程涉及使用程序合成算法自动生成问题,并通过严格的验证确保问题的有效性。该数据集主要应用于数学定理自动证明领域,旨在帮助开发者和研究者提升归纳定理证明器的性能。
提供机构:
捷克技术大学
创建时间:
2023-04-06
原始信息汇总

数据集概述

该数据集包含与论文“Learning Program Synthesis for Integer Sequences from Scratch”相关的软件QSynt。数据集提供了在全规模自学习运行期间找到的解决方案,这些解决方案存储在文件results/solutions中。

安装指南

依赖安装

  • 适用于Ubuntu操作系统。

  • 需要安装的依赖包括:MKL、polyml、HOL、OpenBLAS。

  • 安装命令: bash sudo apt install -y libgmp-dev rlwrap intel-mkl sh install_dep.sh

  • 提示:安装intel-mkl需要2GB空间,但如果仅运行检查器则非必需。

oeis-synthesis安装

  • 安装步骤: bash cd src sh install.sh

  • 更新仓库后需重新运行sh install.sh

使用指南

运行oeis-synthesis

  • 进入src目录并运行: bash sh rl.sh expname

  • 修改训练选项:编辑config文件并重新运行sh install.sh

  • 实验名称expname可自定义。

  • 可随时通过ctrl+c中断训练,并从上次生成重新启动。

  • 训练过程中找到的程序数量总结在src/exp/expname/log中。

  • 生成的程序可在src/exp/expname/search/gen/full_prog目录中查看。

自定义序列搜索

  • 在文件src/data/oeis末尾添加自定义序列,格式为A-number后跟逗号分隔的整数序列。

外部工具生成程序的检查

  • src目录中创建expexp/expname目录。

  • exp/expname中添加sololdcand文件。

  • 运行检查命令: bash sh check.sh expname

  • 修改检查选项:编辑config文件。

外部自学习过程的引导

  • 从文件sol0sol0gpt开始自学习过程。
  • 下载文件: bash wget http://grid01.ciirc.cvut.cz/~thibault/oeis-gpt/sol0 wget http://grid01.ciirc.cvut.cz/~thibault/oeis-gpt/sol0gpt

已知问题

  • 安装MKL的解决方案:参见https://github.com/eddelbuettel/mkl4deb。
  • 编译FFI时的问题:在oeis-synthesis目录中安装openlibm。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。

www.nrel.gov 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录