OEIS序列基准|数学定理自动证明数据集|程序等价性验证数据集
收藏数据集概述
该数据集包含与论文“Learning Program Synthesis for Integer Sequences from Scratch”相关的软件QSynt。数据集提供了在全规模自学习运行期间找到的解决方案,这些解决方案存储在文件results/solutions
中。
安装指南
依赖安装
-
适用于Ubuntu操作系统。
-
需要安装的依赖包括:MKL、polyml、HOL、OpenBLAS。
-
安装命令: bash sudo apt install -y libgmp-dev rlwrap intel-mkl sh install_dep.sh
-
提示:安装
intel-mkl
需要2GB空间,但如果仅运行检查器则非必需。
oeis-synthesis安装
-
安装步骤: bash cd src sh install.sh
-
更新仓库后需重新运行
sh install.sh
。
使用指南
运行oeis-synthesis
-
进入
src
目录并运行: bash sh rl.sh expname -
修改训练选项:编辑
config
文件并重新运行sh install.sh
。 -
实验名称
expname
可自定义。 -
可随时通过ctrl+c中断训练,并从上次生成重新启动。
-
训练过程中找到的程序数量总结在
src/exp/expname/log
中。 -
生成的程序可在
src/exp/expname/search/gen/full_prog
目录中查看。
自定义序列搜索
- 在文件
src/data/oeis
末尾添加自定义序列,格式为A-number后跟逗号分隔的整数序列。
外部工具生成程序的检查
-
在
src
目录中创建exp
和exp/expname
目录。 -
在
exp/expname
中添加solold
和cand
文件。 -
运行检查命令: bash sh check.sh expname
-
修改检查选项:编辑
config
文件。
外部自学习过程的引导
- 从文件
sol0
和sol0gpt
开始自学习过程。 - 下载文件: bash wget http://grid01.ciirc.cvut.cz/~thibault/oeis-gpt/sol0 wget http://grid01.ciirc.cvut.cz/~thibault/oeis-gpt/sol0gpt
已知问题
- 安装MKL的解决方案:参见https://github.com/eddelbuettel/mkl4deb。
- 编译FFI时的问题:在
oeis-synthesis
目录中安装openlibm。
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
NREL Wind Integration National Dataset (WIND) Toolkit
NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。
www.nrel.gov 收录
NASA Battery Dataset
用于预测电池健康状态的数据集,由NASA提供。
github 收录