miniF2F_v1|数学竞赛数据集|神经数学推理数据集
收藏MiniF2F数据集概述
数据集简介
- 目标:为基于不同形式系统的自动定理证明系统提供共享基准评估
- 内容来源:奥林匹克竞赛题目(AMC/AIME/IMO)及高中/本科数学课程习题
- 覆盖形式系统:Lean、Metamath、Hol Light、Isabelle
- 许可协议:
- Lean:Apache License
- Metamath:MIT License
- Hol Light:FreeBSD License
- Isabelle:Apache License
统计信息
形式系统 | 测试集数量 | 验证集数量 |
---|---|---|
Lean | 244 | 244 |
Metamath | 244 | 244 |
Isabelle | 244 | 244 |
Hol Light | 165 | 165 |
数据结构
- 划分方式:
valid
:验证集(用于系统设计)test
:测试集(保留用于最终评估)
- 命名规范:
- 竞赛题目:
竞赛缩写-年份-题号
(如imo-1990-p3) - MATH数据集题目:
mathd-类别-编号
(如mathd-algebra-125) - 其他题目:
类别提示-唯一名称
(如induction-11div10tonmn1ton)
- 竞赛题目:
版本信息
- 当前版本:v1
- 冻结日期:2021年8月
- 包含题目:244道
- 完整覆盖系统:Lean和Metamath
- 分支地址:https://github.com/openai/miniF2F/tree/v1
引用信息
- 论文标题:MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics
- 作者:Zheng, Kunhao; Han, Jesse Michael; Polu, Stanislas
- 预印本:https://arxiv.org/abs/2109.00110
- BibTeX引用: bibtex @article{zheng2021minif2f, title={MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics}, author={Zheng, Kunhao and Han, Jesse Michael and Polu, Stanislas}, journal={arXiv preprint arXiv:2109.00110}, year={2021} }
贡献说明
- 接受贡献类型:新题目、缺失题目翻译、错误修复、补充证明等
- 使用要求:报告结果时需注明使用版本

yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
Billboard-Hot-100
该数据集包含了自1958年以来所有Billboard Hot 100榜单的历史数据,详细记录了每首歌曲的排名、日期、表演者等信息。
github 收录
M3FD
我们用校准良好的红外和光学传感器构建了一个同步成像系统,并收集了一个多场景多模态数据集 (M3FD),其中包括4个,177个对准的红外和可见光图像对以及23个,635个带注释的对象。该数据集涵盖了具有各种环境,照明,季节和天气的四个主要场景,具有广泛的像素变化范围。
OpenDataLab 收录
Infrared Thermal Image Dataset of High Voltage Electrical Power Equipment under Different Operating Conditions
Recognizing high voltage power equipment in electrical substations is the fundamental platform for effective condition monitoring of electrical power system. It enables proper identification and analysis of anomalies within the equipment, especially when in operation. The result such investigation can be applied for effective real-time measurement, control and protection schemes in the network. The use of visual images for this purpose would be limited during poor lighting conditions. However, Infrared (IR) images of the equipment are invariant to poor illumination condition. Hence, we have acquired the thermographic images of the high voltage power equipment using the portable professional FLIR C5 Infrared camera at different times of the day and load conditions. The dataset contains 5 categories of high voltages equipment common to most air-insulated electrical power substation at 132kV level, namely: circuit breakers, power transformers, surge arresters, disconnectors, and wave traps. The number of IR images for each class of equipment are: circuit breakers 203, power transformers 178, surge arresters 181, disconnectors 180, and wave traps 153. The IR images are 640 x 480 pixel RGB images captured using the rainbow color palette and properly segmented in labeled folders. The color bar in each IR image identifies the thermal range used during its acquisition. The dataset can be used for implementing novel research in computer vision based deep learning models, especially in object recognition, identification, fault classification or detection algorithms. The thermal profile of the equipment in the dataset could be applied for detection of hotspots and other related anomalies.
DataCite Commons 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录