OSQAR

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Psynthetic/OSQAR

下载链接

链接失效反馈

官方服务：

资源简介：

OSQAR（开放科学问题与资源）是一个全面、经过整理的数据集，包含762,641个经过验证的未解决研究问题，覆盖38个以上的学术领域（从数学到社会学）。每个问题都经过前沿AI模型（如gpt-4.1、gpt-4o、Claude Opus、gpt-4o-mini）验证，确保其真正开放且未解决。数据集具有100%的AI求解器覆盖，包含765,834次求解器尝试，涉及6个前沿模型。数据规模庞大，是类似数据集（如FrontierMath、HLE、GPQA）的100倍以上，并具有抗污染特性，即没有现成答案可供记忆。数据集以JSONL和CSV格式提供，包含问题陈述、领域、来源URL等字段，平均语句长度为190个字符。求解器结论分布包括OPEN（51.2%）、BLOCKED（30.5%）、PARTIAL（17.1%）、SOLVED（1.0%）和PARTIALLY_SOLVED（0.1%）。顶级领域包括数学（183,701个问题）、计算机科学（62,673个）、生物学（57,013个）、医学（57,876个）、物理学（48,280个）等。数据集适用于文本分类、问答、科学推理和基准测试等任务，并支持通过CLI、Python SDK和MCP服务器进行代理集成。数据集元数据和平台代码使用MIT许可证，问题陈述文本继承来源特定的许可证。

OSQAR (Open Science Questions and Resources) is a comprehensive, curated dataset containing 762,641 validated unsolved research questions, covering over 38 academic fields (from mathematics to sociology). Each question is verified by cutting-edge AI models (such as gpt-4.1, gpt-4o, Claude Opus, gpt-4o-mini) to ensure it is truly open and unresolved. The dataset features 100% AI solver coverage, with 765,834 solver attempts involving 6 state-of-the-art models. It is large-scale, over 100 times larger than similar datasets (e.g., FrontierMath, HLE, GPQA), and has anti-contamination properties, meaning no ready-made answers are available for memorization. The dataset is provided in JSONL and CSV formats, including fields such as question statement, domain, source URL, with an average statement length of 190 characters. Solver conclusion distributions include OPEN (51.2%), BLOCKED (30.5%), PARTIAL (17.1%), SOLVED (1.0%), and PARTIALLY_SOLVED (0.1%). Top domains include mathematics (183,701 questions), computer science (62,673), biology (57,013), medicine (57,876), physics (48,280), among others. The dataset is suitable for tasks such as text classification, question answering, scientific reasoning, and benchmarking, and supports agent integration via CLI, Python SDK, and MCP server. The dataset metadata and platform code are licensed under MIT, while the question statement texts inherit source-specific licenses.

创建时间：

2026-05-10

搜集汇总

数据集介绍

构建方式

OSQAR数据集汇聚了来自38个以上学术领域的903,426个经过验证的未解科学问题，覆盖数学、生物学、医学等广泛学科。其构建过程采用多阶段验证流程：首先从海量科学文献中提取潜在未解决问题，随后利用六种前沿AI模型（包括gpt-4.1、gpt-4o、Claude Opus等）进行906,151次求解尝试，通过启发式算法与模型输出判别问题是否为真正开放。最终以JSONL和CSV格式存储，每条记录包含问题陈述、领域标签及求解结论，确保数据结构的标准化与可扩展性。

使用方法

用户可从HuggingFace下载osqar_903k.jsonl或osqar_903k.csv文件，通过Python读取并解析为字典列表，每行包含问题陈述及元数据。利用Python SDK（如OPCClient）可基于领域标签或关键词搜索特定未解问题。平台还提供SQL查询接口和MCP服务器，便于集成至自动化评估管道。建议结合问题领域、求解结论等列信息进行细粒度筛选，以匹配下游任务，如科学推理基准测试或智能体探索实验。

背景与挑战

背景概述

科学研究的前沿阵地往往矗立于尚未解答的谜题之上，这些开放性问题构成了知识探索的核心驱动力。OSQAR（Open Science Questions And Resources）数据集由Psynthetic团队于2026年创建，旨在系统性地梳理与验证横跨自然科学与人文社会科学的多达38个学科领域的未解难题，共计903,426个经严格确认的开放问题。其规模之大、覆盖之广远超同类基准，如FrontierMath或GPQA，为评估人工智能系统在科学推理上的真实能力提供了前所未有的资源。该数据集的诞生，不仅为科学共同体绘制了一张动态的未知知识图谱，更在无形中推动了从数据学习到前沿探索的研究范式转变。

当前挑战

数据集面临的显著挑战之一，在于其核心领域问题本身的开放性——与图像分类等可定义闭式解的任务不同，科学开放问题缺乏标准答案，使得评估模型解答的真实进展变得困难重重。OSQAR通过引入多阶段验证管道与前沿AI模型的求解覆盖（含55.6%明确为'OPEN'状态）来应对，但仍需警惕求解结论的主观性与时滞性。构建过程中，从海量科学文献中精准识别并过滤掉已解决、阻塞或部分解答的问题，同时确保跨领域一致性与避免数据污染（contamination-resistant），构成了技术层面的重大挑战。此外，处理超过207,987个不同来源的语句并维持平均180字符的简洁陈述规范，也对数据清洗与标准化流程提出了严苛要求。

常用场景

经典使用场景

OSQAR数据集作为全球规模最大的结构化开放科学问题资源库，其经典使用场景集中于评估前沿AI模型的科学推理能力与泛化水平。由于所有问题均经过严格验证且当前尚未被解决，该数据集天然避免了传统基准测试中存在的答案记忆污染问题。研究者可借助其38个以上学科领域、逾90万条未解难题，全面检验大语言模型在数学、物理、生物等多元学科中的逻辑推理、跨域迁移及知识整合能力，尤其适合用于构建抗污染、高难度的AI推理能力评测基准。

解决学术问题

在学术研究层面，OSQAR系统性地回应了当前AI基准测试面临的两大核心困境：一是现有数据集规模有限且领域狭窄，难以真实反映模型的科学推理水平；二是训练数据与测试数据高度重叠，导致模型通过记忆而非理解取得高分。该数据集通过提供百万量级的未解科学问题，为评估模型的真实认知边界与解决能力创造了可能，其跨学科覆盖特性更是推动了从单领域评测向通用科学智能研究的范式转变，为探索AI在基础科学发现中的潜力奠定了坚实的数据基础。

实际应用

在实际应用层面，OSQAR数据集为科研辅助系统的构建提供了核心支撑。科研人员可利用其丰富的开放问题资源，快速定位前沿研究方向、识别学科交叉空白，从而高效把握科学探索的新机遇。此外，该数据集以Agent原生平台形式发布，集成了命令行工具、Python SDK及MCP服务器，便于与科研辅助智能体无缝对接，支持智能文献检索、研究假设生成与实验方案建议等场景，显著提升了科学家从海量未解问题中发现创新突破点的工作效率。

数据集最近研究