GAIR/OlympicArena
收藏Hugging Face2024-07-20 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/GAIR/OlympicArena
下载链接
链接失效反馈官方服务:
资源简介:
OlympicArena是一个全面、具有高度挑战性且经过严格筛选的基准数据集,旨在评估高级AI在多个学科中的认知推理能力。该数据集涵盖七个学科:数学、物理、化学、生物、地理、天文和计算机科学。每个学科分为验证集和测试集,验证集包含公开的答案,用于小规模测试和评估,而测试集不公开答案,用户需要提交结果。数据集的特征包括问题、提示、图像URL、答案、解决方案、答案类型、单位、答案序列、类型序列、测试用例、学科、语言和模态。
OlympicArena is a comprehensive, highly challenging and rigorously curated benchmark dataset designed to evaluate the cognitive reasoning capabilities of advanced AI across multiple disciplines. This dataset covers seven disciplines: mathematics, physics, chemistry, biology, geography, astronomy, and computer science. Each discipline is divided into a validation set and a test set. The validation set contains public answers for small-scale testing and evaluation, while the test set does not disclose its answers, requiring users to submit their results. The features of the dataset include questions, prompts, image URLs, answers, solutions, answer types, units, answer sequences, type sequences, test cases, disciplines, languages, and modalities.
提供机构:
GAIR
原始信息汇总
数据集概述
数据集信息
数学 (Math)
- 特征:
id: 字符串problem: 字符串prompt: 字符串figure_urls: 字符串序列answer: 字符串序列solution: 字符串answer_type: 字符串unit: 字符串序列answer_sequence: 字符串序列type_sequence: 字符串序列test_cases: 序列,包含input和output,均为字符串subject: 字符串language: 字符串modality: 字符串
- 分割:
test: 3153019 字节,2977 个样本val: 484904 字节,244 个样本
- 下载大小: 1402261 字节
- 数据集大小: 3637923 字节
物理 (Physics)
- 特征:
id: 字符串problem: 字符串prompt: 字符串figure_urls: 字符串序列answer: 字符串序列solution: 字符串answer_type: 字符串unit: 字符串序列answer_sequence: 字符串序列type_sequence: 字符串序列test_cases: 序列,包含input和output,均为字符串subject: 字符串language: 字符串modality: 字符串
- 分割:
test: 3139836 字节,1303 个样本val: 283157 字节,90 个样本
- 下载大小: 1613993 字节
- 数据集大小: 3422993 字节
化学 (Chemistry)
- 特征:
id: 字符串problem: 字符串prompt: 字符串figure_urls: 字符串序列answer: 字符串序列solution: 字符串answer_type: 字符串unit: 字符串序列answer_sequence: 字符串序列type_sequence: 字符串序列test_cases: 序列,包含input和output,均为字符串subject: 字符串language: 字符串modality: 字符串
- 分割:
test: 3102033 字节,1354 个样本val: 284518 字节,65 个样本
- 下载大小: 1389141 字节
- 数据集大小: 3386551 字节
生物学 (Biology)
- 特征:
id: 字符串problem: 字符串prompt: 字符串figure_urls: 字符串序列answer: 字符串序列solution: 字符串answer_type: 字符串unit: 字符串序列answer_sequence: 字符串序列type_sequence: 字符串序列test_cases: 序列,包含input和output,均为字符串subject: 字符串language: 字符串modality: 字符串
- 分割:
test: 3483679 字节,1495 个样本val: 238015 字节,63 个样本
- 下载大小: 1814227 字节
- 数据集大小: 3721694 字节
地理 (Geography)
- 特征:
id: 字符串problem: 字符串prompt: 字符串figure_urls: 字符串序列answer: 字符串序列solution: 字符串answer_type: 字符串unit: 字符串序列answer_sequence: 字符串序列type_sequence: 字符串序列test_cases: 序列,包含input和output,均为字符串subject: 字符串language: 字符串modality: 字符串
- 分割:
test: 2555530 字节,1522 个样本val: 138082 字节,68 个样本
- 下载大小: 1212126 字节
- 数据集大小: 2693612 字节
天文学 (Astronomy)
- 特征:
id: 字符串problem: 字符串prompt: 字符串figure_urls: 字符串序列answer: 字符串序列solution: 字符串answer_type: 字符串unit: 字符串序列answer_sequence: 字符串序列type_sequence: 字符串序列test_cases: 序列,包含input和output,均为字符串subject: 字符串language: 字符串modality: 字符串
- 分割:
test: 3161275 字节,1110 个样本val: 320943 字节,90 个样本
- 下载大小: 1685604 字节
- 数据集大小: 3482218 字节
计算机科学 (CS)
- 特征:
id: 字符串problem: 字符串prompt: 字符串figure_urls: 字符串序列answer: 字符串序列solution: 字符串answer_type: 字符串unit: 字符串序列answer_sequence: 字符串序列type_sequence: 字符串序列test_cases: 序列,包含input和output,均为字符串subject: 字符串language: 字符串modality: 字符串
- 分割:
test: 1235615 字节,216 个样本val: 496838967 字节,18 个样本
- 下载大小: 256590378 字节
- 数据集大小: 498074582 字节
数据文件路径
数学 (Math)
test: Math/test-*val: Math/val-*
物理 (Physics)
test: Physics/test-*val: Physics/val-*
化学 (Chemistry)
test: Chemistry/test-*val: Chemistry/val-*
生物学 (Biology)
test: Biology/test-*val: Biology/val-*
地理 (Geography)
test: Geography/test-*val: Geography/val-*
天文学 (Astronomy)
test: Astronomy/test-*val: Astronomy/val-*
计算机科学 (CS)
test: CS/test-*val: CS/val-*
搜集汇总
数据集介绍

构建方式
OlympicArena数据集的构建,采用了一种全面且精细化的评估机制,旨在对高级AI在奥林匹克级别挑战中的能力进行评估。该数据集包含七个学科:数学、物理、化学、生物、地理、天文和计算机科学,每个学科都分为验证集(val)和测试集(test)。验证集提供公开答案,用于小规模测试和评估,而测试集则不公开答案,供用户提交结果。
使用方法
使用OlympicArena数据集时,可以通过HuggingFace的datasets库加载。用户可以根据需要选择不同的学科和数据集的分割方式,如验证集或测试集。加载后,数据集可以用于训练和评估AI模型在多学科认知推理任务上的性能。详细的加载和使用方法可以在数据集的GitHub页面找到。
背景与挑战
背景概述
OlympicArena数据集,作为一项全面、极具挑战性的评估标准,旨在对超智能AI在多个学科领域的认知推理能力进行细致入微的考核。该数据集由GAIR-NLP团队于2024年创建,涵盖了数学、物理、化学、生物、地理、天文以及计算机科学等七个学科,为AI研究提供了一个多学科的认知推理基准。数据集的核心研究问题是如何在严格的评价机制下,全面衡量AI系统在奥林匹克级别难题上的表现,其研究成果对推动相关领域的技术进步具有显著影响。
当前挑战
OlympicArena数据集在构建过程中面临的挑战主要涉及两个方面:一是如何设计出既全面又具有深度的问题,以充分评估AI系统的认知推理能力;二是如何确保数据集的公平性和准确性,避免泄露测试集答案,同时为研究人员提供有效的验证集。此外,该数据集在解决领域问题的挑战上,也需面对如何处理跨学科知识融合、如何提高问题解析与答案生成的准确性等问题。
常用场景
经典使用场景
在人工智能领域,OlympicArena数据集被广泛应用于评估AI在多学科认知推理方面的能力。该数据集模拟了奥林匹克级别的挑战,涵盖数学、物理、化学、生物、地理、天文和计算机科学七个学科,其经典的使用场景主要在于训练和测试AI模型在解决复杂学术问题时的表现。
解决学术问题
OlympicArena数据集解决了如何全面、细致地评估AI在多个学科领域的问题解决能力的问题。通过提供包含详细解答步骤和测试用例的学术问题,该数据集为研究人员提供了一种衡量AI模型在真实学术场景中表现的标准,对于推动超智能AI的发展具有重要意义。
实际应用
在实际应用中,OlympicArena数据集可用于教育、科研和工业界。它可以作为教育工具,帮助学生和研究人员更好地理解各个学科的知识点;在科研领域,该数据集有助于开发能够辅助人类解决复杂学术问题的AI系统;在工业界,它可以帮助企业评估和优化其AI解决方案的效能。
数据集最近研究
最新研究方向
OlympicArena数据集作为多学科认知推理的超智能AI基准,近期研究方向主要聚焦于评估AI在数学、物理、化学、生物、地理、天文和计算机科学等领域的推理能力。该数据集的推出,为研究者在认知推理领域提供了一个全新的挑战平台,特别是在推动AI向超智能水平发展方面,具有显著的影响和意义。通过这一基准,研究者能够进一步探索AI在解决复杂学科问题上的潜力,为相关领域的技术进步提供了重要的研究资源。
以上内容由遇见数据集搜集并总结生成



