hle_math_pythics_278_with_prompt

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/LLMcompe-Team-Watanabe/hle_math_pythics_278_with_prompt

下载链接

链接失效反馈

官方服务：

资源简介：

Humanity's Last Exam数据集的数学和物理问题中，去除了需要图像的问题后，随机选取了278个问题组成的数据集。每个问题都增加了促进结构化回答的提示。

创建时间：

2025-08-21

原始信息汇总

数据集概述

基本信息

数据集名称: LLMcompe-Team-Watanabe/hle
主页: 无
许可证: MIT
语言: 英语
多语言支持: 单语言

数据内容

任务类别: 问答
任务ID: 开放域问答
标签: 物理、数学

数据构成

配置名称: default
数据文件:
- 分割: test
- 路径: https://huggingface.co/datasets/LLMcompe-Team-Watanabe/hle_math_pythics_278_with_prompt/resolve/main/data/test-00000-of-00001.parquet

数据来源

基于Humanitys Last Exam Dataset中的数学和物理问题
排除需要图像的问题
随机抽取278个问题
在问题中添加结构化回答提示

创建信息

注释创建者: 专家生成
语言创建者: 现有数据

搜集汇总

数据集介绍

构建方式

在数学与物理学教育评估领域，hle_math_pythics_278_with_prompt数据集基于Humanity's Last Exam原始题库，通过专家筛选机制剔除了需依赖图像解析的题目，确保了文本问题的纯粹性。采用随机抽样方法从剩余题目中抽取278道代表性试题，并为每道题目附加了结构化提示模板，以引导模型生成规范化的答案格式。

使用方法

研究者可加载parquet格式的测试集文件，通过解析question字段中的整合提示词与原始问题，构建模型输入序列。输出需遵循提示词约束的结构化格式，适用于评估大语言模型在STEM领域的推理能力与指令遵循性能。典型应用包括零样本问答测试、提示工程优化以及跨模型学术基准评估。

背景与挑战

背景概述

在人工智能与自然语言处理研究蓬勃发展的背景下，hle_math_pythics_278_with_prompt数据集应运而生，专注于数学与物理领域的复杂问题求解任务。该数据集由LLMcompe-Team-Watanabe团队构建，基于Humanity's Last Exam Dataset精选278道无需图像辅助的文本题目，并创新性地引入结构化提示机制，旨在推动大语言模型在科学计算与推理能力方面的边界。其设计反映了当前研究对模型逻辑严谨性与领域知识深化的双重追求，为自动问答与教育技术应用提供了重要基准。

当前挑战

该数据集核心挑战在于解决开放域科学问题中模型的多步推理与符号计算能力不足，需应对数学公式解析、物理定律应用及因果逻辑推导等复杂任务。构建过程中，团队面临高质量专家标注成本高昂、题目语义结构统一性保障，以及提示工程设计需平衡引导性与自然性的难题，同时需确保数据纯净度以避免视觉依赖型题目混入。

常用场景

经典使用场景

在数学与物理学科交叉研究领域，该数据集常被用于评估大型语言模型在结构化推理任务中的表现。研究者通过其精心设计的提示模板，考察模型对数学物理复合问题的分步解析能力，特别关注逻辑链条的完整性和中间推理步骤的准确性。这种使用方式为模型的可解释性研究提供了标准化测试基准。

解决学术问题

该数据集有效解决了复杂学科交叉问题中模型推理过程黑箱化的学术难题。通过提供带有结构化提示的专家级问题，使研究者能够定量分析模型的多步推理能力，填补了现有评估体系在深层认知任务上的空白。其构建方法为学科知识增强的评估范式设立了新标准，推动了认知导向的AI评估理论研究。

实际应用

在教育科技领域，该数据集支撑了智能辅导系统的开发，系统能够根据结构化提示引导学生完成复杂问题的分步求解。工业界将其作为基准测试工具，用于验证专业问答系统的可靠性，特别是在需要严格逻辑推导的工程计算和科学研究场景中，确保了AI系统输出的准确性和可验证性。

数据集最近研究