InteractScience

Name: InteractScience
Creator: InternLM
Published: 2025-10-31 10:36:57
License: 暂无描述

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/internlm/InteractScience

下载链接

链接失效反馈

官方服务：

资源简介：

InteractScience是一个专门设计用于评估大型语言模型生成交互式科学演示代码能力的基准数据集。该项目提供了一个完整的评估流程，包括模型推理、自动化测试和多维评估。

提供机构：

InternLM

创建时间：

2025-10-30

原始信息汇总

InteractScience 数据集概述

数据集基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言: 英语
标签: 代码

数据集描述

InteractScience 是一个专门设计用于评估大语言模型生成交互式科学演示代码能力的基准测试。该项目提供完整的评估流程，包括模型推理、自动化测试和多维度评估。

数据集文件结构

主要数据文件

interactscience.jsonl: 主数据集文件，每行包含一个测试样本
- id: 唯一标识符
- question: 详细的HTML实现计划
- lm_system_prompt: 语言模型系统提示
- vlm_system_prompt: 视觉语言模型系统提示
- image_path: 参考截图路径列表
- snapshot_checklists: 视觉验证检查清单

参考截图

位于 data/snapshots/ 目录
命名格式: {task_id}_Snapshot-{number}.png

评估类型

程序功能测试 (PFT)

验证HTML代码的功能正确性
检查交互元素行为
测试JavaScript逻辑

视觉质量测试 (VQT)

生成页面截图
与参考截图进行比较
计算感知相似度 (CLIP分数)
计算语义正确性 (VLM-judge分数)

评估指标

程序功能测试通过率: PFT测试用例通过百分比
视觉质量分数: 基于CLIP模型的视觉相似度
VLM分数: 多模态模型给出的综合分数

实验结果

数据集已评估30个最先进的大语言模型，结果包含闭源和开源模型对比，涵盖PFT总体通过率、PFT平均通过率、PFT完美通过率、VQT动作通过率、VQT CLIP分数和VQT VLM-judge分数等多个维度。

搜集汇总

数据集介绍

构建方式

InteractScience数据集通过精心设计的科学演示任务构建而成，涵盖物理学、化学及生物学等多个学科领域。每个样本均包含详尽的HTML实现方案、语言模型系统提示、视觉语言模型系统提示以及参考截图路径。数据采集过程整合了专业科学知识，确保任务设计的准确性与多样性，同时采用标准化格式存储于JSONL文件中，便于后续处理与分析。

特点

该数据集具备多模态评估框架的独特优势，同时涵盖程序功能测试与视觉质量测试双重维度。其核心特征在于提供完整的交互式科学演示代码生成评估流程，包含自动化功能验证、视觉相似度计算以及多模态模型评分机制。数据集内置的视觉验证清单与参考截图体系，为模型生成的交互界面提供了细粒度质量评估基准，显著提升了评估结果的可靠性与全面性。

使用方法

使用者可通过配置模型路径与参数启动评估流程，首先执行模型推理生成HTML代码，随后运行自动化测试脚本进行程序功能验证。视觉质量评估阶段将生成页面截图与参考图像进行对比，计算CLIP相似度得分与VLM-judge评分。最终通过专用指标计算脚本整合各项测试结果，形成对模型生成能力的多维度综合评价，整套流程支持开源与闭源模型的统一基准测试。

背景与挑战

背景概述

随着大语言模型在代码生成领域的快速发展，科学教育领域亟需能够生成交互式科学演示代码的评估基准。InteractScience由OpenCompass研究团队于2025年创建，专注于评估模型在生成具有视觉交互功能的科学演示代码方面的能力。该数据集通过程序功能测试和视觉质量测试的双重验证机制，填补了传统代码生成评估在交互性和可视化方面的空白，为科学教育技术的智能化发展提供了重要支撑。

当前挑战

在科学演示代码生成领域，模型需要同时保证程序逻辑正确性和视觉呈现准确性，这对多模态理解与代码生成能力提出了更高要求。数据集构建过程中面临参考截图采集标准化、交互元素行为验证机制设计等难题，特别是需要平衡自动化测试的覆盖范围与人工验证的精确度，确保评估结果既具有可扩展性又保持科学严谨性。

常用场景

经典使用场景

在科学教育技术领域，InteractScience数据集通过生成交互式科学演示代码，为大型语言模型的评估提供了标准化测试平台。该数据集要求模型根据详细HTML实现计划生成可视化科学演示界面，并通过程序功能测试验证代码逻辑完整性，同时结合视觉质量测试评估生成界面的视觉效果。这种多模态评估机制能够全面衡量模型在科学知识可视化表达方面的综合能力，为教育技术领域的人机交互研究提供了重要基准。

实际应用

在实际应用层面，InteractScience支撑了智能教育系统的开发，能够自动生成物理、化学等学科的可视化教学演示。这些交互式演示代码可直接集成到在线教育平台，为学生提供直观的科学概念理解工具。同时，该数据集也为科学传播领域提供了技术支持，助力科研人员将复杂科学原理转化为易于理解的交互式可视化内容，显著提升了科学知识的传播效率与受众体验。

衍生相关工作

基于InteractScience数据集，研究社区衍生出多个重要研究方向。在模型架构方面，出现了专门针对科学可视化代码生成的混合模型设计；在评估方法上，发展了结合程序分析与视觉相似度的多维度评测体系；在教育技术领域，催生了智能教学助手与自动实验演示生成系统。这些工作共同推动了科学计算与人工智能的深度融合，为后续研究奠定了坚实的技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集