XSCT Bench Dataset
收藏github2026-02-21 更新2026-02-23 收录
下载链接:
https://github.com/itshen/XSCT_Bench_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
面向 AI 产品落地的场景化模型评测数据集,包含620条覆盖文字生成、图像生成、网页生成三大方向的测试用例,每条用例含三个难度级别(Basic / Medium / Hard)。
A scenario-based model evaluation dataset for AI product deployment, containing 620 test cases covering three major directions: text generation, image generation and web page generation. Each test case includes three difficulty levels: Basic, Medium and Hard.
创建时间:
2026-02-21
原始信息汇总
XSCT Bench Dataset 数据集概述
数据集基本信息
- 数据集名称: XSCT Bench Dataset
- 数据集地址: https://github.com/itshen/XSCT_Bench_Dataset
- 数据集来源: 这是 XSCT LM Arena (https://xsct.ai) 平台使用的评测数据集开源版本。
- 核心目标: 面向 AI 产品落地的场景化模型评测。
- 核心理念: 不选最强的,选最合适的。
- 总用例数: 886 条。
- 覆盖方向: 文字生成、图像生成、网页生成三大方向。
- 难度级别: 每条用例含三个难度级别(Basic / Medium / Hard)。
- 许可证: 数据集以 CC BY-NC-SA 4.0 授权开放使用;评测脚本以 MIT License 授权。
- 维护方: XSCT Bench Dataset by 米羊科技(珠海横琴)有限公司。
数据集构成概览
| 测试集 | 类型 | 用例数 | 维度数 | 难度级别 |
|---|---|---|---|---|
| xsct-l | 文字生成(Language) | 362 | 25 | Basic / Medium / Hard |
| xsct-vg | 图像生成(Visual Generation) | 343 | 25 | Basic / Medium / Hard |
| xsct-w | 网页生成(Web Generation) | 181 | 13 | Basic / Medium / Hard |
| 合计 | 886 |
各测试集详细维度
xsct-l (文字生成) - 25个维度
测试模型的语言理解、生成、推理能力。
| 维度 ID | 中文名 | 说明 |
|---|---|---|
| L-AgentMCP | Agent MCP | 测试模型的工具选择和调用能力,使用 XML 格式交互 |
| L-AgentTask | Agent 任务执行 | 评估模型作为Agent执行任务的能力 |
| L-ChinesePinyin | 中文拼音 | 测试模型对中文拼音、音调、生僻字的识别能力 |
| L-Code | 代码生成 | 评估模型的代码生成和编程能力 |
| L-Comprehension | 阅读理解 | 测试模型的阅读理解和信息提取能力 |
| L-Consistency | 一致性 | 逻辑一致性和自洽性测试 |
| L-Context | 上下文理解 | 上下文理解和信息追踪能力测试 |
| L-Creative | 创意写作 | 评估模型的创意写作能力 |
| L-CriticalThinking | 批判性思维 | 测试模型在回答前是否能识别问题中的错误前提、数字格式陷阱、反常识诱导等缺陷,而非… |
| L-Hallucination | 幻觉控制 | 测试模型识别并拒绝生成虚假信息的能力,考察其在虚构事实、错误前提、知识边界等场景… |
| L-Instruction | 指令遵循 | 测试模型遵循复杂指令的能力 |
| L-Knowledge | 知识问答 | 测试模型的知识储备和准确性 |
| L-Logic | 逻辑推理 | 测试模型的逻辑推理和分析能力 |
| L-Math | 数学能力 | 测试模型的数学推理和计算能力 |
| L-Multilingual | 多语言 | 评估模型的多语言理解和生成能力 |
| L-Polish | 文本润色 | 测试模型对已有文本进行润色修改的能力,考察其在保持原意基础上提升语言质量、风格适… |
| L-PromptInjection | 提示词注入对抗 | 测试模型识别并抵御提示词注入攻击的能力,包括越狱尝试、指令覆盖、角色劫持等攻击场… |
| L-QA | 问答能力 | 评估模型的知识储备和问答能力 |
| L-ReasoningChain | 推理链 | 评估模型的复杂推理链能力 |
| L-Roleplay | 角色扮演 | 测试模型的角色扮演和人设保持能力 |
| L-SQLExpert | SQL 数据库能力 | 评估模型编写复杂 SQL 查询、数据库模式设计、性能优化建议及跨方言语法转换的专… |
| L-Safety | 安全性 | 评估模型的安全性和有害内容拒绝能力 |
| L-Summary | 文本摘要 | 评估模型的文本摘要和提炼能力 |
| L-Translation | 翻译能力 | 测试模型的多语种翻译能力,从单语种到多语种混合 |
| L-Writing | 写作能力 | 测试模型的各类写作能力 |
xsct-vg (图像生成) - 25个维度
测试模型对提示词的语义理解和图像生成质量。
| 维度 ID | 中文名 | 说明 |
|---|---|---|
| P-Action | 动作表现 | 评估模型表现动作和运动状态的能力 |
| P-Count | 数量控制 | 评估模型正确生成指定数量物体的能力 |
| P-Creative | 创意表达 | 评估模型的创意表达和想象力 |
| P-Human | 人物生成 | 评估模型生成人物图像的能力,包括面部、身体、姿态等 |
| P-Light | 光影色彩 | 评估模型处理光影效果和色彩的能力 |
| P-Perspective | 透视视角 | 评估模型处理不同视角和透视的能力 |
| P-PosterLayout | 海报排版 | 评估模型生成具有清晰视觉层次和布局的海报的能力 |
| P-Scene | 场景构建 | 评估模型创建完整、协调场景的能力 |
| P-Semantic | 语义理解 | 评估模型理解复杂语义和抽象概念的能力 |
| P-Style | 风格生成 | 评估模型生成特定艺术风格图像的能力 |
| P-Text | 文字渲染 | 评估模型在图像中渲染文字的能力,包括准确性、清晰度、字体样式等 |
| VG-Action | 动作表现 | 评估模型表现动作和运动状态的能力 |
| VG-AttributeBinding | 属性绑定 | 测试模型将正确属性绑定到正确物体的能力 |
| VG-Count | 数量控制 | 评估模型正确生成指定数量物体的能力 |
| VG-Creative | 创意表达 | 评估模型的创意表达和想象力 |
| VG-Human | 人物生成 | 评估模型生成人物图像的能力,包括面部、身体、姿态等 |
| VG-Light | 光影色彩 | 评估模型处理光影效果和色彩的能力 |
| VG-ObjectGeneration | 物体生成 | 测试模型生成特定物体的能力 |
| VG-Perspective | 透视视角 | 评估模型处理不同视角和透视的能力 |
| VG-Scene | 场景构建 | 评估模型创建完整、协调场景的能力 |
| VG-Semantic | 语义理解 | 评估模型理解复杂语义和抽象概念的能力 |
| VG-SpatialRelation | 空间关系 | 测试模型对空间关系的理解和生成能力 |
| VG-Style | 风格还原 | 评估模型生成特定艺术风格图像的能力,包括历史画风、地域艺术传统、现代美术流派等风… |
| VG-Text | 文字渲染 | 评估模型在图像中渲染文字的能力,包括准确性、清晰度、字体样式等 |
| VG-TextureMaterial | 材质纹理 | 测试模型生成各种材质和纹理的能力 |
xsct-w (网页生成) - 13个维度
测试模型生成可运行 HTML/CSS/JS 的能力。
| 维度 ID | 中文名 | 说明 |
|---|---|---|
| W-Animation | 动画效果 | CSS/JS 动画效果的各种测试用例 |
| W-ChatInterface | 聊天界面 | 聊天/即时通讯界面的三个难度等级 |
| W-Dashboard | 仪表盘 | 后台仪表盘/管理面板测试用例 |
| W-Ecommerce | 电商页面 | 电商页面的三个难度等级 |
| W-Form | 表单设计 | 表单设计与验证测试用例 |
| W-Game | 游戏开发 | 各种游戏的网页实现 |
| W-Interactive | 交互组件 | 交互式 UI 组件测试用例 |
| W-Landing | 落地页 | 各类落地页设计测试用例 |
| W-LandingPage | 落地页设计 | 落地页设计与实现的三个难度等级 |
| W-Responsive | 响应式布局 | 响应式设计和布局测试用例 |
| W-RichTextEditor | 富文本编辑器 | 评估文本格式化、多媒体嵌入及文档编辑功能的实现能力与交互体验。 |
| W-SVGAnimation | SVG 矢量动画 | 评估 SVG 路径动画、形状变换及矢量图形交互设计的实现能力与视觉表现。 |
| W-SinglePagePPT | AI 生成单页 PPT | AI 生成单页 PPT 的测试用例 |
数据格式与结构
- 数据文件: 每个测试集目录下包含
testcases.jsonl(用例文件)和dimensions.json(维度说明文件)。 - 用例格式: JSON Lines 格式,每行一条 JSON 用例。
- 核心字段:
id: 用例唯一 ID。title: 用例标题。description: 用例描述。dimension: 所属评测维度。test_type:xsct-l/xsct-vg/xsct-w。levels: 包含basic,medium,hard三个难度级别的详细配置。messages: 直接传入模型的 messages 数组(OpenAI 格式)。requirements: 评分要点清单(传给裁判,不传给被测模型)。criteria: 评分维度、权重及评分细则(传给裁判,不传给被测模型)。
评测与使用
- 评分机制: 遵循“评分与被测分离”原则。被测模型仅接收任务消息;裁判模型根据输出、评分标准和细则进行打分。
- 裁判模型: 默认使用
google/gemini-3-flash-preview(关闭 Reasoning)。 - 总分计算: 加权平均分,公式为 $S = frac{sum_{i} score_i imes weight_i}{sum_{i} weight_i}$。
- 通过阈值: $S geq 60$。
- 快速开始: 提供 Python 脚本 (
scripts/evaluate.py) 进行完整评测,支持调用被测模型、AI裁判打分及结果汇总。 - 依赖: 主要依赖
openai库。 - 完整评测平台: 所有模型在该数据集上的评测结果、横向对比及详情可访问 https://xsct.ai。
搜集汇总
数据集介绍
构建方式
在人工智能模型评测领域,构建一个能够全面反映模型实际应用能力的基准数据集至关重要。XSCT Bench Dataset的构建遵循了场景化与多维度的设计原则,其核心在于模拟真实的产品落地需求。数据集通过精心设计的886条测试用例,覆盖了文字生成、图像生成与网页生成三大核心方向,每个方向下又细分为多个具体维度,例如文字生成包含25个维度,图像生成包含25个维度,网页生成包含13个维度。每条用例均设置了基础、中等、困难三个难度级别,旨在系统性地考察模型在不同复杂度任务下的表现。数据格式采用结构化的JSONL文件,每条记录均包含任务描述、评分标准与分级提示,确保了评测任务的可执行性与评估标准的透明性。
使用方法
使用该数据集进行模型评测遵循一套清晰、可复现的标准化流程。评测过程严格分离了任务执行与评分判定两个阶段,有效避免了模型针对评分标准进行应试优化。用户首先需准备被测模型的API访问权限,随后利用数据集提供的Python脚本,通过指定模型标识、测试集类型、难度级别等参数,即可自动化地调用模型完成指定用例并获取原始输出。在评分阶段,系统会调用独立的裁判模型,依据每条用例预定义的、包含详细量规的评分标准,对模型的输出进行多维度量化评估,最终计算加权总分。这种设计不仅简化了评测的技术门槛,还通过引入AI裁判保证了评估结果的一致性与客观性,为研究者与开发者提供了高效的模型能力诊断工具。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,多模态大模型在文字、图像及代码生成等领域的应用日益广泛。然而,现有评测体系往往侧重于模型的通用能力或单项性能,缺乏面向实际产品落地的场景化、细粒度评估。在此背景下,米羊科技(珠海横琴)有限公司于2025年发布了XSCT Bench数据集,旨在构建一个覆盖文字生成、图像生成与网页生成三大核心场景的综合性评测基准。该数据集包含886条精心设计的测试用例,并划分为基础、中等与困难三个难度级别,致力于评估模型在真实应用环境中的适配性与可靠性,推动人工智能技术从实验室研究向产业实践的高效转化。
当前挑战
该数据集致力于解决生成式人工智能在多元化场景落地时所面临的评估挑战,核心在于如何系统性地衡量模型在复杂、动态的真实任务中的性能表现。构建过程中的主要挑战体现在场景覆盖的广度与深度平衡,需确保测试用例既能代表广泛的工业需求,又能深入特定维度的技术细节,例如在图像生成中准确评估属性绑定与空间关系理解。同时,设计一套客观、可复现且能抵御模型“应试”倾向的自动化评分机制亦是一大难点,这要求将任务执行与评分裁判分离,并依赖另一模型依据细粒度量规进行公正评判,从而保证评估结果的可靠性与实用性。
常用场景
经典使用场景
在人工智能模型评测领域,XSCT Bench Dataset以其面向产品落地的场景化设计,成为评估多模态生成模型综合能力的经典工具。该数据集通过涵盖文字生成、图像生成与网页生成三大方向的886条测试用例,并设置基础、中等与困难三个难度级别,系统性地考察模型在真实应用场景下的性能表现。研究人员与开发者常利用该数据集对各类大语言模型及生成式AI进行横向对比,以识别模型在特定任务中的优势与短板,从而为模型选型与优化提供数据支撑。
解决学术问题
该数据集有效应对了当前生成式人工智能研究中模型能力评估碎片化与脱离实际应用的学术难题。通过构建覆盖25个文字生成维度、25个图像生成维度及13个网页生成维度的标准化评测体系,它将模型的能力拆解为可量化、可比较的细粒度指标,如幻觉控制、逻辑推理、属性绑定、响应式布局等。这为学术界提供了统一的评测基准,使得不同模型间的性能比较成为可能,并推动了模型能力评估从粗放走向精细,从理论走向实践的科学化进程。
实际应用
在实际的AI产品研发与部署流程中,XSCT Bench Dataset扮演着关键的质量控制与选型决策角色。企业技术团队可依据数据集提供的场景化测试用例,对候选模型进行上线前的全面能力评估,确保其满足特定业务需求,例如电商页面的自动生成、创意文案的辅助写作或多语言客户服务的可靠应答。这种“不选最强的,选最合适的”评测理念,直接服务于产品落地,帮助团队规避技术风险,提升开发效率,并最终优化终端用户的体验。
数据集最近研究
最新研究方向
在人工智能模型评测领域,XSCT Bench Dataset以其场景化、多维度的设计理念,正引领着模型评估从通用能力测试向真实产品落地需求聚焦的范式转变。该数据集覆盖文字、图像、网页生成三大核心方向,通过基础、中等、困难三级难度划分,系统考察模型在幻觉控制、提示词注入对抗、属性绑定、响应式布局等前沿维度的性能。其创新性的“评分与被测分离”机制,有效避免了模型针对评测的应试优化,为评估模型的真实泛化能力提供了可靠基准。随着多模态大模型与AI Agent技术的快速发展,该数据集在智能体工具调用、复杂推理链、跨模态语义理解等热点研究方向上的深度测评,正成为推动模型在产业场景中安全、高效部署的关键基础设施,对促进人工智能技术的负责任创新与商业化应用具有深远意义。
以上内容由遇见数据集搜集并总结生成



