XSCT Bench Dataset

github2026-02-21 更新2026-02-23 收录

下载链接：

https://github.com/itshen/XSCT_Bench_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

面向 AI 产品落地的场景化模型评测数据集，包含620条覆盖文字生成、图像生成、网页生成三大方向的测试用例，每条用例含三个难度级别（Basic / Medium / Hard）。

A scenario-based model evaluation dataset for AI product deployment, containing 620 test cases covering three major directions: text generation, image generation and web page generation. Each test case includes three difficulty levels: Basic, Medium and Hard.

创建时间：

2026-02-21

原始信息汇总

XSCT Bench Dataset 数据集概述

数据集基本信息

数据集名称: XSCT Bench Dataset
数据集地址: https://github.com/itshen/XSCT_Bench_Dataset
数据集来源: 这是 XSCT LM Arena (https://xsct.ai) 平台使用的评测数据集开源版本。
核心目标: 面向 AI 产品落地的场景化模型评测。
核心理念: 不选最强的，选最合适的。
总用例数: 886 条。
覆盖方向: 文字生成、图像生成、网页生成三大方向。
难度级别: 每条用例含三个难度级别（Basic / Medium / Hard）。
许可证: 数据集以 CC BY-NC-SA 4.0 授权开放使用；评测脚本以 MIT License 授权。
维护方: XSCT Bench Dataset by 米羊科技（珠海横琴）有限公司。

数据集构成概览

测试集	类型	用例数	维度数	难度级别
xsct-l	文字生成（Language）	362	25	Basic / Medium / Hard
xsct-vg	图像生成（Visual Generation）	343	25	Basic / Medium / Hard
xsct-w	网页生成（Web Generation）	181	13	Basic / Medium / Hard
合计		886

各测试集详细维度

xsct-l (文字生成) - 25个维度

测试模型的语言理解、生成、推理能力。

维度 ID	中文名	说明
L-AgentMCP	Agent MCP	测试模型的工具选择和调用能力，使用 XML 格式交互
L-AgentTask	Agent 任务执行	评估模型作为Agent执行任务的能力
L-ChinesePinyin	中文拼音	测试模型对中文拼音、音调、生僻字的识别能力
L-Code	代码生成	评估模型的代码生成和编程能力
L-Comprehension	阅读理解	测试模型的阅读理解和信息提取能力
L-Consistency	一致性	逻辑一致性和自洽性测试
L-Context	上下文理解	上下文理解和信息追踪能力测试
L-Creative	创意写作	评估模型的创意写作能力
L-CriticalThinking	批判性思维	测试模型在回答前是否能识别问题中的错误前提、数字格式陷阱、反常识诱导等缺陷，而非…
L-Hallucination	幻觉控制	测试模型识别并拒绝生成虚假信息的能力，考察其在虚构事实、错误前提、知识边界等场景…
L-Instruction	指令遵循	测试模型遵循复杂指令的能力
L-Knowledge	知识问答	测试模型的知识储备和准确性
L-Logic	逻辑推理	测试模型的逻辑推理和分析能力
L-Math	数学能力	测试模型的数学推理和计算能力
L-Multilingual	多语言	评估模型的多语言理解和生成能力
L-Polish	文本润色	测试模型对已有文本进行润色修改的能力，考察其在保持原意基础上提升语言质量、风格适…
L-PromptInjection	提示词注入对抗	测试模型识别并抵御提示词注入攻击的能力，包括越狱尝试、指令覆盖、角色劫持等攻击场…
L-QA	问答能力	评估模型的知识储备和问答能力
L-ReasoningChain	推理链	评估模型的复杂推理链能力
L-Roleplay	角色扮演	测试模型的角色扮演和人设保持能力
L-SQLExpert	SQL 数据库能力	评估模型编写复杂 SQL 查询、数据库模式设计、性能优化建议及跨方言语法转换的专…
L-Safety	安全性	评估模型的安全性和有害内容拒绝能力
L-Summary	文本摘要	评估模型的文本摘要和提炼能力
L-Translation	翻译能力	测试模型的多语种翻译能力，从单语种到多语种混合
L-Writing	写作能力	测试模型的各类写作能力

xsct-vg (图像生成) - 25个维度

测试模型对提示词的语义理解和图像生成质量。

维度 ID	中文名	说明
P-Action	动作表现	评估模型表现动作和运动状态的能力
P-Count	数量控制	评估模型正确生成指定数量物体的能力
P-Creative	创意表达	评估模型的创意表达和想象力
P-Human	人物生成	评估模型生成人物图像的能力，包括面部、身体、姿态等
P-Light	光影色彩	评估模型处理光影效果和色彩的能力
P-Perspective	透视视角	评估模型处理不同视角和透视的能力
P-PosterLayout	海报排版	评估模型生成具有清晰视觉层次和布局的海报的能力
P-Scene	场景构建	评估模型创建完整、协调场景的能力
P-Semantic	语义理解	评估模型理解复杂语义和抽象概念的能力
P-Style	风格生成	评估模型生成特定艺术风格图像的能力
P-Text	文字渲染	评估模型在图像中渲染文字的能力，包括准确性、清晰度、字体样式等
VG-Action	动作表现	评估模型表现动作和运动状态的能力
VG-AttributeBinding	属性绑定	测试模型将正确属性绑定到正确物体的能力
VG-Count	数量控制	评估模型正确生成指定数量物体的能力
VG-Creative	创意表达	评估模型的创意表达和想象力
VG-Human	人物生成	评估模型生成人物图像的能力，包括面部、身体、姿态等
VG-Light	光影色彩	评估模型处理光影效果和色彩的能力
VG-ObjectGeneration	物体生成	测试模型生成特定物体的能力
VG-Perspective	透视视角	评估模型处理不同视角和透视的能力
VG-Scene	场景构建	评估模型创建完整、协调场景的能力
VG-Semantic	语义理解	评估模型理解复杂语义和抽象概念的能力
VG-SpatialRelation	空间关系	测试模型对空间关系的理解和生成能力
VG-Style	风格还原	评估模型生成特定艺术风格图像的能力，包括历史画风、地域艺术传统、现代美术流派等风…
VG-Text	文字渲染	评估模型在图像中渲染文字的能力，包括准确性、清晰度、字体样式等
VG-TextureMaterial	材质纹理	测试模型生成各种材质和纹理的能力

xsct-w (网页生成) - 13个维度

测试模型生成可运行 HTML/CSS/JS 的能力。

维度 ID	中文名	说明
W-Animation	动画效果	CSS/JS 动画效果的各种测试用例
W-ChatInterface	聊天界面	聊天/即时通讯界面的三个难度等级
W-Dashboard	仪表盘	后台仪表盘/管理面板测试用例
W-Ecommerce	电商页面	电商页面的三个难度等级
W-Form	表单设计	表单设计与验证测试用例
W-Game	游戏开发	各种游戏的网页实现
W-Interactive	交互组件	交互式 UI 组件测试用例
W-Landing	落地页	各类落地页设计测试用例
W-LandingPage	落地页设计	落地页设计与实现的三个难度等级
W-Responsive	响应式布局	响应式设计和布局测试用例
W-RichTextEditor	富文本编辑器	评估文本格式化、多媒体嵌入及文档编辑功能的实现能力与交互体验。
W-SVGAnimation	SVG 矢量动画	评估 SVG 路径动画、形状变换及矢量图形交互设计的实现能力与视觉表现。
W-SinglePagePPT	AI 生成单页 PPT	AI 生成单页 PPT 的测试用例

数据格式与结构

数据文件: 每个测试集目录下包含 testcases.jsonl（用例文件）和 dimensions.json（维度说明文件）。
用例格式: JSON Lines 格式，每行一条 JSON 用例。
核心字段:
- id: 用例唯一 ID。
- title: 用例标题。
- description: 用例描述。
- dimension: 所属评测维度。
- test_type: xsct-l / xsct-vg / xsct-w。
- levels: 包含 basic, medium, hard 三个难度级别的详细配置。
  - messages: 直接传入模型的 messages 数组（OpenAI 格式）。
  - requirements: 评分要点清单（传给裁判，不传给被测模型）。
  - criteria: 评分维度、权重及评分细则（传给裁判，不传给被测模型）。

评测与使用

评分机制: 遵循“评分与被测分离”原则。被测模型仅接收任务消息；裁判模型根据输出、评分标准和细则进行打分。
裁判模型: 默认使用 google/gemini-3-flash-preview（关闭 Reasoning）。
总分计算: 加权平均分，公式为 $S = frac{sum_{i} score_i imes weight_i}{sum_{i} weight_i}$。
通过阈值: $S geq 60$。
快速开始: 提供 Python 脚本 (scripts/evaluate.py) 进行完整评测，支持调用被测模型、AI裁判打分及结果汇总。
依赖: 主要依赖 openai 库。
完整评测平台: 所有模型在该数据集上的评测结果、横向对比及详情可访问 https://xsct.ai。

搜集汇总

数据集介绍

构建方式

在人工智能模型评测领域，构建一个能够全面反映模型实际应用能力的基准数据集至关重要。XSCT Bench Dataset的构建遵循了场景化与多维度的设计原则，其核心在于模拟真实的产品落地需求。数据集通过精心设计的886条测试用例，覆盖了文字生成、图像生成与网页生成三大核心方向，每个方向下又细分为多个具体维度，例如文字生成包含25个维度，图像生成包含25个维度，网页生成包含13个维度。每条用例均设置了基础、中等、困难三个难度级别，旨在系统性地考察模型在不同复杂度任务下的表现。数据格式采用结构化的JSONL文件，每条记录均包含任务描述、评分标准与分级提示，确保了评测任务的可执行性与评估标准的透明性。

使用方法

使用该数据集进行模型评测遵循一套清晰、可复现的标准化流程。评测过程严格分离了任务执行与评分判定两个阶段，有效避免了模型针对评分标准进行应试优化。用户首先需准备被测模型的API访问权限，随后利用数据集提供的Python脚本，通过指定模型标识、测试集类型、难度级别等参数，即可自动化地调用模型完成指定用例并获取原始输出。在评分阶段，系统会调用独立的裁判模型，依据每条用例预定义的、包含详细量规的评分标准，对模型的输出进行多维度量化评估，最终计算加权总分。这种设计不仅简化了评测的技术门槛，还通过引入AI裁判保证了评估结果的一致性与客观性，为研究者与开发者提供了高效的模型能力诊断工具。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，多模态大模型在文字、图像及代码生成等领域的应用日益广泛。然而，现有评测体系往往侧重于模型的通用能力或单项性能，缺乏面向实际产品落地的场景化、细粒度评估。在此背景下，米羊科技（珠海横琴）有限公司于2025年发布了XSCT Bench数据集，旨在构建一个覆盖文字生成、图像生成与网页生成三大核心场景的综合性评测基准。该数据集包含886条精心设计的测试用例，并划分为基础、中等与困难三个难度级别，致力于评估模型在真实应用环境中的适配性与可靠性，推动人工智能技术从实验室研究向产业实践的高效转化。

当前挑战

该数据集致力于解决生成式人工智能在多元化场景落地时所面临的评估挑战，核心在于如何系统性地衡量模型在复杂、动态的真实任务中的性能表现。构建过程中的主要挑战体现在场景覆盖的广度与深度平衡，需确保测试用例既能代表广泛的工业需求，又能深入特定维度的技术细节，例如在图像生成中准确评估属性绑定与空间关系理解。同时，设计一套客观、可复现且能抵御模型“应试”倾向的自动化评分机制亦是一大难点，这要求将任务执行与评分裁判分离，并依赖另一模型依据细粒度量规进行公正评判，从而保证评估结果的可靠性与实用性。

常用场景

经典使用场景

在人工智能模型评测领域，XSCT Bench Dataset以其面向产品落地的场景化设计，成为评估多模态生成模型综合能力的经典工具。该数据集通过涵盖文字生成、图像生成与网页生成三大方向的886条测试用例，并设置基础、中等与困难三个难度级别，系统性地考察模型在真实应用场景下的性能表现。研究人员与开发者常利用该数据集对各类大语言模型及生成式AI进行横向对比，以识别模型在特定任务中的优势与短板，从而为模型选型与优化提供数据支撑。

解决学术问题

该数据集有效应对了当前生成式人工智能研究中模型能力评估碎片化与脱离实际应用的学术难题。通过构建覆盖25个文字生成维度、25个图像生成维度及13个网页生成维度的标准化评测体系，它将模型的能力拆解为可量化、可比较的细粒度指标，如幻觉控制、逻辑推理、属性绑定、响应式布局等。这为学术界提供了统一的评测基准，使得不同模型间的性能比较成为可能，并推动了模型能力评估从粗放走向精细，从理论走向实践的科学化进程。

实际应用

在实际的AI产品研发与部署流程中，XSCT Bench Dataset扮演着关键的质量控制与选型决策角色。企业技术团队可依据数据集提供的场景化测试用例，对候选模型进行上线前的全面能力评估，确保其满足特定业务需求，例如电商页面的自动生成、创意文案的辅助写作或多语言客户服务的可靠应答。这种“不选最强的，选最合适的”评测理念，直接服务于产品落地，帮助团队规避技术风险，提升开发效率，并最终优化终端用户的体验。

数据集最近研究