MSCoRe

Name: MSCoRe
Creator: 吉林大学
Published: 2025-09-22 19:36:16
License: 暂无描述

arXiv2025-09-22 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/032564yn/MSCoRe

下载链接

链接失效反馈

官方服务：

资源简介：

MSCoRe是一个用于评估大型语言模型在复杂、多阶段场景中协同推理能力的新基准。该数据集包含来自汽车、医药、电子和能源领域的126,696个特定领域的问答实例。数据集的创建采用了动态采样、迭代问答生成和多级质量评估的流程，以确保数据质量。任务被细分为三个难度级别：简单、中等和困难，以便进行细粒度的分析。MSCoRe为社区提供了一个有价值的资源，用于评估和改进大型语言模型的多阶段推理能力。

MSCoRe is a novel benchmark for evaluating the collaborative reasoning capabilities of large language models (LLMs) in complex, multi-stage scenarios. This dataset includes 126,696 domain-specific question-answering instances across the automotive, pharmaceutical, electronics, and energy sectors. The dataset was developed through a workflow involving dynamic sampling, iterative question-answering generation, and multi-level quality assessment to ensure data quality. The tasks are divided into three difficulty levels: easy, medium, and hard, to enable fine-grained analysis. MSCoRe offers a valuable resource for the research community to evaluate and enhance the multi-stage reasoning capabilities of large language models.

提供机构：

吉林大学

创建时间：

2025-09-22

搜集汇总

数据集介绍

构建方式

在工业智能领域构建高质量评估基准需要系统化的数据生成流程。MSCoRe数据集通过三阶段管道构建：动态采样阶段采用线性递减概率分布平衡种子数据与新内容生成，确保领域覆盖均衡；迭代生成阶段采用双模块架构，通过角色扮演提示工程激发大语言模型的多阶段推理能力；质量评估阶段融合格式检查、语义过滤与专家模型评分，构建包含126696个问答实例的工业价值链数据集。

特点

该数据集以多阶段协同推理为核心特征，涵盖汽车、制药、电子和能源四大工业领域，呈现真实产业链的复杂依赖关系。其任务体系采用三级难度分层设计，从单阶段优化到全链条协同，系统评估模型对产业链上下游关联的认知深度。数据分布严格遵循工业价值链逻辑，每个领域细分为设计、生产、供应链等关键环节，通过专业评估指标确保问题与产业实践的高度契合。

使用方法

该数据集遵循Alpaca指令调优格式，支持零样本与少样本学习场景下的多阶段推理评估。研究者可通过指令字段直接输入产业协同问题，观察模型在跨阶段优化任务中的表现。评估体系采用ROUGE-L指标量化模型输出与标准答案的相似度，同时通过难度分级分析模型从单阶段到全链条任务的性能衰减，为工业场景下的智能体推理能力提供多维度的量化基准。

背景与挑战

背景概述

随着大语言模型在单领域问答任务中展现卓越性能，多阶段协同推理能力的评估成为自然语言处理领域的新兴研究方向。MSCoRe数据集由吉林大学与南方科技大学联合团队于2025年9月发布，聚焦汽车、制药、电子和能源四大工业领域的价值链协同优化问题。该数据集通过动态采样、迭代生成与多级质量评估的三阶段构建流程，形成了包含12.6万条专业问答实例的基准测试集，有效填补了现有评估体系在跨阶段因果推理能力测量方面的空白。

当前挑战

该数据集面临的核心挑战体现在领域问题与构建过程两个维度：在领域层面，需解决工业场景中设计、制造、供应链等多环节的复杂依赖关系建模，要求模型具备系统级优化与约束平衡能力；在构建层面，既要保证生成数据的专业准确性，又需克服语义重复、格式不规范等质量问题，通过专家级图灵测试验证了87%生成数据达到人类专业水平，但模型在完整价值链任务中仍存在显著性能衰减。

常用场景

实际应用

在实际工业应用层面，MSCoRe数据集为智能制造系统的开发提供了关键支撑。汽车制造商可借助该数据集训练模型优化从概念设计到回收再利用的全生命周期决策，例如在轻量化材料选择时同步评估制造可行性和供应链稳定性。制药企业则能利用其评估质量检测结果对生产流程的反馈优化能力，实现符合GMP标准的闭环质量控制。能源行业通过数据集中的车能协同案例，可开发智能调度系统协调电动汽车充电需求与电网负荷平衡，展现其在工业数字化转型中的实用价值。

衍生相关工作

基于MSCoRe数据集衍生的经典研究主要体现在多智能体协作推理范式的创新。该数据集启发的后续工作包括开发新型提示工程策略，如针对全链条任务的动态思维导图构建方法，以及适应不同工业场景的模块化推理框架。在模型架构层面，研究者利用该数据集验证了图神经网络与语言模型融合架构在处理跨阶段依赖关系时的优势。此外，数据集揭示的噪声敏感性问题催生了针对工业数据特性的对抗训练技术，这些衍生成果共同推动了面向复杂工业环境的人工智能技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集