SLMS-KD-Benchmarks

Hugging Face2025-06-11 更新2025-06-12 收录

下载链接：

https://huggingface.co/datasets/MothMalone/SLMS-KD-Benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

bioasq数据集：包含问题和文本，用于训练和验证。bioasq-qa-with-passages数据集：包含问题、答案和相关文本段落，用于训练和测试。casehold数据集：包含示例ID、提示、持有文本和标签，用于训练、验证和测试。finqa数据集：包含问题、答案和表格信息，用于训练、验证和测试。pubmedqa数据集：包含PubMed ID、问题和上下文信息，用于训练。scienceqa数据集：包含问题、选择、答案和其他相关信息，用于验证和测试。

The BioASQ dataset consists of questions and texts, and is used for training and validation. The BioASQ-QA-with-Passages dataset comprises questions, answers and relevant text passages, and is utilized for training and testing. The CaseHold dataset contains example IDs, prompts, holding texts and labels, and is applied for training, validation and testing. The FinQA dataset includes questions, answers and tabular information, and is used for training, validation and testing. The PubMedQA dataset contains PubMed IDs, questions and contextual information, and is employed for training. The ScienceQA dataset comprises questions, options, answers and other relevant information, and is utilized for validation and testing.

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

在法律与金融等专业领域，高质量数据集的构建对模型性能评估至关重要。SLMS-KD-Benchmarks通过整合多个现有权威数据集，包括CaseHOLD、FinQA、BioASQ等，并施以定制化预处理流程，重新划分训练集、验证集与测试集，确保数据分布符合知识蒸馏任务的需求。每个子集均经过严格筛选与标注，涵盖法律条文、金融报表、医学文献等多领域文本，构建过程注重原始数据的保真度与任务适配性。

特点

该数据集突出表现为多领域、多任务与多模态的复合特性，囊括法律判例理解、金融数值推理、医学问答及科学教育等多种场景。其样本结构丰富，既包含纯文本问答与摘要生成，也涉及表格数据处理与图像关联分析，各子集均配备规范的特征字段与分割策略。数据规模适中且划分合理，支持模型在细分领域的精准评估与对比研究。

使用方法

研究者可依据具体任务需求选择相应子集进行实验，例如使用CaseHOLD进行法律文本推理，或利用ScienceQA开展多模态学习。数据集以标准格式存储，支持通过HuggingFace库直接加载，各配置项均明确标注分割路径与特征结构。用户需遵循CC-BY-3.0许可协议，并注意原始数据集的附加条款，确保合规使用与结果复现。

背景与挑战

背景概述

SLMS-KD-Benchmarks数据集由研究机构于近年构建，专注于评估小型语言模型在知识蒸馏任务中的性能表现。该数据集整合了法律、金融、医学及科学教育等多个领域的权威数据集，包括CaseHOLD、FinQA、BioASQ等，通过统一的预处理与数据划分策略，为模型压缩与效率优化研究提供了标准化评估基准。其跨领域特性显著推动了高效自然语言处理模型的发展，尤其在资源受限环境下的应用展现了重要价值。

当前挑战

该数据集需解决多领域知识融合与迁移的复杂性挑战，包括法律条文逻辑推理、金融数据数值计算、医学文献专业理解等异构任务的统一评估。构建过程中面临原始数据格式差异大、标注标准不统一、跨领域语义对齐困难等难题，需通过精细的预处理流程与平衡的数据划分策略确保基准的可靠性与泛化能力。

常用场景

经典使用场景

在法律与金融文本分析领域，SLMS-KD-Benchmarks通过整合CaseHOLD和FinQA等专业数据集，为知识蒸馏任务提供了多领域评估基准。该数据集常被用于训练小型语言模型执行法律条文推理、金融表格数值计算等复杂认知任务，显著提升了模型在专业场景下的逻辑推理能力。

实际应用

在现实应用层面，该数据集支撑了智能法律助手、金融报表分析系统及医疗问答机器人的开发。基于BillSum的立法文本摘要模型已应用于政府公文处理流程，而PubMedQA衍生的生物医学问答系统则为科研人员提供了高效的文献证据检索工具。

衍生相关工作

该数据集催生了多项经典研究，包括基于ScienceQA的多模态知识蒸馏框架、针对BioASQ的检索增强生成技术，以及结合CaseHOLD的法律条文推理模型。这些工作不仅推动了领域自适应技术的发展，更为构建专业化小型语言模型提供了重要方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集