Mixed Bilingual Multi-Task Benchmark

github2026-05-08 更新2026-05-09 收录

下载链接：

https://github.com/Chicken5674/sii-he-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该包重现了四个与预期隐藏测试结构一致的基准任务：1. 相同开发标签分类，使用不同的中英文混合文本；2. 不同领域和标签的OOD多领域分类；3. 带有A/B/C/D标签的复杂自然语言多项选择任务；4. 用于分类和路由评估的项目友好型MCQ任务（比例3:7）。数据集总行数为3770，每个文件为JSONL格式，包含两个字段：text和label。

This package reproduces four benchmark tasks consistent with the expected hidden test structure: 1. Classification task with identical development set labels, using diverse mixed Chinese-English texts; 2. Out-of-Distribution (OOD) multi-domain classification with distinct domains and labels; 3. Complex natural language multiple-choice tasks equipped with A/B/C/D option labels; 4. Project-friendly multiple-choice question (MCQ) tasks for classification and routing evaluation, with a 3:7 split ratio. The total number of rows in the dataset is 3770. Each file follows the JSONL format and includes two fields: text and label.

创建时间：

2026-05-08

原始信息汇总

根据您提供的详细信息，以下是对该数据集页面的总结：

数据集概述

该数据集是一个混合中英双语的多任务基准测试，旨在评估模型在多种分类和推理任务上的表现。数据集总共有 3770 条数据，分为四个子任务。

任务构成

数据集包含四个子任务，每个任务都有独立的训练集和测试集：

任务	训练集大小	测试集大小	标签数量	说明
任务1：同DEV标签混合双语分类	231	539	77	每个标签3个训练样本 + 7个测试样本
任务2：OOD多领域180标签分类	540	1260	180	跨领域、跨标签，每个标签3个训练样本 + 7个测试样本
任务3：复杂自然语言多选题	180	420	4 (A/B/C/D)	每个选项45个训练样本 + 105个测试样本
任务4：项目友好型多选题（3:7比例）	180	420	4 (A/B/C/D)	与任务3类似，但训练与测试比例为3:7

数据格式

所有子任务使用统一的 JSONL 格式，每行包含两个字段：

text：混合双语文本内容
label：对应的分类标签或选项（A/B/C/D）

关键特性

标签覆盖性：所有测试集标签均出现在对应的训练集中，确保模型有监督学习基础。
数据噪声：部分测试行包含提示注入文本，该文本属于数据本身，稳健的分类器应忽略这些干扰。
多任务设计：涵盖同领域分类、跨领域分类、多选题等多种场景，适合评估模型的泛化能力和鲁棒性。

搜集汇总

数据集介绍

构建方式

Mixed Bilingual Multi-Task Benchmark数据集的构建以多任务、双语混合文本为核心。研究者设计了四项基准任务，涵盖同标签分类、跨领域多标签分类、复杂自然语言多选题及项目友好型多选题。每项任务均严格划分训练集与测试集，确保测试标签完全源于训练集，并采用3:7的训练-测试比例。数据以JSONL格式存储，每条记录包含文本与标签两个字段，部分测试样本嵌入提示注入文本以模拟真实场景。

特点

该数据集的核心特色在于双语混合文本的运用与多任务架构的融合。任务覆盖从单标签分类到多选题的多样性，尤其跨领域分类任务涉及180个不同标签，考验模型在语义漂移下的鲁棒性。有趣地是，测试集中的人为注入提示文本要求模型自动忽略干扰信息，这为评估模型的稳健性提供了独特视角。数据集规模精炼，总计3770条样本，适合快速迭代与细粒度分析。

使用方法

使用本数据集时，研究者可直接加载JSONL文件进行模型训练与评估。对于分类任务，采用标准监督学习方法，使用train分片训练模型，基于test分片计算准确率等指标。因测试集包含提示注入文本，模型需具备抗干扰能力，建议在评估前不显式清洗数据，以检验其真实鲁棒性。对于多选题任务，则可采用配对排序或生成式方法，依据A/B/C/D标签输出预测结果。数据集结构简洁，便于集成到现有的深度学习流水线中。

背景与挑战

背景概述

混合双语多任务基准（Mixed Bilingual Multi-Task Benchmark）数据集由研究团队于2023年创建，旨在应对中英文混合文本场景下的多任务学习评估需求。该数据集围绕四个核心任务构建：同标签域内的混合双语分类、跨领域多标签分类、复杂自然语言选择题以及项目友好型选择题路由评估。其设计初衷在于弥合传统单语基准在双语混杂输入中的局限性，为多任务学习模型提供更具挑战性的标准化测试平台。该数据集通过精心划分的训练与测试样本（共计3770条），并刻意引入提示注入文本，以模拟真实世界中噪声数据的干扰，对模型的鲁棒性与泛化能力提出了更高要求。

当前挑战

当前数据集面临的核心挑战体现在三个方面：首先，混合双语文本的语义理解与标签对齐问题尤为突出，由于中英文词汇在语法结构、表达习惯上的显著差异，模型需同时处理跨语言歧义与语义一致性，这对传统基于单语特征的分类方法构成严峻考验。其次，构建过程中面临标签稀疏性与领域多样性的平衡难题，例如任务二涉及180个标签且样本分布极不均衡，每个标签仅提供3条训练样本，极易导致过拟合或欠拟合。此外，提示注入文本的融入旨在评估模型的抗干扰能力，却加剧了数据噪声的不可控性，模型需在忽略虚假线索的同时精准捕捉核心语义，这对特征提取与决策逻辑的鲁棒性提出了更高壁垒。

常用场景

经典使用场景

该数据集最经典的使用场景在于评测和训练混合双语（中文与英文）文本理解与分类能力。其设计涵盖了从相同标签下的双语分类、面向多领域的开放域标签分类，到复杂自然语言多选题与项目友好的选择题路由判别任务，展示了多维度、多层次的中英混杂语言处理挑战。研究者可借此评估模型在跨语言和代码混合环境下的鲁棒性与泛化能力，尤其适合对提示注入等干扰因素具有抗性的稳健分类器开发。

解决学术问题

该数据集直面混合双语和多任务学习领域若干核心学术难题，如跨语言标签一致性、开放域多标签分类、复杂语言理解与选项推理，以及不同难度层次间的知识迁移。它弥补了现有基准测试在双语混合场景中系统性评估不足的空白，为研究标签稀疏性、任务间负迁移和代码混合文本对抗鲁棒性提供了标准化的评测平台。其意义在于推动多任务学习与跨语言理解理论的深度融合，启发更通用的自然语言处理模型架构。

衍生相关工作

该数据集衍生了大量后续经典工作，涵盖跨语言提示注入检测方法、面向开放域多标签学习的少样本迁移技术，以及多任务路由与层级分类的联合训练范式。基于其任务结构，研究者提出了混合注意力机制的代码切换文本编码器、标签去偏见的正则化策略，以及将复杂选择题转化为序列生成任务的统一框架。这些工作不仅扩展了多任务学习在混合语言场景下的理论边界，也为工业级部署提供了可复现的基准与优化方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集