Hindi-English synthetic code-switched dataset

Name: Hindi-English synthetic code-switched dataset
Creator: 圣母大学
Published: 2025-08-18 14:50:24
License: 暂无描述

arXiv2025-08-18 更新2025-08-22 收录

下载链接：

https://github.com/tnagar72/Breaki ng-Language-Barriers-Equitable-Performance-in-M ultilingual-Language-Models

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由圣母大学研究人员创建的，旨在解决低资源语言在大型语言模型中表现不佳的问题。数据集包含1202个问题，这些问题是通过对CommonSenseQA数据集中的英文问题进行混合语言转换生成的。数据集的特点是包含三种不同的语言混合比例，旨在研究不同混合程度对模型性能的影响。数据集的创建过程涉及使用GPT-3.5和CoCoa模型生成混合语言文本。该数据集可用于评估和改进低资源语言在大型语言模型中的表现。

This dataset was developed by researchers at the University of Notre Dame to address the underperformance of low-resource languages in large language models (LLMs). It contains 1,202 questions generated via mixed-language transformation of English questions sourced from the CommonSenseQA dataset. The dataset features three distinct language mixing ratios, aiming to investigate the impact of varying mixing degrees on model performance. Its creation process involved using GPT-3.5 and the CoCoa model to generate mixed-language texts. This dataset can be employed to evaluate and improve the performance of low-resource languages in large language models.

提供机构：

圣母大学

创建时间：

2025-08-18

搜集汇总

数据集介绍

构建方式

在低资源语言处理研究中，该数据集通过两种创新方法构建：首先采用GPT-3.5模型生成提示引导的印地语-英语语码转换文本，随后利用CoCoa模型实现精确的语言混合控制。研究团队基于CommonSenseQA数据集，通过设定三种不同的代码混合指数（CMI）阈值——低（0-16.7%）、中（16.7-30%）和高（30-50%），生成具有不同语言比例的高质量合成语料。为确保数据质量，还实施了每50个问题随机抽样的手动验证机制。

特点

该数据集最显著的特征在于其精确的语言混合控制能力，通过CMI指数量化语言交替程度，为研究语码转换对模型性能的影响提供了可量化的实验基础。数据集包含四种不同配置版本：GPTgen自然生成版本及三种CMI控制版本，每种版本都保持了原始问题的语义完整性，仅对问题部分进行语码转换而保留英文选项。这种设计既体现了真实双语交流的语用特征，又确保了常识推理任务评估的一致性。

使用方法

研究人员可采用该数据集对多语言大模型进行微调训练，特别适用于提升模型在印地语等低资源语言上的常识推理能力。使用时需将语码转换后的问题与原始英文选项组合输入模型，通过交叉验证评估模型性能。实验表明，在LLaMA-3-8B模型上使用QLoRA技术进行5个epoch的微调，学习率设置为3e-5，能显著提升低资源语言性能而不损害高资源语言表现。最佳效果出现在CMI中等等级（16.7-30%）的语料微调后，模型在印地语任务上达到85.6%的准确率。

背景与挑战

背景概述

印英合成语码转换数据集由威斯康星大学麦迪逊分校与圣母大学NSF计算机辅助合成中心的研究团队于2025年创建，旨在解决多语言大模型在低资源语言与高资源语言之间的性能差异问题。该数据集基于CommonSenseQA常识推理任务，通过控制语言混合比例生成三种不同代码转换强度的文本，显著提升了印地语场景下的模型性能，同时保持英语任务的准确性，为跨语言表示学习提供了新的研究范式。

当前挑战

该数据集核心挑战在于平衡多语言模型性能的公平性，需解决低资源语言常识推理任务中超过15%的性能差距问题。构建过程中面临自然语码转换数据稀缺、生成模型对语言混合比例控制不足，以及合成文本与真实语言现象之间的语义连贯性保障等关键技术难题。

常用场景

经典使用场景

在跨语言自然语言处理研究中，Hindi-English synthetic code-switched dataset被广泛应用于提升多语言大模型在低资源语言上的常识推理能力。通过将英语问题与印地语词汇进行混合生成，该数据集为模型提供了模拟真实双语交流场景的训练样本，显著增强了模型对混合语言结构的理解与处理能力。

解决学术问题

该数据集有效解决了多语言大模型在低资源语言与高资源语言间性能不均衡的学术难题。通过合成代码切换文本，模型在保持英语性能的同时显著提升印地语常识推理准确率，缩小了语言间的性能差距，为构建更公平的多语言表示学习提供了理论基础与方法支撑。

衍生相关工作

该数据集催生了多项跨语言适配研究，例如基于CoCoa模型的受控语言混合生成技术，以及针对俄语-英语、西班牙语-英语等语言对的代码切换扩展研究。后续工作进一步探索了完全代码切换数据集对模型鲁棒性的影响，推动了多语言表示学习领域的算法创新与评估体系完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集