codemixqa

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/gentaiscool/codemixqa

下载链接

链接失效反馈

官方服务：

资源简介：

CodeMixQA是一个包含高质量人工标注的基准数据集，由16种不同的平行代码切换语言对变体组成，涵盖多个地理区域和代码切换模式，包括原始脚本及其转写形式。该数据集基于SimpleQA Verified源数据集构建，具有可验证答案、去重数据点、主题平衡等特点，并采用了随机切换、选择性切换和语法约束等多种数据生成策略，可用于系统评估大型语言模型在不同代码切换模式和文本生成策略下的性能。

创建时间：

2026-01-11

原始信息汇总

CodeMixQA 数据集概述

数据集基本信息

数据集名称：CodeMixQA
许可协议：cc-by-4.0
下载大小：6,385,075 字节
数据集大小：27,899,884 字节

数据内容与结构

数据来源：基于 SimpleQA Verified 数据集构建。
数据特点：包含高质量人工标注，涵盖 16 种不同的平行语码转换语言对变体，跨越多个地理区域和语码转换模式，同时包含原始文字及其音译形式。
数据生成策略：采用多种数据生成策略，包括随机转换、选择性转换和语法约束方法。
用途：支持对大语言模型在不同语码转换模式和文本生成策略下的性能进行系统评估。

数据字段说明

数据集包含以下字段：

id：字符串类型，唯一标识符。
original_index：int64 类型，原始索引。
problem：字符串类型，问题。
answer：字符串类型，答案。
topic：字符串类型，主题。
answer_type：字符串类型，答案类型。
multi_step：布尔类型，是否多步骤。
requires_reasoning：布尔类型，是否需要推理。
urls：字符串类型，相关网址。
method：字符串类型，方法。
language：字符串类型，语言。

数据划分

划分名称：test
样本数量：64,000 个示例
字节大小：27,899,884 字节

支持语言

英语 (en)
意大利语 (it)
法语 (fr)
西班牙语 (es)
中文 (zh)
印度尼西亚语 (id)
日语 (ja)
韩语 (ko)
印地语 (hi)
马拉地语 (mr)
乌尔都语 (ur)
孟加拉语 (bn)

引用信息

如果研究中使用此数据集，请引用以下论文：

@article{winata2026can, title={Can Large Language Models Understand, Reason About, and Generate Code-Switched Text?}, author={Winata, Genta Indra and Anugraha, David and Irawan, Patrick Amadeus and Das, Anirban and Yoo, Haneul and Dashore, Paresh and Kulkarni, Shreyas and Zhang, Ruochen and Sakajo, Haruki and Hudi, Frederikus and others}, journal={arXiv preprint arXiv:2601.07153}, year={2026} }

搜集汇总

数据集介绍

构建方式

在语码转换研究领域，构建高质量的数据集对于评估模型能力至关重要。CodeMixQA数据集以SimpleQA Verified为源数据，该源数据集因其答案可验证、数据去重、主题平衡且区别于传统任务而备受青睐。研究者采用了随机转换、选择性转换及语法约束等多种数据生成策略，精心构建了涵盖16种平行语码转换语言对变体的测试集，这些变体跨越不同地理区域和转换模式，并同时包含原始文字及其转写形式。

使用方法

对于旨在评估大语言模型处理语码转换文本能力的研究者而言，CodeMixQA提供了一个标准化的基准。数据集仅包含测试分割，可直接用于模型评估。用户可通过HuggingFace数据集库加载，依据‘id’、‘problem’、‘answer’等字段进行访问。典型的使用场景包括：将‘problem’字段作为模型输入，以预测答案或分析其推理过程；利用‘language’、‘method’等元数据对模型性能进行细粒度分析，探究不同转换策略和语言对的影响。

背景与挑战

背景概述

CodeMixQA数据集由Genta Indra Winata等研究人员于2026年构建，旨在系统评估大语言模型在理解和生成代码混合文本方面的能力。该数据集基于SimpleQA Verified这一具有挑战性的问答基准，通过人工标注生成了16种平行代码混合语言对变体，覆盖英语、意大利语、法语、西班牙语、中文、印尼语、日语、韩语、印地语、马拉地语、乌尔都语及孟加拉语等多种语言，并融合了随机切换、选择性切换及语法约束等多种生成策略。其核心研究问题聚焦于大语言模型对跨语言代码混合现象的语义理解、推理与生成性能，为计算语言学与多语言自然语言处理领域提供了重要的评估工具。

当前挑战

CodeMixQA数据集致力于解决代码混合文本理解与生成这一复杂领域问题，其挑战在于模型需同时处理多种语言的语法结构混合、词汇语义交叉及文化语境差异，这对现有自然语言处理技术的泛化能力提出了严峻考验。在构建过程中，研究人员面临高质量人工标注的复杂性，包括确保代码混合模式的多样性、地理区域代表性以及原始脚本与音译形式的平衡；同时，数据生成需协调随机切换与语法约束策略，以模拟真实语言使用场景，并维持问答对的可验证性与主题均衡性，这些因素共同构成了数据集构建的核心难点。

常用场景

经典使用场景

在自然语言处理领域，CodeMixQA数据集为评估大型语言模型在多语言混合文本理解与生成方面的能力提供了标准化基准。该数据集通过16种平行代码切换语言对变体，覆盖了多种地理区域和切换模式，包括原始脚本及其音译形式，使得研究者能够系统地测试模型在复杂语言环境下的表现。其高质量的人工标注确保了评估的可靠性，常用于模型在代码切换任务中的性能对比与优化。

解决学术问题

CodeMixQA数据集主要解决了代码切换研究中缺乏统一、多样化评估基准的学术难题。传统研究多集中于语言识别、命名实体识别或机器翻译等有限任务，而该数据集通过整合随机切换、选择性切换和语法约束等多种生成策略，为探索模型在理解、推理和生成混合语言文本方面的能力提供了全面框架。它促进了跨语言自然语言处理的理论发展，特别是在多语言语境下模型泛化性与鲁棒性的评估上具有重要影响。

实际应用

在实际应用中，CodeMixQA数据集支持开发适应多语言社区的智能系统，如社交媒体内容分析、跨语言客服助手和教育平台。这些系统需要处理用户自然产生的混合语言查询，该数据集通过模拟真实世界的代码切换模式，帮助训练模型准确理解并回应混合语言输入。例如，在全球化企业的客户服务中，模型能够有效处理英语与本地语言混合的问题，提升沟通效率与用户体验。

数据集最近研究