question_answer

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/code-switching/question_answer

下载链接

链接失效反馈

官方服务：

资源简介：

代码切换问答数据集，包含Javanese (jv)、Indonesian (id)与英语 (en)三种语言的问答对。数据集分为可回答和不可回答两种类型，每种类型都包含测试集和训练集。特征包括对话ID、对话内容、话题、语言类型、问题类型、问题内容以及四个选项内容。

创建时间：

2025-05-18

原始信息汇总

数据集概述

基本信息

数据集名称: Code-switch QA
语言: 爪哇语 (jv)、印度尼西亚语 (id)、英语 (en)
配置数量: 4

配置详情

配置1: answerable (jv-id-en)

数据文件:
- 测试集: jv-id-en/answerable/test-*
- 训练集: jv-id-en/answerable/train-*
特征:
- id (string)
- dialog (string)
- topic (string)
- lang (string)
- type (string)
- question (string)
- chosen (string)
- rejected1 (string)
- rejected2 (string)
- rejected3 (string)
- rejected4 (string)
数据量:
- 测试集: 495 个样本，1,785,045 字节
- 训练集: 5 个样本，23,197 字节

配置2: answerable (id-en)

数据文件:
- 测试集: id-en/answerable/test-*
- 训练集: id-en/answerable/train-*
特征: 同配置1
数据量:
- 测试集: 495 个样本，1,780,386 字节
- 训练集: 5 个样本，21,297 字节

配置3: unanswerable (jv-id-en)

数据文件:
- 测试集: jv-id-en/unanswerable/test-*
- 训练集: jv-id-en/unanswerable/train-*
特征: 同配置1
数据量:
- 测试集: 495 个样本，1,793,523 字节
- 训练集: 5 个样本，23,495 字节

配置4: unanswerable (id-en)

数据文件:
- 测试集: id-en/unanswerable/test-*
- 训练集: id-en/unanswerable/train-*
特征: 同配置1
数据量:
- 测试集: 495 个样本，1,786,538 字节
- 训练集: 5 个样本，21,055 字节

搜集汇总

数据集介绍

构建方式

该数据集围绕多语言混合问答任务构建，涵盖爪哇语（jv）、印尼语（id）和英语（en）三种语言的混合使用场景。数据采集过程通过模拟真实对话场景，精心设计可回答（answerable）与不可回答（unanswerable）两类问题，确保覆盖多样化的语言交互模式。每条数据记录包含对话内容、主题、语言类型、问题及多个备选答案，通过严格的标注流程保证数据质量。

特点

数据集最显著的特点在于其代码转换（code-switch）特性，支持爪哇语-印尼语-英语三语混合及印尼语-英语双语混合两种配置。每条数据不仅标注了正确答案（chosen），还提供四个干扰项（rejected），为模型区分语义细微差异提供丰富素材。数据按训练集和测试集划分，其中测试集规模显著大于训练集，这种设计有助于评估模型在未知数据上的泛化能力。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载特定配置（如jv-id-en或id-en），按需选择可回答或不可回答类型。数据字段包含完整的对话上下文和问题-答案对，适合用于训练或评估多语言问答系统。对于不可回答问题类型，建议重点关注模型识别无解情况的能力。数据集的结构化特性使其能够无缝接入主流机器学习框架，支持端到端的模型开发和测试流程。

背景与挑战

背景概述

Code-switch QA数据集聚焦于多语言混合环境下的问答系统研究，尤其关注爪哇语（jv）、印尼语（id）和英语（en）之间的语码转换现象。该数据集由研究多语言处理与自然语言理解的学术团队构建，旨在解决跨语言信息检索与对话系统中语义连贯性维护的核心问题。通过提供可回答与不可回答的问题对，该数据集推动了低资源语言在机器阅读理解领域的研究进程，并为语码转换场景下的模型鲁棒性评估提供了基准工具。

当前挑战

该数据集面临双重挑战：其一，语码转换导致的语义歧义性增加了模型对混合语言文本理解的难度，传统单语言处理方法难以有效捕捉跨语言依赖关系；其二，数据构建过程中需平衡低资源语言的代表性，爪哇语等语料稀缺性使得标注质量与规模控制面临严峻考验。不可回答问题的引入进一步要求模型具备深层推理能力，这对现有评估框架提出了更高要求。

常用场景

经典使用场景

在多语言混合对话系统中，question_answer数据集通过其独特的代码切换特性，成为评估问答模型跨语言理解能力的基准工具。该数据集涵盖爪哇语、印尼语和英语的混合对话，特别适用于研究语言边界模糊场景下的语义连贯性分析。研究人员利用其可回答与不可回答问题的双重标注结构，能够全面测试模型在复杂语境下的推理能力。

衍生相关工作

基于该数据集涌现出多项创新研究，包括《Code-Switching BERT for Low-Resource QA》等经典论文。衍生工作主要聚焦三个方向：混合语言的向量空间对齐技术、基于注意力机制的语言标识预测，以及对抗训练增强的跨语言迁移框架，持续推动语码转换研究的前沿发展。

数据集最近研究