eval-question_answering

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/code-switching/eval-question_answering

下载链接

链接失效反馈

官方服务：

资源简介：

Code-switch QA (Eval) 是一个代码切换问答评估数据集，包含两种类型的问题：多项选择题和简答题。该数据集针对Javanese-Indonesian-English（jv-id-en）和Indonesian-English（id-en）语言组合。每种问题类型都有对应的测试集，每个测试集包含990个示例。

创建时间：

2025-05-18

原始信息汇总

数据集概述

基本信息

数据集名称: Code-switch QA (Eval)
语言: 爪哇语 (jv)、印尼语 (id)、英语 (en)
配置数量: 4

配置详情

1. 多项选择题 (jv-id-en)

数据文件路径: jv-id-en/mc/test-*
特征:
- id (string)
- 0 shot prompt (string)
- 1 shot prompt (string)
- 3 shot prompt (string)
- 5 shot prompt (string)
- type (string)
- answer (string)
测试集:
- 样本数: 990
- 大小: 33,363,985 字节

2. 多项选择题 (id-en)

数据文件路径: id-en/mc/test-*
特征:
- id (string)
- 0 shot prompt (string)
- 1 shot prompt (string)
- 3 shot prompt (string)
- 5 shot prompt (string)
- type (string)
- answer (string)
测试集:
- 样本数: 990
- 大小: 31,973,851 字节

3. 简答题 (jv-id-en)

数据文件路径: jv-id-en/sa/test-*
特征:
- id (string)
- 0 shot prompt (string)
- 1 shot prompt (string)
- 3 shot prompt (string)
- 5 shot prompt (string)
- type (string)
- answer (string)
测试集:
- 样本数: 990
- 大小: 30,778,230 字节

4. 简答题 (id-en)

数据文件路径: id-en/sa/test-*
特征:
- id (string)
- 0 shot prompt (string)
- 1 shot prompt (string)
- 3 shot prompt (string)
- 5 shot prompt (string)
- type (string)
- answer (string)
测试集:
- 样本数: 990
- 大小: 29,616,426 字节

搜集汇总

数据集介绍

构建方式

在跨语言问答系统的研究背景下，eval-question_answering数据集通过精心设计的架构支持爪哇语、印尼语和英语的混合编码评估。该数据集采用多配置构建策略，包含多选题和简答两种题型，每种题型均提供零样本到五样本的渐进式提示模板。数据划分严格遵循测试集单一路径原则，确保评估过程的纯净性，其中jv-id-en和id-en两种语言组合各自独立存储，总样本量达3960条。

使用方法

研究者可通过HuggingFace平台直接加载特定配置，如'multiple_choice (jv-id-en)'或'short_answer (id-en)'，系统自动解析对应的测试集路径。使用时应根据研究需求选择适当的提示样本量，零样本模板适用于基础能力评估，递增式模板则用于few-shot学习效果验证。数据加载后可通过标准NLP管道处理，注意区分多选题的选项解析与简答题的开放式生成，模型输出需与answer字段进行精确匹配或相似度计算以实现自动评分。

背景与挑战

背景概述

eval-question_answering数据集聚焦于多语言混合问答任务，特别关注爪哇语（jv）、印尼语（id）和英语（en）之间的代码转换现象。该数据集由研究团队精心构建，旨在评估模型在多语言混合环境下的问答能力。其核心研究问题在于探索语言模型如何理解和处理不同语言混合输入的复杂语义关系，为跨语言自然语言处理领域提供了重要的评估基准。数据集通过多选题和简答题两种形式，系统性地考察模型在零样本、单样本、少样本等不同设置下的表现，对推动低资源语言处理技术的发展具有显著意义。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题层面，代码转换现象导致语言边界模糊，模型需同时处理多种语言的语法规则和词汇体系，这对传统单语言模型构成严峻考验；数据构建层面，低资源语言的标注人才稀缺，确保爪哇语等语言的问答对质量需要耗费大量人力成本。同时，不同语言混合比例的平衡、文化特定表达的准确翻译，以及少样本提示工程的设计，都是构建过程中需要克服的技术难点。

常用场景

经典使用场景

在跨语言自然语言处理研究中，eval-question_answering数据集为评估多语言问答系统提供了标准化的测试平台。其独特的爪哇语-印尼语-英语三语混合配置，以及印尼语-英语双语配置，特别适合研究代码切换场景下的语义理解能力。该数据集通过选择题和简答题两种形式，全面检验模型在不同提示策略下的零样本、小样本学习表现。

解决学术问题

该数据集有效解决了低资源语言处理中的核心难题，为语言学家提供了量化分析代码切换现象的实证基础。通过标准化的评估框架，研究者能够系统比较不同模型在混合语言环境下的知识迁移能力，填补了东南亚语言组合在问答系统评测领域的空白。其多提示策略设计为小样本学习研究提供了丰富的实验场景。

实际应用

在实际应用中，该数据集支撑了东南亚地区智能客服系统的开发优化，特别是在爪哇岛等多语言混杂区域。教育科技领域利用其评估双语教学辅助工具的语义理解准确率，金融科技公司则借助该数据集测试多语言FAQ系统的鲁棒性。其测试结果直接指导了跨语言搜索算法的改进。

数据集最近研究