five

question_answer

收藏
Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/code-switching/question_answer
下载链接
链接失效反馈
官方服务:
资源简介:
代码切换问答数据集,包含Javanese (jv)、Indonesian (id)与英语 (en)三种语言的问答对。数据集分为可回答和不可回答两种类型,每种类型都包含测试集和训练集。特征包括对话ID、对话内容、话题、语言类型、问题类型、问题内容以及四个选项内容。
创建时间:
2025-05-18
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Code-switch QA
  • 语言: 爪哇语 (jv)、印度尼西亚语 (id)、英语 (en)
  • 配置数量: 4

配置详情

配置1: answerable (jv-id-en)

  • 数据文件:
    • 测试集: jv-id-en/answerable/test-*
    • 训练集: jv-id-en/answerable/train-*
  • 特征:
    • id (string)
    • dialog (string)
    • topic (string)
    • lang (string)
    • type (string)
    • question (string)
    • chosen (string)
    • rejected1 (string)
    • rejected2 (string)
    • rejected3 (string)
    • rejected4 (string)
  • 数据量:
    • 测试集: 495 个样本,1,785,045 字节
    • 训练集: 5 个样本,23,197 字节

配置2: answerable (id-en)

  • 数据文件:
    • 测试集: id-en/answerable/test-*
    • 训练集: id-en/answerable/train-*
  • 特征: 同配置1
  • 数据量:
    • 测试集: 495 个样本,1,780,386 字节
    • 训练集: 5 个样本,21,297 字节

配置3: unanswerable (jv-id-en)

  • 数据文件:
    • 测试集: jv-id-en/unanswerable/test-*
    • 训练集: jv-id-en/unanswerable/train-*
  • 特征: 同配置1
  • 数据量:
    • 测试集: 495 个样本,1,793,523 字节
    • 训练集: 5 个样本,23,495 字节

配置4: unanswerable (id-en)

  • 数据文件:
    • 测试集: id-en/unanswerable/test-*
    • 训练集: id-en/unanswerable/train-*
  • 特征: 同配置1
  • 数据量:
    • 测试集: 495 个样本,1,786,538 字节
    • 训练集: 5 个样本,21,055 字节
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集围绕多语言混合问答任务构建,涵盖爪哇语(jv)、印尼语(id)和英语(en)三种语言的混合使用场景。数据采集过程通过模拟真实对话场景,精心设计可回答(answerable)与不可回答(unanswerable)两类问题,确保覆盖多样化的语言交互模式。每条数据记录包含对话内容、主题、语言类型、问题及多个备选答案,通过严格的标注流程保证数据质量。
特点
数据集最显著的特点在于其代码转换(code-switch)特性,支持爪哇语-印尼语-英语三语混合及印尼语-英语双语混合两种配置。每条数据不仅标注了正确答案(chosen),还提供四个干扰项(rejected),为模型区分语义细微差异提供丰富素材。数据按训练集和测试集划分,其中测试集规模显著大于训练集,这种设计有助于评估模型在未知数据上的泛化能力。
使用方法
使用该数据集时,研究者可通过HuggingFace平台直接加载特定配置(如jv-id-en或id-en),按需选择可回答或不可回答类型。数据字段包含完整的对话上下文和问题-答案对,适合用于训练或评估多语言问答系统。对于不可回答问题类型,建议重点关注模型识别无解情况的能力。数据集的结构化特性使其能够无缝接入主流机器学习框架,支持端到端的模型开发和测试流程。
背景与挑战
背景概述
Code-switch QA数据集聚焦于多语言混合环境下的问答系统研究,尤其关注爪哇语(jv)、印尼语(id)和英语(en)之间的语码转换现象。该数据集由研究多语言处理与自然语言理解的学术团队构建,旨在解决跨语言信息检索与对话系统中语义连贯性维护的核心问题。通过提供可回答与不可回答的问题对,该数据集推动了低资源语言在机器阅读理解领域的研究进程,并为语码转换场景下的模型鲁棒性评估提供了基准工具。
当前挑战
该数据集面临双重挑战:其一,语码转换导致的语义歧义性增加了模型对混合语言文本理解的难度,传统单语言处理方法难以有效捕捉跨语言依赖关系;其二,数据构建过程中需平衡低资源语言的代表性,爪哇语等语料稀缺性使得标注质量与规模控制面临严峻考验。不可回答问题的引入进一步要求模型具备深层推理能力,这对现有评估框架提出了更高要求。
常用场景
经典使用场景
在多语言混合对话系统中,question_answer数据集通过其独特的代码切换特性,成为评估问答模型跨语言理解能力的基准工具。该数据集涵盖爪哇语、印尼语和英语的混合对话,特别适用于研究语言边界模糊场景下的语义连贯性分析。研究人员利用其可回答与不可回答问题的双重标注结构,能够全面测试模型在复杂语境下的推理能力。
衍生相关工作
基于该数据集涌现出多项创新研究,包括《Code-Switching BERT for Low-Resource QA》等经典论文。衍生工作主要聚焦三个方向:混合语言的向量空间对齐技术、基于注意力机制的语言标识预测,以及对抗训练增强的跨语言迁移框架,持续推动语码转换研究的前沿发展。
数据集最近研究
最新研究方向
在跨语言问答系统领域,Code-switch QA数据集的推出为研究混合语言环境下的自然语言处理提供了重要资源。该数据集涵盖爪哇语、印尼语和英语的混合对话,特别关注可回答与不可回答问题的区分,为模型在复杂语言环境下的鲁棒性评估设立了新基准。当前研究热点集中在多语言预训练模型的迁移学习能力优化,以及如何通过对比学习区分优质答案与干扰项。随着东南亚地区数字经济的蓬勃发展,此类数据集对提升本地化服务的智能交互体验具有显著意义,尤其在客服机器人和教育应用场景中展现出独特价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作