CCFQA
收藏arXiv2025-08-10 更新2025-08-13 收录
下载链接:
https://github.com/yxduir/ccfqa
下载链接
链接失效反馈官方服务:
资源简介:
CCFQA是一个跨语言和跨模态事实性评估基准,包含8种语言的并行语音-文本事实性问题,旨在系统地评估多模态大型语言模型(MLLMs)的跨语言和跨模态事实性能力。数据集包含14,400个语音和文本问答样本,涵盖20个不同类别,支持四种任务设置:多语言文本问答、跨语言文本问答(XQA)、多语言语音问答(SQA)和跨语言语音问答(XSQA)。
提供机构:
哈尔滨工业大学,鹏城实验室
创建时间:
2025-08-10
原始信息汇总
CCFQA数据集概述
数据集简介
CCFQA是一个语音和文本事实性评估基准,用于衡量语言模型回答简短事实性问题的能力,并评估其跨语言和跨模态一致性。该数据集包含8种语言的语音和文本,共计1,800个n-way平行句子和14,400个语音样本。
语言覆盖
- 语言:普通话、英语、法语、日语、韩语、俄语、西班牙语、粤语(香港)
- ISO-3代码:cmn、eng、fra、jpn、kor、rus、spa、yue
数据集获取
python from datasets import load_dataset ccfqa = load_dataset("yxdu/ccfqa") print(ccfqa)
评估方法
评估方法请访问GitHub页面:https://github.com/yxduir/ccfqa
许可证
所有数据集均采用知识共享署名-非商业性使用许可协议(CC-BY-NC),仅允许非商业用途的使用、共享和改编,并需正确署名。
引用方式
bibtex @misc{du2025ccfqabenchmarkcrosslingualcrossmodal, title={CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation}, author={Yexing Du and Kaiyuan Liu and Youcheng Pan and Zheng Chu and Bo Yang and Xiaocheng Feng and Yang Xiang and Ming Liu}, year={2025}, eprint={2508.07295}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.07295}, }
搜集汇总
数据集介绍

构建方式
CCFQA数据集的构建过程分为跨语言和跨模态两个主要阶段。在跨语言数据构建中,研究团队从MKQA和MOOCCubeX等文本QA数据源中筛选高质量问题,通过GPT-4.1进行专业翻译并辅以人工校验,最终形成涵盖8种语言的平行语料库。跨模态构建则通过招募母语者录制音频,结合Whisper-large-v3的语音识别质量检测与迭代优化,确保14,400个语音-文本对在20个知识类别中的对齐精度。
特点
作为首个支持跨语言与跨模态事实性评估的基准,CCFQA的创新性体现在三方面:其平行数据结构允许系统检测模型在相同问题不同语言/模态下的回答一致性;覆盖英语、汉语、日语等8种语言及语音文本双模态的多样性;以及包含常规QA、跨语言QA(XQA)、语音QA(SQA)和跨语言语音QA(XSQA)四类任务的评估体系。特别设计的语音数据经过严格质量控制,平均词错误率控制在3.2%-16.8%之间。
使用方法
使用CCFQA进行评估时,研究者可通过四种任务设置全面检验多模态大语言模型的能力:在文本模态下进行单语言QA或多语言XQA测试,在语音模态下执行SQA或XSQA实验。基准提供的标准化评估协议包括F1分数和LLM裁判双指标,特别推荐采用Gemma3-27B作为裁判模型以保证评估一致性。对于语音输入,需预先通过Whisper等ASR系统转写,再与文本模态结果进行跨模态一致性对比分析。
背景与挑战
背景概述
CCFQA(跨语言与跨模态语音文本事实性评估基准)由哈尔滨工业大学与鹏城实验室的研究团队于2025年8月提出,旨在填补多模态大语言模型(MLLMs)在跨语言和跨模态场景下事实一致性评估的空白。该数据集包含8种语言的14,400个平行语音-文本问答对,涵盖人文、社会科学、自然科学与应用科学四大领域的20个子类别。作为首个支持跨语言文本问答(XQA)、跨语言语音问答(XSQA)等多任务评估的基准,CCFQA通过系统性实验揭示了当前MLLMs在语言和模态转换中的事实不一致性问题,为提升全球化多模态应用的可靠性提供了关键研究基础设施。
当前挑战
CCFQA针对两大核心挑战:其一,解决多模态大语言模型在处理跨语言(如中英文)和跨模态(语音与文本)输入时的事实性偏差问题,现有模型在相同问题的不同语言或模态表达中输出矛盾答案的现象突出;其二,数据构建过程中需克服多语言专业术语的语音对齐难题,包括低资源语种(如粤语)的语音采集质量保障、自动语音识别(ASR)系统在非拉丁语系中的错误率控制,以及通过反向翻译和人工校验确保14,400个样本的跨模态语义一致性。这些挑战凸显了开发具备稳健跨文化理解能力的多模态系统的复杂性。
常用场景
经典使用场景
在跨语言与跨模态的人工智能研究领域,CCFQA数据集为评估多模态大语言模型(MLLMs)在语音和文本输入下的真实性能力提供了标准化测试平台。该数据集通过涵盖8种语言的平行语音-文本问答对,支持多语言文本问答(QA)、跨语言文本问答(XQA)、多语言口语问答(SQA)及跨语言口语问答(XSQA)四种任务场景,成为研究模型在复杂语境中知识一致性的关键工具。
实际应用
该数据集直接服务于全球化智能语音助手的开发,如多语言客服系统、教育领域的口语测评工具等场景。通过检测模型在语音-文本转换中的事实性偏差,可优化数字人对话、实时翻译设备等应用的可靠性。其平行数据特性还为语音识别(ASR)与语音问答(SQA)系统的联合训练提供了高质量资源。
衍生相关工作
CCFQA催生了以英语为枢纽语言的少样本迁移学习方法(如LLM-SQA),仅需5样本即可将英语QA能力迁移至其他语言。相关研究进一步拓展至语音适配器设计、课程学习策略等领域,衍生出如SpeechIQ、VoiceBench等专注于语音模态评估的基准,形成了多模态事实性评估的研究谱系。
以上内容由遇见数据集搜集并总结生成



