five

MultiCoXQL, Compass

收藏
arXiv2025-08-21 更新2025-08-23 收录
下载链接:
https://github.com/qiaw99/compass
下载链接
链接失效反馈
官方服务:
资源简介:
MultiCoXQL是一个多语言扩展的数据集,包括五种不同类型的语言,包括一种低资源语言。Compass是一个新的多语言数据集,设计用于在对话可解释人工智能系统中提取自定义输入。这两个数据集旨在解决当前对话可解释人工智能系统中缺乏多语言训练数据和自定义输入支持的问题。数据集包含用户问题、提取的自定义输入和相应的意图,覆盖了五种语言。数据集的创建过程包括机器翻译和人工评估翻译质量。数据集的应用领域包括增强用户对大型语言模型的可理解性,并支持用户根据个人偏好进行更灵活的使用。

MultiCoXQL is a multilingual extended dataset covering five distinct language types, including one low-resource language. Compass is a novel multilingual dataset designed for extracting custom inputs from conversational explainable artificial intelligence (XAI) systems. These two datasets aim to address the current shortage of multilingual training data and custom input support in conversational XAI systems. The datasets include user questions, extracted custom inputs, and corresponding intents, spanning five languages. The creation process of the datasets involves machine translation and human evaluation of translation quality. Their application scenarios include enhancing users' comprehension of large language models (LLMs) and enabling more flexible usage tailored to individual preferences.
提供机构:
德国人工智能研究中心(DFKI)
创建时间:
2025-08-21
原始信息汇总

Compass: 多语言对话式可解释人工智能系统自定义输入提取与解析数据集

数据集概述

Compass是一个多语言数据集,专为对话式可解释人工智能(XAI)系统中的自定义输入提取和解析任务而设计。该数据集支持多种语言,包括中文(cn)、德语(de)、英语(en)、俄语(ru)和泰卢固语(te)。

语言支持

  • 中文(cn)
  • 德语(de)
  • 英语(en)
  • 俄语(ru)
  • 泰卢固语(te)

数据集结构

数据集分为两个主要部分:

  • Compass: 包含实验和数据目录,实验部分涵盖自定义输入提取和意图识别任务
  • MultiCoXQL: 包含实验和数据目录,实验部分涉及解析任务,包括引导解码、多提示和多提示增强方法

实验内容

  • 自定义输入提取
  • 意图识别
  • 解析(引导解码、多提示、多提示增强)

相关论文

该数据集相关论文已被EMNLP 2025 Findings接收,标题为《Multilingual Datasets for Custom Input Extraction and Explanation Requests Parsing in Conversational XAI Systems》。

引用信息

bibtex @misc{wang2025multilingualdatasetscustominput, title={Multilingual Datasets for Custom Input Extraction and Explanation Requests Parsing in Conversational XAI Systems}, author={Qianli Wang and Tatiana Anikina and Nils Feldhus and Simon Ostermann and Fedor Splitt and Jiaao Li and Yoana Tsoneva and Sebastian Möller and Vera Schmitt}, year={2025}, eprint={2508.14982}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.14982}, }

搜集汇总
数据集介绍
main_image_url
构建方式
MultiCoXQL数据集通过机器翻译方法构建,将英文CoXQL数据集扩展至德语、中文、俄语及泰卢固语四种语言,覆盖类型学多样的语言体系。翻译过程采用Gemini-1.5-pro模型进行自动转换,并经由母语者人工评估与修正,确保语义一致性与语法正确性。数据集中仅用户问句被翻译,标注标签保留英文以维持标签空间一致性,最终以JSON格式存储,与原始CoXQL结构完全对齐。
使用方法
MultiCoXQL适用于评估多语言意图解析模型的性能,支持单语、跨语种及多语种评测范式。研究者可基于该数据集训练或微调模型(如BERT、mBERT或Decoder-only LLMs),采用最近邻、引导解码或多提示解析等方法进行意图识别。评测指标以F1分数为主,重点关注模型在非英语语言上的解析准确率与泛化能力,尤其适用于对话式XAI系统的上游任务优化与跨语言迁移研究。
背景与挑战
背景概述
MultiCoXQL与Compass数据集由柏林工业大学与德国人工智能研究中心于2025年联合发布,旨在解决对话式可解释人工智能系统中多语言意图识别与自定义输入解析的核心问题。该研究团队由Qianli Wang等学者领衔,针对现有ConvXAI系统在非英语语境下的泛化瓶颈,构建了覆盖德语、中文、俄语、泰卢固语和英语的五语言平行语料库。该数据集通过机器翻译与人工校正相结合的方式,扩展了CoXQL的语义解析框架,显著提升了跨语言可解释性对话系统的交互能力,为多语言自然语言处理与可信人工智能研究提供了重要基础设施。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需解决低资源语言(如泰卢固语)的语义复杂性导致的意图识别偏差,以及跨语言语法结构差异对解释请求解析准确性的影响;在技术实现层面,机器翻译过程中存在专业术语一致性维护(如'adversarial examples'在俄语中的正确译法)、自定义输入与用户问题的语义对齐验证,以及多语言标注中文化语境适配性问题。此外,泰卢固语等低资源语言缺乏现成的语言模型支持,需重新设计跨语言迁移学习方案。
常用场景
经典使用场景
在对话式可解释人工智能系统中,MultiCoXQL和Compass数据集被广泛应用于多语言意图识别和自定义输入解析任务。这些数据集支持研究者构建能够理解用户解释请求的对话代理,特别是在跨语言环境下对预定义操作和自由格式输入的精准映射。通过提供标准化的多语言语料,它们成为评估和比较不同解析方法性能的基础平台。
解决学术问题
该数据集有效解决了对话式XAI系统中多语言泛化能力不足和训练数据稀缺的核心学术问题。通过覆盖五种类型学各异的语言(包括低资源语言泰卢固语),它不仅突破了英语单一语言的局限,还为研究跨语言语义解析、意图识别迁移学习以及低资源语言处理提供了关键实验数据。其意义在于推动了可解释AI系统的全球化应用,为建立更公平、包容的AI解释机制奠定了数据基础。
实际应用
在实际应用层面,这些数据集直接支撑多语言对话式AI助手的开发,使用户能以自然语言交互方式获取模型决策解释。例如在医疗诊断、金融风控等高风险领域,系统可通过解析用户用母语提出的“为什么模型做出此预测”或“如何修改这个决策”等请求,生成针对性解释。这种能力显著降低了非英语用户使用AI系统的门槛,提升了跨文化场景下的AI透明度和可信度。
数据集最近研究
最新研究方向
随着可解释人工智能(XAI)系统的快速发展,多语言对话式XAI(ConvXAI)成为前沿研究热点。MultiCoXQL和Compass数据集的推出,显著填补了多语言意图识别与自定义输入解析的空白,支持德语、中文、俄语、泰卢固语等类型学多样语言,包括低资源语言。当前研究聚焦于提升多语言解析性能,例如提出引导多提示解析(GMP)方法,结合语义相似性计算与语法约束,显著增强跨语言泛化能力。同时,自定义输入提取技术通过GOLLIE等结构化编码方法,提升小规模模型在复杂语境下的信息抽取精度。这些进展不仅推动了ConvXAI系统在全球化应用中的适应性,还为多语言NLP任务提供了新的评估基准和方法论支持,对促进AI透明性与用户参与度具有深远影响。
相关研究论文
  • 1
    Multilingual Datasets for Custom Input Extraction and Explanation Requests Parsing in Conversational XAI Systems德国人工智能研究中心(DFKI) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作