OMoS-QA

Name: OMoS-QA
Creator: 奥格斯堡大学, Tür an Tür Digitalfabrik GmbH
Published: 2024-07-22 23:40:17
License: 暂无描述

arXiv2024-07-22 更新2024-07-24 收录

下载链接：

https://github.com/digitalfabrik/integreat-qa-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OMoS-QA数据集由奥格斯堡大学和Tür an Tür Digitalfabrik GmbH联合开发，专注于德语和英语的跨语言提取式问答，特别针对德国移民背景。数据集包含超过900个自动生成的问题和手动标注的答案，涉及多种社会、经济和法律主题。数据集的创建过程包括使用大型语言模型自动生成问题，并通过众包方式进行手动标注。OMoS-QA旨在支持在线咨询系统的开发和严格测试，特别是在帮助新移民获取必要信息方面。

The OMoS-QA dataset was co-developed by the University of Augsburg and Tür an Tür Digitalfabrik GmbH, focusing on cross-lingual extractive question answering for German and English, with a specific emphasis on the German immigrant context. The dataset includes over 900 automatically generated questions and manually annotated answers, covering diverse social, economic and legal topics. The dataset creation process involves using large language models (LLMs) to automatically generate questions, followed by manual annotation via crowdsourcing. OMoS-QA aims to support the development and rigorous testing of online consultation systems, especially for helping newly arrived immigrants obtain necessary information.

提供机构：

奥格斯堡大学, Tür an Tür Digitalfabrik GmbH

创建时间：

2024-07-22

原始信息汇总

integreat-chat-dataset

数据集概述

名称: integreat-chat-dataset
用途: 用于训练 integreat chat（又称 OMoS）的数据和工具

搜集汇总

数据集介绍

构建方式

OMoS-QA数据集的构建过程包括从三个德国市政当局提供的真实多语言知识库中获取文档，使用Mixtral-8x7B大语言模型自动生成问题，并通过众包的方式由人工标注答案。为了保证数据集的质量，每个问题至少由两名不同的人工标注者进行标注，并且只有当两个标注者在选择相关句子上的交集超过一定阈值时，该问题才会被包含在最终的数据集中。

使用方法

使用OMoS-QA数据集时，可以将其作为训练和评估提取式问答（QA）模型的基础。数据集被分为训练集、开发集和测试集，可以用于模型的预训练、微调和评估。此外，OMoS-QA数据集还支持跨语言问答实验，可以将问题翻译成其他语言，并在非母语文档上进行问答。

背景与挑战

背景概述

OMoS-QA数据集旨在解决移民在迁移过程中获取关键信息的问题。该数据集由德国奥格斯堡大学和Tür an Tür Digitalfabrik GmbH合作创建，旨在支持在线咨询系统的发展，为移民提供有关财务支持、住房、学校教育、语言课程等方面的信息。OMoS-QA数据集包括德语和英语的问题，以及相关的可信文档和人工标注的答案。该数据集的核心研究问题是开发一个能够跨语言进行抽取式问答的系统，以帮助移民快速获取必要的信息。OMoS-QA数据集对相关领域的影响力在于，它提供了一个专门针对移民咨询场景的问答数据集，有助于研究人员开发和应用更有效的跨语言问答技术。

当前挑战

OMoS-QA数据集面临的挑战包括：1)构建过程中所遇到的挑战：数据集的构建需要收集大量的可信文档和人工标注的答案，这需要大量的时间和人力资源。2)所解决的领域问题的挑战：移民咨询场景下的问答任务具有很高的敏感性，要求系统提供准确、可靠的信息。此外，跨语言问答任务本身就是一个复杂的挑战，需要解决语言差异、文化差异等问题。3)模型训练和评估的挑战：OMoS-QA数据集需要训练和评估多种预训练语言模型，以找到最适合该任务的模型。同时，还需要解决模型训练过程中的过拟合、欠拟合等问题。

常用场景

经典使用场景

OMoS-QA数据集主要用于支持跨语言抽取式问答系统的发展，特别是在德语迁移背景下。该数据集包含了德语和英语的问题，以及相关的可靠文档和手动标注的答案。这些数据集的构建是为了帮助移民者在适应新国家时获取必要的信息，例如财政支持、住房、学校、语言课程等。OMoS-QA数据集的特点是使用开放权重的大语言模型自动生成问题，并通过众包方式由高一致性的工作人员选择答案句子。

解决学术问题

OMoS-QA数据集解决了在特定领域，如移民咨询，如何构建高质量问答数据集的问题。该数据集通过手动标注和筛选过程，确保了答案的准确性和可信度，从而为研究者提供了评估和改进问答模型的重要资源。此外，OMoS-QA还关注于如何处理无答案的问题，这在实际应用中是非常重要的。

实际应用

OMoS-QA数据集的实际应用场景包括在线移民咨询服务系统，该系统旨在帮助新移民快速获取必要的信息。通过使用OMoS-QA数据集，系统可以自动从相关文档中提取答案，并提供给用户。此外，该数据集还可以用于开发和评估跨语言问答模型，以支持多语言环境下的信息获取。

数据集最近研究