integreat-qa

Hugging Face2024-09-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/digitalfabrik/integreat-qa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含906个德语和英语的QA对，用于抽取式问答任务。问题由大型语言模型自动生成，答案通过众包手动标注。每个QA对包含问题、上下文、答案句子索引等属性，并附有唯一ID、语言、源语言（如果机器翻译）、城市、页面ID和Jaccard系数（用于衡量手动标注答案的一致性）。

This dataset contains 906 German and English QA pairs for extractive question answering tasks. Questions are automatically generated by large language models, while answers are manually annotated via crowdsourcing. Each QA pair includes attributes such as the question, context, answer sentence index, etc., and is accompanied by a unique ID, language, source language (if machine-translated), city, page ID, and Jaccard coefficient used to measure the consistency of manually annotated answers.

创建时间：

2024-09-26

原始信息汇总

Integreat QA 数据集

概述

名称: Integreat QA
任务类别: 问答
任务ID: 抽取式问答
语言: 德语、英语
标签: 迁移、难民、抽取式问答
数据量: 906个多样化的问答对
注释创建者: 众包
数据来源: 原始数据
许可证: CC BY 4.0

数据集描述

数据类型: 抽取式问答数据集
答案格式: 答案以句子索引形式给出（以换行符为分隔）
问题生成: 使用大型语言模型自动生成
答案注释: 通过众包手动注释

数据集属性

问题: 字符串
上下文: 字符串（来自Integreat应用的全文）
答案: 数字数组（答案句子的索引）
ID: 数字（问答对的唯一ID）
语言: 字符串（问题和上下文的语言）
源语言: 字符串或null（如果问题和上下文是机器翻译的，则为源语言）
城市: 字符串（Integreat应用中页面的所属城市）
页面ID: 数字（Integreat应用中页面的ID）
Jaccard系数: 数字（手动答案注释的句子级注释者间一致性）

搜集汇总

数据集介绍

构建方式

Integreat QA数据集的构建过程体现了多语言问答系统的复杂性与精确性。该数据集包含906个德英双语问答对，其问题通过大型语言模型自动生成，而答案则通过志愿者众包的方式进行人工标注。每个答案以句子索引的形式呈现，确保了数据的精确性和可追溯性。数据集来源于Integreat-App的文本内容，涵盖了移民和难民相关的主题，反映了现实世界中的多样化需求。

特点

Integreat QA数据集的特点在于其多语言支持和高度结构化的数据格式。每个问答对不仅包含问题和上下文文本，还标注了答案句子的索引，便于直接提取相关信息。此外，数据集还提供了唯一标识符、语言信息、源语言（如适用）、城市归属、页面ID以及句子级别的标注一致性指标（Jaccard系数），这些属性为研究者和开发者提供了丰富的信息维度，支持多方面的分析和应用。

使用方法

Integreat QA数据集的使用方法主要围绕问答系统的开发与评估展开。研究者可以通过加载数据集，利用其结构化的问答对进行模型训练，特别是针对提取式问答任务的优化。数据集的多语言特性使其适用于跨语言问答系统的研究。此外，标注一致性指标（Jaccard系数）为评估模型性能提供了额外的参考维度。开发者还可以结合城市和页面ID信息，探索特定区域或主题的问答需求，从而为实际应用场景提供定制化解决方案。

背景与挑战

背景概述

Integreat QA数据集是一个专注于移民和难民问题的问答数据集，涵盖了德语和英语两种语言。该数据集由906个多样化的问答对组成，旨在通过提取式问答的方式，帮助用户从Integreat-App的文本中获取相关信息。数据集的核心研究问题在于如何通过自动生成问题和手动标注答案的方式，提升问答系统的准确性和实用性。该数据集的创建时间可追溯至2018年，相关研究论文发表于arXiv和ACL Anthology等权威平台，展示了其在自然语言处理领域的影响力。Integreat QA不仅为移民和难民相关的研究提供了宝贵的数据资源，还推动了跨语言问答系统的发展。

当前挑战

Integreat QA数据集面临的挑战主要体现在两个方面。首先，在领域问题的解决上，由于移民和难民问题的复杂性和多样性，如何确保问答对能够覆盖广泛且具有代表性的场景，是一个重要的挑战。其次，在数据集的构建过程中，自动生成问题的质量依赖于大型语言模型（LLM），而手动标注答案则依赖于众包，这两者都可能引入不一致性和偏差。此外，跨语言的问答对需要处理语言间的语义差异，这对数据集的标注和评估提出了更高的要求。如何提高标注的一致性和数据的跨语言适用性，是该数据集未来需要解决的关键问题。

常用场景

经典使用场景

在移民和难民服务领域，integreat-qa数据集被广泛应用于问答系统的开发与优化。该数据集通过提供多语言（德语和英语）的问答对，帮助研究人员和开发者构建能够理解并回答与移民相关问题的智能系统。这些系统通常用于帮助新移民快速获取所需信息，如法律咨询、医疗服务等。

实际应用

在实际应用中，integreat-qa数据集被用于开发智能助手和在线服务平台，帮助移民和难民快速获取关键信息。例如，政府和非政府组织可以利用该数据集构建多语言问答系统，提供关于居住许可、就业机会、教育资源等方面的即时解答。这种应用显著提高了信息获取的效率，减少了语言和文化障碍带来的困扰。

衍生相关工作

基于integreat-qa数据集，许多经典研究工作得以展开。例如，研究者们开发了多语言问答模型，能够同时处理德语和英语的查询。此外，该数据集还促进了跨语言信息检索技术的发展，使得系统能够更好地理解和回答来自不同文化背景的用户问题。这些工作不仅提升了问答系统的性能，还为未来的多语言处理研究奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集