AMAQA

Name: AMAQA
Creator: 意大利国家研究委员会信息与电信研究所, 意大利比萨大学信息工程系
Published: 2025-05-19 16:59:08
License: 暂无描述

arXiv2025-05-19 更新2025-05-22 收录

下载链接：

https://anonymous.4open.science/r/AMAQA-5D0D/

下载链接

链接失效反馈

官方服务：

资源简介：

AMAQA是一个开放获取的问答数据集，旨在评估结合文本和元数据的任务。数据集包括约110万条从26个公共Telegram群组收集的英文消息，这些消息被丰富了时间戳、主题、情绪色调和毒性指标等元数据，从而能够根据特定标准过滤文档以进行精确和情境化的查询。此外，数据集还包括450个高质量的问答对，使其成为推进基于元数据的问答和RAG系统研究的重要资源。AMAQA是第一个将元数据和标签（如消息中涵盖的主题）纳入的单跳问答基准，为未来研究建立了新的标准。

AMAQA is an open-access question answering (QA) dataset developed to evaluate tasks that integrate both text and metadata. It contains approximately 1.1 million English messages collected from 26 public Telegram groups, with enriched metadata including timestamps, topics, emotional tones, and toxicity metrics. This metadata enables precise and context-aware querying by allowing documents to be filtered per specific criteria. Additionally, the dataset includes 450 high-quality question-answer pairs, making it a pivotal resource for advancing research on metadata-based question answering and Retrieval-Augmented Generation (RAG) systems. Notably, AMAQA is the first single-hop QA benchmark that incorporates metadata and labels such as the topics covered in the messages, establishing a new standard for future research in this field.

提供机构：

意大利国家研究委员会信息与电信研究所, 意大利比萨大学信息工程系

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

AMAQA数据集构建过程严谨且系统化，首先从26个公开Telegram群组中收集了约110万条英文消息，覆盖了俄乌冲突、美国大选和巴以冲突等热点话题。数据采集时段为2024年6月至8月，确保时效性与事件完整性。每条消息均通过零样本分类器标注了基于Ekman模型的七种情感特征，并采用Perspective API量化毒性、侮辱等五类负面内容指标。主题标注采用混合方法，结合人工定义与BERTTopic聚类，最终形成58个主题标签，所有标注工作均由GPT-4o完成以保证规模效率。为构建高质量问答对，研究团队通过参数化生成90,480个ElasticSearch查询，筛选出1,477个有效查询结果，经GPT-4o生成与人工双重校验后形成450组黄金标准QA对。

特点

该数据集的核心价值在于其多维元数据架构，每条消息不仅包含原始文本，还整合了时间戳、来源群组、情感极性（愤怒/快乐等）、毒性概率（0-1连续值）及58维主题向量等结构化特征。这种设计使得数据集能支持复杂场景的语义检索，例如“检索2024-06-16日‘Pilot Blog Chat’群组中讨论湖人队的毒性消息”。数据分布呈现显著领域特性：政治冲突类主题占比达63%，愤怒情绪占比41.2%，107,154条消息被标记为毒性内容，反映了社交媒体争议性讨论的典型特征。作为首个支持单跳问答的元数据增强基准，其独特之处在于允许通过自然语言直接操作元数据过滤器。

使用方法

使用AMAQA需采用分层处理框架：首先解析自然语言问题中的元数据约束（如时间范围、群组名称），将其转化为ElasticSearch过滤条件缩小检索范围；随后基于sentence-transformers模型计算语义相似度，配合交叉编码器ms-marco-MiniLM-L-12v2进行文档重排序；最终将精选文档与问题共同输入生成式LLM。实验表明最佳实践为Iter-Re2G with Noise架构，设置k=200检索文档后注入2篇无关游戏论坛噪声文本，通过滑动窗口迭代生成直至获得非“未知”答案。该流程在官方测试中使准确率从基准0.12提升至0.75，验证了元数据过滤与噪声增强的协同效应。数据集需配合HuggingFace生态工具链使用，特别推荐FlashRank库实现高效重排序。

背景与挑战

背景概述

AMAQA数据集由意大利国家研究委员会信息学和远程信息处理研究所及比萨大学的研究团队于2025年提出，旨在解决检索增强生成（RAG）系统中元数据整合不足的问题。该数据集包含约110万条来自26个公共Telegram群的英文消息，每条消息均附有时戳、话题、情感基调及毒性指标等元数据，并包含450个高质量问答对。作为首个融合元数据的单跳问答基准，AMAQA为网络安全、情报分析等需要结合文本与外部信息的领域提供了重要研究资源，其创新性设计显著提升了RAG系统的上下文感知能力。

当前挑战

AMAQA面临的挑战主要体现在两方面：领域问题层面，传统问答系统难以有效利用元数据进行精准文档过滤与语义理解，例如需同时处理‘2024-06-16发布的毒性消息’等多重元数据约束；构建过程层面，需克服海量消息的情感标注与话题分类难题，采用GPT-4o自动化标注时存在指令遵循偏差，且需通过两阶段人工验证确保问答对质量。此外，数据采集需严格遵循GDPR合规性，仅使用公开群组信息以避免隐私风险。

常用场景

经典使用场景

AMAQA数据集专为评估检索增强生成（RAG）系统而设计，特别关注元数据在问答任务中的整合。其经典使用场景包括在需要结合文本数据和外部信息的复杂查询中，如网络安全和情报分析领域。通过利用时间戳、主题、情感基调等元数据，AMAQA能够支持精确的上下文查询，提升系统在多层次过滤和语义理解上的表现。

衍生相关工作

AMAQA的推出激发了多项相关研究，特别是在元数据过滤和检索优化方面。基于该数据集的研究提出了Iter-Re2G和Re2G with Noise等创新方法，进一步提升了RAG系统的性能。这些工作不仅验证了元数据在问答系统中的价值，还为未来研究提供了新的技术路线和基准。

数据集最近研究