microsoft/MeetingBank-QA-Summary

Name: microsoft/MeetingBank-QA-Summary
Creator: microsoft
Published: 2024-05-16 14:18:08
License: 暂无描述

Hugging Face2024-05-16 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/MeetingBank-QA-Summary

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为MeetingBank-QA-Summary，旨在评估压缩会议记录在下游任务（如问答和摘要生成）中的表现。数据集包含862个会议记录，每个记录都配有由GPT-4生成的问答对和摘要。问答对的生成过程包括使用GPT-4-32K生成10个问答对，然后通过过滤保留3个高质量的问答对。摘要生成过程则是使用GPT-4-32K对每个会议记录进行摘要。

This dataset, named MeetingBank-QA-Summary, is designed to evaluate the performance of compressed meeting transcripts in downstream tasks such as question answering and summarization. It contains 862 meeting transcripts, each paired with question-answer pairs and summaries generated by GPT-4. The generation process of the question-answer pairs involves generating 10 pairs via GPT-4-32K, followed by filtering to retain 3 high-quality pairs. The summarization process is conducted by using GPT-4-32K to generate summaries for each meeting transcript.

提供机构：

microsoft

原始信息汇总

数据集概述

基本信息

名称: MeetingBank-QA-Summary
语言: 英语
许可证: CC-BY-NC-SA-4.0
大小: 10M<n<100M
任务类别: 问答、总结

数据集内容

特征:
- idx: 整数类型
- prompt: 字符串类型，包含会议记录作为上下文
- QA_pairs: 列表类型，包含
  - question: 字符串类型，问题
  - answer: 字符串类型，答案
- summary: 字符串类型，总结
- gpt4_summary: 字符串类型，GPT-4生成的总结
分割:
- test: 包含862个样本，总字节数为13433186

数据集使用

加载示例: python meeting_bank_qa = load_dataset("microsoft/MeetingBank-QA-Summary", split="test") for i, sample in enumerate(meeting_bank_qa): origin_prompt = sample["prompt"] gpt4_summary = sample["gpt4_summary"] qa_pair_list = sample["QA_pairs"] for qa_pair in qa_pair_list: q = qa_pair["question"] a = qa_pair["answer"]

数据集生成

QA对生成:
- 初始生成10个QA对，保留3个高质量QA对
- 使用GPT-4-32K，确保答案长度不超过50个令牌
总结生成:
- 使用GPT-4-32K生成每个会议记录的总结

引用信息

bibtex @inproceedings{pan2024llmlingua2, title={LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression}, author={Zhuoshi Pan and Qianhui Wu and Huiqiang Jiang and Menglin Xia and Xufang Luo and Jue Zhang and Qingwei Lin and Victor Rühle and Yuqing Yang and Chin-Yew Lin and H. Vicky Zhao and Lili Qiu and Dongmei Zhang}, year={2024}, booktitle = {Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics}, publisher = {Association for Computational Linguistics} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，会议记录的分析与理解是提升人机交互效率的关键环节。MeetingBank-QA-Summary数据集的构建采用了前沿的数据蒸馏技术，以GPT-4-32K模型为核心，对MeetingBank测试集中的862条会议转录文本进行深度处理。首先，模型依据特定指令生成每条转录文本的10组问答对，随后通过严格的筛选机制，剔除答案长度超过50个标记的条目，并验证答案是否忠实于原始文本，最终为每条转录保留3组高质量问答对。同时，模型还生成了对应的会议摘要，确保了数据在问答与摘要任务上的双重适用性。

特点

该数据集在会议理解任务中展现出鲜明的特色，其核心在于融合了问答对与摘要的双重标注。每条数据均包含原始会议转录文本、由GPT-4生成的摘要以及经过滤的高质量问答对，这种结构为评估提示压缩技术在信息保留度方面的效能提供了多维度的基准。数据集的规模适中，涵盖广泛的会议场景，确保了任务评估的全面性与代表性。此外，问答对经过精心筛选，有效规避了模型幻觉带来的噪声，提升了数据的可靠性与实用性。

使用方法

为便于研究者高效利用该数据集，其设计遵循了标准化的加载流程。用户可通过Hugging Face的load_dataset函数直接调用，指定数据集名称与测试分割即可获取全部样本。每个样本包含prompt（原始会议转录）、gpt4_summary（GPT-4生成的摘要）以及QA_pairs（问答对列表）等关键字段。在具体应用中，用户可遍历样本，提取转录文本作为上下文，结合生成的摘要与问答对，进行下游任务如问答系统性能评估或摘要质量分析的实验，从而推动提示压缩与会议理解技术的进一步发展。

背景与挑战

背景概述

在自然语言处理领域，会议记录的理解与信息提取一直是研究热点，旨在提升机器对复杂对话场景的语义解析能力。MeetingBank-QA-Summary数据集由微软研究团队于2024年提出，作为LLMLingua-2研究项目的重要组成部分，该数据集基于先前MeetingBank（Hu等人，2023）的测试集构建，包含862条会议转录文本。其核心研究问题聚焦于评估压缩后的会议转录在问答与摘要生成等下游任务中的性能表现，通过GPT-4生成的高质量问答对和摘要，为提示压缩与知识蒸馏技术提供了关键基准，推动了高效且忠实于原文的任务无关提示压缩方法的发展，对对话系统与信息检索领域产生了显著影响。

当前挑战

该数据集旨在解决会议转录场景下的问答与摘要生成任务，其挑战在于处理冗长且结构松散的对话内容，确保模型能够准确捕捉关键信息并避免幻觉现象。构建过程中，研究人员面临多重困难：首先，利用GPT-4-32K生成初始问答对时，需严格筛选答案长度不超过50个词符的样本，以保障简洁性；其次，必须逐条验证答案是否真实源于原始转录，而非模型虚构，此过程耗费大量人工审核精力；最终，仅保留每条转录中最具代表性的3对问答，这一数据蒸馏步骤对质量与效率的平衡提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，会议记录的分析与理解一直是极具挑战性的任务，涉及复杂的长文本处理和信息抽取。MeetingBank-QA-Summary数据集为这一领域提供了宝贵的资源，其最经典的使用场景在于评估提示压缩技术在会议转录本上的效果。具体而言，研究者利用该数据集中的862条会议转录本作为上下文，结合由GPT-4生成的问答对和摘要，系统性地测试不同压缩方法在保持下游任务（如问答和摘要）性能方面的能力。这为开发高效的提示压缩算法提供了标准化的评估基准，推动了模型在资源受限环境下的应用。

衍生相关工作

该数据集自推出以来，已衍生出多项重要的相关研究工作。其核心论文LLMLingua-2（Pan et al., 2024）首次提出了基于数据蒸馏的提示压缩框架，为后续的高效语言模型压缩研究奠定了基础。在此基础上，学术界进一步探索了针对会议转录本的特定压缩策略，如结合领域知识的自适应压缩方法，以及多模态会议内容的联合处理技术。同时，该数据集也被广泛用于评估各类大型语言模型在长文档理解任务上的泛化能力，促进了如MeetingBank（Hu et al., 2023）等先前工作的延伸与深化，形成了从数据构建到模型优化的完整研究链条。

数据集最近研究