huuuyeah/MeetingBank_Audio

Name: huuuyeah/MeetingBank_Audio
Creator: huuuyeah
Published: 2023-07-12 02:20:32
License: 暂无描述

Hugging Face2023-07-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/huuuyeah/MeetingBank_Audio

下载链接

链接失效反馈

官方服务：

资源简介：

MeetingBank是一个从美国6个主要城市的市议会会议中创建的基准数据集，旨在补充现有数据集。它包含1,366次会议，超过3,579小时的视频，以及会议记录、议程、PDF文档和其他元数据。平均每次会议时长为2.6小时，转录文本包含超过28,000个标记，适合用于会议摘要生成和从会议视频中提取结构。数据集还包含6,892个分段级别的摘要实例，用于训练和评估性能。

提供机构：

huuuyeah

原始信息汇总

数据集概述

名称: MeetingBank

来源: 由6个美国主要城市的市议会会议创建的基准数据集，用于补充现有数据集。

内容:

包含1,366次会议，总计超过3,579小时视频。
提供会议的文字记录、会议纪要的PDF文档、议程及其他元数据。
平均每次会议时长2.6小时，文字记录包含超过28,000个词令牌。
包含6,892个段落级别的摘要实例，用于训练和评估性能。

用途: 作为会议摘要生成和会议视频结构提取的测试平台。

许可证: CC-BY-NC-SA-4.0

数据集资源

总结、段落文字记录和视频列表: Zenodo
会议音频: HuggingFace

引用信息

在利用此数据集的工作中，请引用以下论文:

MeetingBank: A Benchmark Dataset for Meeting Summarization Yebowen Hu, Tim Ganter, Hanieh Deilamsalehy, Franck Dernoncourt, Hassan Foroosh, Fei Liu 在计算语言学协会(ACL23)的主要会议上，多伦多，加拿大。

Bibtex引用格式:

@inproceedings{hu-etal-2023-meetingbank, title = "MeetingBank: A Benchmark Dataset for Meeting Summarization", author = "Yebowen Hu and Tim Ganter and Hanieh Deilamsalehy and Franck Dernoncourt and Hassan Foroosh and Fei Liu", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL)", month = July, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

MeetingBank数据集的构建，旨在弥补现有数据集的不足，通过对美国六个主要城市的市议会会议进行采集。该数据集包括1,366场会议，超过3,579小时的视频资料，以及会议记录、议程等相关元数据的PDF文档。平均每场议会会议时长为2.6小时，其字幕包含超过28,000个token，为会议总结和视频结构提取提供了宝贵的测试平台。数据集内含有6,892个分段级别的总结实例，用于训练和评估性能。

特点

该数据集的主要特点在于其内容丰富、真实性强。包含的会议视频和转录文本不仅覆盖了广泛的议题，还提供了会议的结构化数据，如议程和分钟。此外，MeetingBank提供了多个系统的总结和人类标注，为评估会议总结系统的性能提供了多元化的基准。遵循cc-by-nc-sa-4.0许可证，保证了数据集的开放性和可用性。

使用方法

使用MeetingBank数据集，研究人员可以访问HuggingFace平台上的会议音频文件，以及Zenodo上的总结、段落转录和视频列表等资源。数据集的主JSON文件和相关脚本可在MeetingBank_Utils的GitHub仓库中找到，便于用户进行数据加载和处理。在利用此数据集进行研究和开发时，应遵循相应的使用条款，并在工作中引用相关论文以示认可。

背景与挑战

背景概述

MeetingBank数据集，作为补充现有数据集的重要成果，由Yebowen Hu等研究人员于2023年创建。该数据集汇集了美国六个主要城市的市议会会议记录，包含1,366场会议，总时长超过3,579小时的视频资料，以及相应的会议记录、议程和其他元数据。平均每场会议长度为2.6小时，会议记录包含超过28k个词汇，为会议总结和视频结构提取提供了宝贵的测试平台。MeetingBank数据集的构建，旨在为会议总结领域提供一个评估性能的基准，其研究成果已在ACL'23上发表，对自然语言处理领域产生了显著影响。

当前挑战

MeetingBank数据集在构建过程中面临了诸多挑战。首先，如何准确捕捉并总结会议中的关键信息，是一个技术性挑战。其次，数据集的构建涉及到大量视频和文本数据的处理，对数据存储和处理能力提出了考验。此外，确保数据标注的一致性和准确性，也是一个不容忽视的挑战。在所解决的领域问题上，MeetingBank数据集的挑战在于如何提高会议自动总结的准确性和效率，以满足实际应用的需求。

常用场景

经典使用场景

在自然语言处理领域，尤其是会议自动摘要领域，MeetingBank_Audio数据集以其丰富的视频、音频、会议记录和元数据资源，成为学者们研究的宝贵素材。该数据集最经典的使用场景在于，研究人员利用其提供的音频及对应转录文本，开展语音识别、情感分析、话题检测与跟踪等任务，进而实现对会议内容的精准理解和高效概括。

衍生相关工作

基于MeetingBank_Audio数据集，已经衍生出一系列相关研究工作，包括但不限于会议摘要生成算法、音频分割与标注技术、跨模态信息融合等领域的探索。这些工作进一步拓展了该数据集的应用范围，促进了多学科间的交叉融合，为智能会议系统的构建提供了理论和技术支持。

数据集最近研究