five

huuuyeah/MeetingBank_Audio

收藏
Hugging Face2023-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/huuuyeah/MeetingBank_Audio
下载链接
链接失效反馈
官方服务:
资源简介:
MeetingBank是一个从美国6个主要城市的市议会会议中创建的基准数据集,旨在补充现有数据集。它包含1,366次会议,超过3,579小时的视频,以及会议记录、议程、PDF文档和其他元数据。平均每次会议时长为2.6小时,转录文本包含超过28,000个标记,适合用于会议摘要生成和从会议视频中提取结构。数据集还包含6,892个分段级别的摘要实例,用于训练和评估性能。

MeetingBank是一个从美国6个主要城市的市议会会议中创建的基准数据集,旨在补充现有数据集。它包含1,366次会议,超过3,579小时的视频,以及会议记录、议程、PDF文档和其他元数据。平均每次会议时长为2.6小时,转录文本包含超过28,000个标记,适合用于会议摘要生成和从会议视频中提取结构。数据集还包含6,892个分段级别的摘要实例,用于训练和评估性能。
提供机构:
huuuyeah
原始信息汇总

数据集概述

名称: MeetingBank

来源: 由6个美国主要城市的市议会会议创建的基准数据集,用于补充现有数据集。

内容:

  • 包含1,366次会议,总计超过3,579小时视频。
  • 提供会议的文字记录、会议纪要的PDF文档、议程及其他元数据。
  • 平均每次会议时长2.6小时,文字记录包含超过28,000个词令牌。
  • 包含6,892个段落级别的摘要实例,用于训练和评估性能。

用途: 作为会议摘要生成和会议视频结构提取的测试平台。

许可证: CC-BY-NC-SA-4.0

数据集资源

引用信息

在利用此数据集的工作中,请引用以下论文:

MeetingBank: A Benchmark Dataset for Meeting Summarization Yebowen Hu, Tim Ganter, Hanieh Deilamsalehy, Franck Dernoncourt, Hassan Foroosh, Fei Liu 在计算语言学协会(ACL23)的主要会议上,多伦多,加拿大。

Bibtex引用格式:

@inproceedings{hu-etal-2023-meetingbank, title = "MeetingBank: A Benchmark Dataset for Meeting Summarization", author = "Yebowen Hu and Tim Ganter and Hanieh Deilamsalehy and Franck Dernoncourt and Hassan Foroosh and Fei Liu", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL)", month = July, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", }

搜集汇总
数据集介绍
main_image_url
构建方式
MeetingBank数据集的构建,旨在弥补现有数据集的不足,通过对美国六个主要城市的市议会会议进行采集。该数据集包括1,366场会议,超过3,579小时的视频资料,以及会议记录、议程等相关元数据的PDF文档。平均每场议会会议时长为2.6小时,其字幕包含超过28,000个token,为会议总结和视频结构提取提供了宝贵的测试平台。数据集内含有6,892个分段级别的总结实例,用于训练和评估性能。
特点
该数据集的主要特点在于其内容丰富、真实性强。包含的会议视频和转录文本不仅覆盖了广泛的议题,还提供了会议的结构化数据,如议程和分钟。此外,MeetingBank提供了多个系统的总结和人类标注,为评估会议总结系统的性能提供了多元化的基准。遵循cc-by-nc-sa-4.0许可证,保证了数据集的开放性和可用性。
使用方法
使用MeetingBank数据集,研究人员可以访问HuggingFace平台上的会议音频文件,以及Zenodo上的总结、段落转录和视频列表等资源。数据集的主JSON文件和相关脚本可在MeetingBank_Utils的GitHub仓库中找到,便于用户进行数据加载和处理。在利用此数据集进行研究和开发时,应遵循相应的使用条款,并在工作中引用相关论文以示认可。
背景与挑战
背景概述
MeetingBank数据集,作为补充现有数据集的重要成果,由Yebowen Hu等研究人员于2023年创建。该数据集汇集了美国六个主要城市的市议会会议记录,包含1,366场会议,总时长超过3,579小时的视频资料,以及相应的会议记录、议程和其他元数据。平均每场会议长度为2.6小时,会议记录包含超过28k个词汇,为会议总结和视频结构提取提供了宝贵的测试平台。MeetingBank数据集的构建,旨在为会议总结领域提供一个评估性能的基准,其研究成果已在ACL'23上发表,对自然语言处理领域产生了显著影响。
当前挑战
MeetingBank数据集在构建过程中面临了诸多挑战。首先,如何准确捕捉并总结会议中的关键信息,是一个技术性挑战。其次,数据集的构建涉及到大量视频和文本数据的处理,对数据存储和处理能力提出了考验。此外,确保数据标注的一致性和准确性,也是一个不容忽视的挑战。在所解决的领域问题上,MeetingBank数据集的挑战在于如何提高会议自动总结的准确性和效率,以满足实际应用的需求。
常用场景
经典使用场景
在自然语言处理领域,尤其是会议自动摘要领域,MeetingBank_Audio数据集以其丰富的视频、音频、会议记录和元数据资源,成为学者们研究的宝贵素材。该数据集最经典的使用场景在于,研究人员利用其提供的音频及对应转录文本,开展语音识别、情感分析、话题检测与跟踪等任务,进而实现对会议内容的精准理解和高效概括。
衍生相关工作
基于MeetingBank_Audio数据集,已经衍生出一系列相关研究工作,包括但不限于会议摘要生成算法、音频分割与标注技术、跨模态信息融合等领域的探索。这些工作进一步拓展了该数据集的应用范围,促进了多学科间的交叉融合,为智能会议系统的构建提供了理论和技术支持。
数据集最近研究
最新研究方向
在自然语言处理领域,会议自动摘要是一个极具挑战性的研究方向。MeetingBank数据集作为该领域的新兴基准,汇聚了美国六个主要城市的议会会议记录,为研究提供了丰富的资源。该数据集包含了超过3,579小时的视频及转录文本,为会话摘要和视频结构提取提供了宝贵的测试平台。近期研究聚焦于利用MeetingBank数据集对会议内容进行高效概括,以提高自动摘要系统的性能。相关研究成果已在ACL'23上发表,标志着会议自动摘要技术迈向新的里程碑,对提升会议记录处理的智能化水平具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作